Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Opas tekstin havaitsemiseen ja tunnistamiseen MMOCR:n avulla

Seuraava artikkeli auttaa sinua: Opas tekstin havaitsemiseen ja tunnistamiseen MMOCR:n avulla

Optinen merkintunnistus (OCR) on eräänlainen kuvan muunnos, joka pohjimmiltaan poimii tekstiä tietystä kuvasta, asiakirjakuvasta jne. Erilaisia ​​sovelluksia ja teknologioita, kuten Adobe Acrobat ja ML-pohjainen työkalu, kuten Tesseract OCR, on kehitetty. kehitetty auttamaan tätä prosessia. Tässä artikkelissa käydään läpi OCR-menetelmällä suoritettuja tehtäviä. Sen jälkeen tarkastelemme MMOCR:ää, Python-pohjaista sovellusta, joka keskittää kaikki tekstintunnistusohjelmaan liittyvät toiminnot. Alla on lueteltu tärkeimmät kohdat, joista on keskusteltava tässä artikkelissa.

Sisällysluettelo

  1. Tekstin tunnistus
  2. Tekstin tunnistus
  3. Kuinka MMOCR yhdistää kaiken yllä olevan

Keskustellaan ensin tekstin tunnistamisesta.

Tekstin tunnistus

Tekstintunnistus on tekniikka, jolla tunnistetaan kuvassa oleva teksti ja suljetaan se sitten suorakaiteen muotoisella rajauslaatikolla. Teksti voidaan havaita käyttämällä kuva- tai taajuuspohjaisia ​​algoritmeja.

Kuvapohjaisia ​​lähestymistapoja käytetään kuvien segmentoimiseen useisiin segmentteihin. Jokainen segmentti koostuu pikseleistä, joilla on vertailukelpoisia ominaisuuksia ja jotka ovat yhteydessä toisiinsa. Asiaan liittyvien komponenttien tilastollisia ominaisuuksia käytetään tekstin luokitteluun ja muotoiluun. Koneoppimistekniikoita, kuten tukivektorikoneita ja konvoluutiohermoverkkoja käytetään komponenttien luokittelemiseen tekstiksi tai ei-tekstiksi. Alla on esimerkki tekstin tunnistuksesta.

Korkeataajuiset kertoimet erotetaan käyttämällä diskreetti Fourier-muunnosta (DFT) tai diskreetti aallokemuunnos (DWT) taajuuspohjaisissa lähestymistavoissa. Kuvan tekstissä uskotaan olevan korkeataajuisia komponentteja, ja vain suurtaajuisten kertoimien valitseminen erottaa tekstin ei-tekstialueista.

Tietylle kuvalle on teksti- ja ei-tekstialueita, joilla on erilaiset tekstiominaisuudet. Aluepohjaiset lähestymistavat jakavat kuvat pieniin osiin ikkunoiden avulla ja etsivät näiltä alueilta tekstin läsnäoloa tekstuuri- tai morfologisilla operaatioilla. Jotkut tekniikat luokittelevat tekstiä ja ei-tekstiä käyttämällä 64 x 32 pikselin ikkunaa ja Modest AdaBoost -luokittajaa kuvan 16 eri tila-asteikolla ottaen huomioon tekstin koon oleelliset muutokset.

Tekstin tunnistus

Tekstintunnistusvaihe muuttaa tekstikuvat merkkijonoksi tai lauseeksi. Sanat ovat alkeellinen kokonaisuus, jota ihmiset käyttävät visuaaliseen tunnistamiseen, joten tekstin kuvien muuntaminen sanoiksi on kriittistä.

🔥 Empfohlen:  Sonosilla on vihdoin pienempi, edullisempi langaton subwoofer

Hahmontunnistus ja sanantunnistus ovat kaksi erilaista tunnistustekniikkaa. Merkintunnistusalgoritmit erottavat tekstikuvan useisiin yksimerkkisiin leikkauksiin. Näissä strategioissa vierekkäisten merkkien erottaminen toisistaan ​​on ratkaisevan tärkeää.

Tunnistusprosessissa käytetään optista merkintunnistusmoduulia (OCR) käyttävää merkin tunnistusta, jossa kuvat segmentoidaan ensin k luokkaan, minkä jälkeen luodaan binääritekstikuvahypoteesi, joka kulkee yhdistettyjen komponenttien analyysin ja harmaasävyyhteensopivuusrajoitusmoduulin läpi ennen syöttämistä. OCR:ään.

Merkkien tunnistamiseen käytetään tukivektorikoneeseen (SVM) perustuvaa luokittelua, koska SVM tukee hyvin moniluokkaista luokittelua.

Sanantunnistus tunnistaa sanat tekstikuvista yhdistämällä merkintunnistustulokset kielimalleihin tai sanastoon. Kun kyseessä ovat huonontuneet merkit, sitä voidaan käyttää. Sanantunnistus on ylivoimainen tapa tunnistaa merkkejä tilanteissa, joissa syöttökuvissa on rajoitettu määrä sanamahdollisuuksia.

Kuinka MMOCR yhdistää kaiken yllä olevan

MMOCR on lyhenne sanoista MultiMedia Optical Character Recognition, joka on python-pohjainen työkalupakki, jossa yhdistyvät kaikki edellä käsitellyt toiminnot, joita tarvitaan täydelliseen päästä päähän -ratkaisuun OCR-kentässä.

MMOCR tarjoaa erityisesti putkilinjan tekstin havaitsemiseen ja tunnistamiseen sekä loppupään tehtäviin, kuten nimettyjen entiteettien tunnistamiseen ja kriittisten tietojen poimimiseen. MMOCR:ssä on 14 huippuluokan algoritmia, mikä on paljon enemmän kuin missään muussa avoimen lähdekoodin OCR-projektissa, kuten Tesseract OCR.

Työkalupakki sisältää nyt seitsemän tekstintunnistusmenetelmää, viisi tekstintunnistusmenetelmää, yhden avaintietomenetelmän ja yhden nimetyn kokonaisuuden tunnistusmenetelmän.

Katsotaan nyt, kuinka voimme hyödyntää tätä työkalua käytännössä. Suorittamalla alla olevan skriptin voimme asentaa kaikki riippuvuudet, jotka tarvitaan tämän työkalun suorittamiseen, jos sinulla on ongelmia, katso tämä virallinen asennusopas.

# asennetaan pytorch prebuilt ! pip install torch==1.6.0 torchvision==0.7.0 # asenna mmcv (tietokonenäköpohjainen kirjasto)! pip install mmcv-full -f https://download.openmmlab.com/mmcv/dist/cu101/torch1.6.0/index.html # nyt alla asenna mmdet, mmocr ! pip install mmdet ! git-klooni https://github.com/open-mmlab/mmocr.git %cd mmocr! pip install -r vaatimukset.txt ! pip asennus -v -e . !export PYTHONPATH=$(pwd):$PYTHONPATH

Suoritamme ensin tekstintunnistuksen kyseiselle tuonti-MMOCR-luokalle asennetusta arkistosta alla ja tämän luokan sisällä. Eri menetelmät voidaan alustaa, kuten havaitseminen, tunnistus ja ymmärtäminen.

🔥 Empfohlen:  Etsyn jälleenmyyjän opas: Kuinka aloittaa myynti Etsyssä

from mmocr.utils.ocr import MMOCR ocr = MMOCR(det=”TekstiKäärme”, recog=Ei mitään) tulokset = ocr.readtext(‘/content/street-sign-board-500×500.jpg’, output=”/content/street .jpg”, export=”/content/”)

Yllä olevassa menetelmässä olemme määrittäneet polun tulostekuvalle oletusarvoiseen colab-hakemistoon tulostiedoston nimellä, ja sen tuloksena tunnistus ilmoittaa rajauslaatikoista, kuten alla näkyy.

Vastaavasti, kun yhdistämme havaitsemisen ja tunnistuksen, meidän on alustettava sekä det että recog MMOCR-luokan sisällä, kuten alla.

# tunnistus+tunnistus ocr = MMOCR(det=”PS_CTW”, recog=’SAR’) # Päättelytulokset = ocr.readtext(‘/content/ealistic-shop-receipt-paper-payment-bill.jpg’,export=” /content/”,output=”/content/bill.jpg”, print_result=True)

ocr.readtextin sisällä asetimme print_reultin arvoksi True, mikä antaa meille tuloksen Jason-muodon ja tähän tehtävään olemme käyttäneet laskukuittia,

Jason tulos,

JPG tulos,

Viimeiset sanat

Tässä artikkelissa olemme keskustelleet tekstin havaitsemisesta ja tunnistamisesta tietylle kuvalle ja lyhyesti siitä, mitä menetelmiä käytetään näiden tehtävien suorittamiseen. Päästä päähän -alustan helpottamiseksi meillä on syvä oppimiseen perustuva työkalupakki nimeltä MMOCR, jonka avulla voimme suorittaa kaikki OCR:ään liittyvät tehtävät yhden kehyksen sisällä.

Viitteet

Table of Contents