Tesseract: bezmaksas OCR risinājums

Ievads

Tessereact tiek uzskatīts par vienu no labākajiem pieejamajiem OCR risinājumiem. Kopš 2006. gada to sponsorē Google, iepriekš to izstrādāja Hewlett Packard C un C ++ laikposmā no 1985. līdz 1998. gadam. Sistēma spēj identificēt pat rokrakstu, tā var iemācīties palielināt precizitāti un ir viena no attīstītākajām un pilnīgākajām tirgū.

Tas viegli pārspēj tādus komerciālos konkurentus kā ABBY, ja jūs meklējat nopietnu OCR risinājumu, Tesseract ir visprecīzākais, taču neceriet uz masīviem risinājumiem: katram procesam tiek izmantots kodols, kas nozīmē 8 kodolu procesoru (hyperthreading Pieņemts) varēs vienlaikus apstrādāt 8 vai 16 attēlus.

Kad es izmantoju Tesseract, mēs pārvaldījām tūkstošiem potenciālo klientu, augšupielādējot ar roku rakstītu saturu, attēlus ar tekstu utt. Mēs izmantojām 48 galvenos serverus, izmantojot DatabaseByDesign un pēc tam ar AWS, mums nekad nebija problēmu ar resursiem.

Mums bija augšupielādētājs, kas nošķīra teksta failus, piemēram, Microsoft Office vai Open Office failus, un attēlus vai skenētus dokumentus. Augšupielādētājs teksta atpazīšanas jomā noteica visu, ko OCR vai PHP skripti apstrādās pasūtījumu.

Tesseact ir lielisks risinājums, taču, pirms domājat par to, jums jāzina, pēdējās Tesseract versijas radīja lielus uzlabojumus, daži no tiem nozīmē smagu darbu. Lai gan apmācība var ilgt vairākas stundas vai vairākas dienas, nesenās Tesserct versijas mācības var būt dienas, nedēļas vai pat mēneši, ja meklējat daudzvalodu OCR risinājumu.

Tesseract 4 instalēšana Debian / Ubuntu:

apt-get instalēt tesseract-ocr

Ja izmantojat citu Linux izplatīšanu, jums būs jākopē pēdējā github repozitorija versija un jākopē .apmācīto datu fails “tessdata” (/ usr / share / tesseract-ocr / tessdata vai / usr / share / tessdata).

Pēc noklusējuma Tesseract instalēs angļu valodas pakotni, lai instalētu papildu palaistās valodas

apt-get instalēt tesseract-ocr-LANG

piemēram, lai pievienotu ebreju:

apt-get instalēt tesseract-ocr-heb

Palaižot, varat iekļaut visas valodas:

apt-get instalēt tesseract-ocr-all

Lai Tesseract darbotos pareizi, mums būs jāizmanto komanda “convert” (konvertēšana starp attēlu formātiem, kā arī attēla izmēra maiņa, izplūdums, apgriešana, despeckle, blīvēšana, vilkšana, uzsist, pievienošanās, atkārtota paraugu atlase un daudz vairāk), ko nodrošina Imagemagick:

Ļauj instalēt imagemagick ar apt-get:

apt-get install imagemagick

Tagad pārbaudīsim Tesseract, atrodam attēlu, kurā ir teksts, un palaidīsim:

tesseract [attēla_nosaukums] [izvades faila_nosaukums]

Ja tas ir pareizi uzstādīts, Tesseract izvelk tekstu no attēla.

Kad es strādāju ar Tesseract, viss, kas mums bija vajadzīgs, bija vārdu skaitīšana. Tāpat kā ar jebkuru citu programmu, jūs varat un jums tas ir jāapmāca, programmā Word mēs varam definēt dažus simbolus, kurus var skaitīt vai ne, skaitot vai neskaitot skaitļus utt. tas pats ar Tesseract.

Mēs varam arī apmācīt tā jutīgumu pret konkrētiem attēliem.

Tesseract optimizācija:

Izmēra optimizācija: Saskaņā ar oficiālajiem avotiem, optimālais pikseļu izmērs, lai Tesseract veiksmīgi apstrādātu attēlu, ir 300DPI. Lai ieviestu šo DPI, mums būs jāapstrādā jebkurš attēls, izmantojot parametru -r. Palielinot DPI, palielināsies arī apstrādes laiks.

Lapas pagriešana: Ja skenējot lapa nav pareizi pagriezta un paliek 180 ° vai 45 °, Tesseract precizitāte samazināsies, varat izmantot šo Python skriptu, lai automātiski noteiktu un novērstu pagriešanas problēmas.

Robežu noņemšana: Pēc Tesseract oficiālā cilvēka teiktā, robežas var kļūdaini izvēlēties kā varoņus, it īpaši tumšās robežas un vietās, kur ir gradācijas dažādība. Robežu noņemšana var būt labs solis, lai sasniegtu maksimālu precizitāti ar Tesseract.

Trokšņa noņemšana: Saskaņā ar Tesseracts, troksnis "ir nejauša attēla spilgtuma vai krāsas variācija". Mēs to varam noņemt binarizācija solis, kas nozīmē krāsu polarizāciju.

Apmācība Tesseract:

Lai gan lielākā daļa apmācību attiecas tikai uz Tesseract instalāciju, es apkopošu, kā apmācīt jūsu OCR sistēmu, šeit mēs varam atrast pamācību visām versijām. Šajā rakstā es apkopošu, kā apmācīt Tesseract 4, kas ietver jaunu “Neironu tīkla atpazīšanas dzinējs, kas nodrošina ievērojami lielāku precizitāti (dokumentu attēlos) nekā iepriekšējās versijas, pretī saņemot nepieciešamo skaitļošanas jaudu ievērojamu pieaugumu. Sarežģītās valodās tas faktiski var būt ātrāks nekā bāzes Tesseract.”

Pirms turpināt, mums būs jāinstalē papildu bibliotēkas:

sudo apt-get instalēt libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev

Apmācības rīkus mēs instalēsim, palaižot Tesseract direktorijā:

veidot
veikt apmācību
sudo veikt apmācību instalēt

Saskaņā ar Tesseract oficiālo wiki, mums ir 3 pašreizējās iespējas apmācīt mūsu OCR sistēmu:

“Smalka melodija. Sākot ar esošu apmācītu valodu, apmāciet savus konkrētos papildu datus. Tas var darboties problēmu gadījumā, kas ir tuvu esošajiem apmācības datiem, bet atšķiras kaut kādā smalkā veidā, piemēram, īpaši neparasts fonts. Var strādāt pat ar nelielu treniņu datu daudzumu.
Nogrieziet augšējo slāni (vai kādu patvaļīgu slāņu skaitu) no tīkla un pārmāciet jaunu augšējo slāni, izmantojot jaunos datus. Ja smalkā pielāgošana nedarbojas, visticamāk, tas ir nākamais labākais variants. Augšējā slāņa nogriešana joprojām varētu noderēt pilnīgi jaunas valodas vai skripta apmācībai, ja sākat ar līdzīgākā izskata skriptu.
Pārkvalificēties no jauna. Tas ir biedējošs uzdevums, ja vien jūsu problēmai nav paredzēts ļoti reprezentatīvs un pietiekami liels apmācību komplekts. Ja nē, jūs, visticamāk, iegūsit pārlieku aprīkotu tīklu, kas patiešām labi ietekmē treniņu datus, bet ne faktiskos datus.

Lai gan iepriekš minētās opcijas var izklausīties atšķirīgi, apmācības soļi faktiski ir gandrīz identiski, izņemot komandrindu, tāpēc ir samērā viegli to izmēģināt visos veidos, ņemot vērā laiku vai aparatūru, lai tos palaistu paralēli.”

Šajā apmācībā mēs palaidīsim tikai tesstrain.sh skripts, kas izsauks nepieciešamās programmas, lai apmācītu noteiktu valodu.

Pirmkārt, ļaujiet klonēt visus failus mūsu / usr / share / tesseract-ocr failos:

git klons https: // github.com / tesseract-ocr / tesseract

Dodieties uz / usr / share / tesseract-ocr / tesseract / training (Tesseract noklusējuma instalācijas direktoriju) un palaidiet:

$ ./ tesstrain.sh --lang heb --langdata_dir / usr / share / tesseract-ocr / langdata --tessdata_dir / usr / share / tesseract-ocr / tessdata

Mainiet “heb” valodai, kuru vēlaties apmācīt, kā arī rediģējiet ceļu uz saviem datiem.

Direktorijā / usr / share / tesseract-ocr / tesseract / apmācība jūs atradīsit faila valodu.sh noderīgi pievienot noteikumus noteiktām valodām.

Problēmu novēršana

Tesseract man ir labākais OCR risinājums, taču nesen tas ir izdarījis milzīgas izmaiņas salīdzinājumā ar iepriekšējām versijām, un daudzi lietotāji sūdzas par izmaiņām vai lietām, kas vairs nedarbojas, es neuztraucos, jo šķiet, ka izmaiņas dod lieliskus rezultātus. Tesseract kopiena ir ļoti aktīva. Ja atrodat problēmas, izmantojot tesseract, pievienojieties šeit Tesseract kopienai.