Tesseract OCR instalēšana Linux

Tesseract OCR (Optical Character Recognition) ir bezmaksas un atvērtā koda programma un komandrindas programma teksta iegūšanai no attēliem, izmantojot rakstzīmju optiskās atpazīšanas tehnoloģiju un algoritmus. Projektu atbalsta Google, un no šodienas tas tiek uzskatīts par labāko pieejamo atvērtā koda OCR dzinēju. Tas var ar lielu precizitāti noteikt un iegūt tekstu daudzās valodās.

Tesseract OCR instalēšana Linux

Tesseract OCR pēc noklusējuma ir pieejams lielākajai daļai Linux izplatīšanas. To var instalēt Ubuntu, izmantojot zemāk esošo komandu:

$ sudo apt instalēt tesseract-ocr

Ir pieejamas detalizētas instrukcijas par citiem izplatījumiem šeit. Lai gan Tesseract OCR pēc noklusējuma ir pieejams daudzu Linux izplatīšanas krātuvēs, ieteicams precīzāk un parsējot instalēt jaunāko versiju no iepriekš minētās saites.

Atbalsta instalēšana papildu valodām Tesseract OCR

Tesseract OCR ietver atbalstu teksta noteikšanai vairāk nekā 100 valodās. Tomēr jūs saņemat atbalstu teksta noteikšanai angļu valodā tikai ar noklusējuma instalēšanu Ubuntu. Lai pievienotu atbalstu papildu valodu parsēšanai Ubuntu, palaidiet komandu šādā formātā:

$ sudo apt instalējiet tesseract-ocr-hin

Iepriekš minētā komanda pievienos atbalstu hindi valodai Tesseract OCR. Dažreiz jūs varat iegūt labāku precizitāti un rezultātus, instalējot valodas skriptu atbalstu. Piemēram, Devessagari skripta “tesseract-ocr-script-deva” instalēšana un izmantošana man deva daudz precīzākus rezultātus nekā paketes “tesseract-ocr-hin” izmantošana.

Ubuntu, atrodot pareizus visu valodu un skriptu pakotņu nosaukumus, palaižot zemāk esošo komandu:

$ apt-cache meklēšanas tesseract-

Kad esat identificējis pareizo instalējamā pakotnes nosaukumu, aizstājiet virkni “tesseract-ocr-hin” ar to pirmajā iepriekš norādītajā komandā.

Izmantojot Tesseract OCR, lai izvilktu tekstu no attēliem

Ņemsim piemēru attēlam, kas parādīts zemāk (ņemts no Wikipedia lapas Linux):

Lai izvilktu tekstu no iepriekš minētā attēla, jums jāpalaiž komanda šādā formātā:

$ tesseract uztveršana.png izeja -l eng

Palaidot iepriekš minēto komandu, tiek iegūts šāds rezultāts:

Iepriekš esošajā komandā “sagūstīt.png ”attiecas uz attēlu, no kura vēlaties izvilkt tekstu. Uzņemtais rezultāts tiek saglabāts “izvadē.txt ”fails. Valodu var mainīt, aizstājot argumentu “eng” ar savu izvēli. Lai skatītu visas derīgās valodas, palaidiet zemāk esošo komandu:

$ tesseract --list-langs

Tas parādīs saīsinājuma kodus visām valodām, kuras jūsu sistēmā atbalsta Tesseract OCR. Pēc noklusējuma tā kā izvade parādīs tikai “eng”. Tomēr, ja instalējat paketes citām valodām, kā paskaidrots iepriekš, šajā komandā tiks uzskaitītas citas valodas, kuras varat izmantot teksta noteikšanai (kā ISO 639 trīs burtu valodas kodi).

Ja attēlā ir teksts vairākās valodās, vispirms definējiet primāro valodu, kam seko papildu valodas, atdalītas ar plus zīmēm.

$ tesseract uztveršana.png izeja -l eng + fra

Ja vēlaties saglabāt izvadi kā meklējamu PDF failu, palaidiet komandu šādā formātā:

$ tesseract uztveršana.png izeja -l lv pdf

Ņemiet vērā, ka meklējamā PDF failā nebūs rediģējama teksta. Tas ietver oriģinālo attēlu ar papildu slāni, kas satur atpazīto tekstu, kas uzklāts uz attēla. Tātad, kamēr jūs varēsiet precīzi meklēt tekstu PDF failā, izmantojot jebkuru PDF lasītāju, tekstu rediģēt nevarēsit.

Vēl viens punkts, kas jums jāņem vērā, ka teksta noteikšanas precizitāte ievērojami palielinās, ja attēla fails ir augstas kvalitātes. Dodot izvēli, vienmēr izmantojiet bezzudumu formātus vai PNG failus. JPG failu izmantošana var nedot vislabākos rezultātus.

Teksta iegūšana no daudzlapu PDF faila

Tesseract OCR dabiski neatbalsta teksta iegūšanu no PDF failiem. Tomēr ir iespējams iegūt tekstu no vairāku lapu PDF faila, katru lapu pārveidojot par attēla failu. Palaidiet zemāk esošo komandu, lai PDF failu pārveidotu par attēlu kopu:

$ pdftoppm -png fails.pdf izeja

Par katru PDF faila lapu jūs saņemsiet atbilstošu “output-1.png ”,“ output-2.png ”fails utt.

Tagad, lai izgūtu tekstu no šiem attēliem, izmantojot vienu komandu, bash komandā būs jāizmanto “for loop”:

$ par i *.png; veikt tesseract "$ i" "output- $ i" -l eng; izdarīts;

Veicot iepriekš minēto komandu, tiks izvilkts teksts no visiem “.png ”faili, kas atrodami darba direktorijā, un atpazīto tekstu saglabā“ output-original_filename ”.txt ”faili. Jūs varat mainīt komandas vidusdaļu atbilstoši savām vajadzībām.

Ja vēlaties apvienot visus teksta failus, kas satur atpazīto tekstu, izpildiet tālāk norādīto komandu:

$ kaķis *.txt> pievienojās.txt

Teksts no vairākām lappusēm saturoša PDF faila meklēšanas PDF failos ir gandrīz vienāds. Komandai ir jāpievieno papildu arguments “pdf”:

$ par i *.png; do tesseract "$ i" "output- $ i" -l lv pdf; izdarīts;

Ja vēlaties apvienot visus meklējamos PDF failus, kas satur atpazīto tekstu, izpildiet tālāk norādīto komandu:

$ pdfunite *.pievienojās pdf.pdf

Gan “pdftoppm”, gan “pdfunite” pēc noklusējuma ir instalēti jaunākajā stabilajā Ubuntu versijā.

Priekšrocības un trūkumi teksta izvilkšanai TXT un meklējamos PDF failos

Ja ekstraktējat atzītu tekstu TXT failos, iegūsiet rediģējamu teksta izvadi. Tomēr tiks zaudēts jebkurš dokumenta formatējums (treknrakstā, kursīvā un tā tālāk). Pārmeklējami PDF faili saglabās sākotnējo formatējumu, taču jūs zaudēsiet teksta rediģēšanas iespējas (jūs joprojām varat kopēt neapstrādātu tekstu). Ja jebkurā PDF redaktorā atverat meklējamo PDF failu, failā iegūsit iegultus attēlus, nevis neapstrādātu tekstu. Pārvēršot meklējamos PDF failus HTML vai EPUB, iegūsit arī iegultus attēlus.

Secinājums

Tesseract OCR ir viens no mūsdienās visplašāk izmantotajiem OCR dzinējiem. Tā ir bezmaksas, atvērtā koda un atbalsta vairāk nekā simts valodas. Izmantojot Tesseract OCR, komandrindas argumentos noteikti izmantojiet augstas izšķirtspējas attēlus un labojiet valodas kodus, lai uzlabotu teksta noteikšanas precizitāti.