LinuxHint jau ir publicējis apmācību, kurā paskaidrots, kā instalēt un saprast Tesseract apmācību.
Šī apmācība parāda Tesseract instalēšanas procesu Debian / Ubuntu sistēmās, taču tā netiks paplašināta uz apmācības funkcijām, ja neesat iepazinies ar šo programmatūru, lasot minēto rakstu, tas var būt labs ievads. Tad mēs parādīsim, kā apstrādāt GIF attēlu ar Tesseract, lai no tā iegūtu tekstu.
Tesseract uzstādīšana:
Palaist:
apt instalēt tesseract-ocr
Tagad jums jāinstalē imagemagick, kas ir attēlu pārveidotājs.
Pēc instalēšanas mēs jau varam pārbaudīt Tesseract, lai to pārbaudītu, es atradu gif, kas licencēts atkārtotai izmantošanai.
Tagad ļauj redzēt, kas notiek, kad palaižam tesseract uz gif attēla:
tesseract 2002NY40.gif 1rezultāts
Tagad 1 rezultātam veiciet “mazāk”.txt
mazāk 1rezultāts.txt
Šeit ir attēls ar tā tekstu:
Šajā Tesseract noklusējuma iestatījumi ir diezgan precīzi, parasti, lai iegūtu šādu precizitāti, nepieciešama apmācība. Izmēģināsim vēl vienu bezmaksas attēlu, kuru atradu vietnē Wiki Commons, pēc lejupielādes palaist:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2rezultāts
Tagad pārbaudiet faila saturu.
mazāk 2rezultāts.txt
Tas bija rezultāts, kamēr sākotnējā attēla saturs bija:
Lai uzlabotu rakstzīmju atpazīšanu, mums ir daudz iespēju un soļu, kas jāievēro, kas tika detalizēti aprakstīti mūsu iepriekšējā apmācībā: robežu noņemšana, trokšņu noņemšana, lieluma optimizēšana un lapu pagriešana starp citām funkcijām, piemēram, apgriešana.
Šajā apmācībā mēs izmantosim skriptu textcleaner, kuru izstrādāja Fred's ImageMagick Scripts.
Lejupielādējiet skriptu un palaidiet:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.gif tests.gif
Piezīme: pirms skripta palaišanas piešķiriet izpildes atļaujas, palaižot “chmod + x textcleaner”Kā sakne vai ar sudo priedēklis.
Kur:
teksta tīrītājs: izsauc programmu
-g: Pārveidojiet attēlu par pelēktoņu
-e: enache
-f: filtru izmērs
-s: sharpamt, pikseļu asināšanas apjoms, kas jāpielieto rezultātam.
Lai iegūtu informāciju un piemērus lietošanai ar textcleaner, apmeklējiet vietni http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Kā redzat, textcleaner mainīja fona krāsu, palielinot fonta un fona kontrastu.
Ja mēs vadīsim tesseract, iespējams, rezultāts būs atšķirīgs:
tesseract tests.gif testoutputmazāk testu
Kā redzat, rezultāts patiešām ir uzlabojies pat tad, ja tas nav pilnībā precīzs.
Komanda konvertēt nodrošina imagemagick ļauj mums iegūt rāmjus no gif attēliem, kurus vēlāk apstrādās Tesseract, tas ir noderīgi, ja dažādos gif attēla rāmjos ir nepietiekams saturs.
Sintakse ir vienkārša:
konvertētRezultāts tiks ģenerēts kā failu skaits kā rāmji gif failā, sniegtajā piemērā rezultāti būtu: izeja-0.jpg, izeja-1.jpg, izeja-2.jpg, utt.
Tad jūs varat tos apstrādāt ar tesseract, uzdodot apstrādāt visus failus ar aizstājējzīmi, saglabājot rezultātu vienā failā, palaižot:
par i izvadē- *; do tesseract $ i outputrezult; izdarīts;Imagemagick ir ļoti dažādas iespējas, kā optimizēt attēlus, un nav vispārīga režīma. Katram scenārijam jums jāizlasa convert komandas man lapa.
Es ceru, ka jums šī Tesseract apmācība ir noderīga.