OCR

Kā palaist tesseract uz GIF faila Linux

Kā palaist tesseract uz GIF faila Linux
Tesseract ir OCR (Optical Character Recognition) sistēma, starp labākajām. OCR programmatūra spēj saprast tekstu no attēliem un skenētiem dokumentiem (ieskaitot rokrakstu, ja to apmācāt). OCR sistēma var būt noderīga daudziem uzdevumiem, piemēram, vārdu skaitīšanas skenētiem dokumentiem, automātiskai transkripcijai, rakstzīmju pārveidošanai no attēla uz tekstu un citiem.

LinuxHint jau ir publicējis apmācību, kurā paskaidrots, kā instalēt un saprast Tesseract apmācību.

Šī apmācība parāda Tesseract instalēšanas procesu Debian / Ubuntu sistēmās, taču tā netiks paplašināta uz apmācības funkcijām, ja neesat iepazinies ar šo programmatūru, lasot minēto rakstu, tas var būt labs ievads.  Tad mēs parādīsim, kā apstrādāt GIF attēlu ar Tesseract, lai no tā iegūtu tekstu.

Tesseract uzstādīšana:

Palaist:

apt instalēt tesseract-ocr

Tagad jums jāinstalē imagemagick, kas ir attēlu pārveidotājs.

Pēc instalēšanas mēs jau varam pārbaudīt Tesseract, lai to pārbaudītu, es atradu gif, kas licencēts atkārtotai izmantošanai.

Tagad ļauj redzēt, kas notiek, kad palaižam tesseract uz gif attēla:

tesseract 2002NY40.gif 1rezultāts

Tagad 1 rezultātam veiciet “mazāk”.txt

mazāk 1rezultāts.txt

Šeit ir attēls ar tā tekstu:

Šajā Tesseract noklusējuma iestatījumi ir diezgan precīzi, parasti, lai iegūtu šādu precizitāti, nepieciešama apmācība. Izmēģināsim vēl vienu bezmaksas attēlu, kuru atradu vietnē Wiki Commons, pēc lejupielādes palaist:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2rezultāts

Tagad pārbaudiet faila saturu.

mazāk 2rezultāts.txt


Tas bija rezultāts, kamēr sākotnējā attēla saturs bija:

Lai uzlabotu rakstzīmju atpazīšanu, mums ir daudz iespēju un soļu, kas jāievēro, kas tika detalizēti aprakstīti mūsu iepriekšējā apmācībā: robežu noņemšana, trokšņu noņemšana, lieluma optimizēšana un lapu pagriešana starp citām funkcijām, piemēram, apgriešana.

Šajā apmācībā mēs izmantosim skriptu textcleaner, kuru izstrādāja Fred's ImageMagick Scripts.

Lejupielādējiet skriptu un palaidiet:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif tests.gif

Piezīme: pirms skripta palaišanas piešķiriet izpildes atļaujas, palaižot “chmod + x textcleaner”Kā sakne vai ar sudo priedēklis.

Kur:

teksta tīrītājs: izsauc programmu

-g: Pārveidojiet attēlu par pelēktoņu

-e: enache

-f: filtru izmērs

-s: sharpamt, pikseļu asināšanas apjoms, kas jāpielieto rezultātam.

Lai iegūtu informāciju un piemērus lietošanai ar textcleaner, apmeklējiet vietni http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Kā redzat, textcleaner mainīja fona krāsu, palielinot fonta un fona kontrastu.

Ja mēs vadīsim tesseract, iespējams, rezultāts būs atšķirīgs:

tesseract tests.gif testoutput

mazāk testu

Kā redzat, rezultāts patiešām ir uzlabojies pat tad, ja tas nav pilnībā precīzs.

Komanda konvertēt nodrošina imagemagick ļauj mums iegūt rāmjus no gif attēliem, kurus vēlāk apstrādās Tesseract, tas ir noderīgi, ja dažādos gif attēla rāmjos ir nepietiekams saturs.

Sintakse ir vienkārša:

konvertēt

Rezultāts tiks ģenerēts kā failu skaits kā rāmji gif failā, sniegtajā piemērā rezultāti būtu: izeja-0.jpg, izeja-1.jpg, izeja-2.jpg, utt.

Tad jūs varat tos apstrādāt ar tesseract, uzdodot apstrādāt visus failus ar aizstājējzīmi, saglabājot rezultātu vienā failā, palaižot:

par i izvadē- *; do tesseract $ i outputrezult; izdarīts;

Imagemagick ir ļoti dažādas iespējas, kā optimizēt attēlus, un nav vispārīga režīma. Katram scenārijam jums jāizlasa convert komandas man lapa.

Es ceru, ka jums šī Tesseract apmācība ir noderīga.

Top 5 spēļu tveršanas kartes
Mēs visi esam redzējuši un mīlējuši straumēšanas spēles pakalpojumā YouTube. PewDiePie, Jakesepticye un Markiplier ir tikai daži no labākajiem spēlētā...
Kā izstrādāt spēli Linux
Pirms desmit gadiem maz Linux lietotāju varētu paredzēt, ka viņu iecienītā operētājsistēma kādu dienu būs populāra spēļu platforma komerciālām videosp...
Komerciālo spēļu dzinēju atvērtā koda porti
Bezmaksas, atvērtā koda un starpplatformu spēļu dzinēju atpūtu var izmantot, lai spēlētu vecos, kā arī dažus no diezgan nesenajiem spēļu nosaukumiem. ...