Annons

Att dra ut text ur bilder har aldrig varit lättare än det är idag tack vare optisk karaktärigenkänning (OCR) -teknologi.

OCR tillåter oss att göra alla slags användbara saker, som att söka efter bilder med hjälp av textfrågor, reproducera dokument utan att skriva ut dem för hand och till och med konvertera handskriven text till digital text Hur man konverterar en bild med handskrift till text med hjälp av OCRBehöver du digitalisera handskrivna anteckningar för redigering eller spara dem för senare? Här är de bästa OCR-verktygen för att konvertera handskrift till text. Läs mer .

Men vad är optiskt teckenigenkänning? Hur fungerar det egentligen? Det kan tyckas vara svart magi för dig, men i slutet av den här artikeln har du en solid förståelse för hur datorer kan känna igen bokstäver och ord.

Hur optisk karaktärigenkänning fungerar

För att förstå hur text extraheras från en bild måste vi först förstå vad bilder är och hur de lagras på datorer.

EN pixel är en enda prick i en viss färg. En

instagram viewer
bild är i huvudsak en samling pixlar. Ju fler pixlar i en bild, desto högre upplösning. En dator vet inte att en bild av en skylt verkligen är en skylt - den vet bara att den första pixeln är den här färgen, nästa pixel är den färgen och visar alla sina pixlar som du kan se.

Detta betyder att text och icke-text inte skiljer sig åt en dator, och det är därför optiskt teckenigenkänning är så svårt. Med det i åtanke, så fungerar det.

Steg 1: Förbehandla bilden

Innan text kan dras måste bilden masseras på vissa sätt för att göra extraktionen enklare och mer sannolikt att lyckas. Detta kallas förbehandling, och olika mjukvarulösningar använder olika kombinationer av tekniker.

De vanligaste förbehandlingsteknikerna inkluderar:

binärisering
Varje pixel i bilden konverteras till antingen svart eller vitt. Målet är att klargöra vilka pixlar som tillhör text och vilka pixlar som tillhör bakgrunden, vilket påskyndar den faktiska OCR-processen.

Binarisering för optisk karaktärigenkänning

snedhetskorrigering
Eftersom dokument sällan skannas med perfekt justering kan tecken hamna lutande eller till och med upp och ner. Målet här är att identifiera horisontella textlinjer och sedan rotera bilden så att dessa linjer faktiskt är horisontella.

Ta bort fläckar
Oavsett om bilden har binariserats eller inte, kan det finnas brus som kan störa identifieringen av tecken. Avstickning blir av med det ljudet och försöker jämna ut bilden.

Radborttagning
Identifierar alla rader och markeringar som troligtvis inte är tecken och tar bort dem så att själva OCR-processen inte blir förvirrad. Det är särskilt viktigt när du skannar dokument med tabeller och rutor.

Zonindelning
Separerar bilden i distinkta bitar av text, till exempel att identifiera kolumner i dokument med flera kolumner.

Zonering för optisk karaktärigenkänning
Bildkredit: WayneRay /Wikimedia

Steg 2: Bearbeta bilden

Första saker först, OCR-processen försöker fastställa baslinjen för varje textrad i bilden (eller om den har planerats vid förbehandlingen kommer den att fungera genom varje zon en i taget). Varje identifierad rad med tecken hanteras en efter en.

För varje rad med tecken identifierar OCR-programvaran avståndet mellan tecken genom att leta efter vertikala linjer med icke-textpixlar (vilket borde vara uppenbart med korrekt binärisering). Varje pixelbit mellan dessa icke-textrader markeras som ett "token" som representerar ett tecken. Därför kallas detta steg tokenization.

Bildbehandling för optisk karaktärigenkänning

När alla potentiella tecken i bilden är tokeniserade kan OCR-programvaran använda två olika tekniker för att identifiera vilka tecken dessa symboler faktiskt är:

Mönsterigenkänning
Varje token jämförs pixel till pixel mot en hel uppsättning kända glyfer - inklusive siffror, skiljetecken och andra specialsymboler - och den närmaste matchen väljs. Denna teknik kallas också matrismatchning.

Det finns flera nackdelar här. Först måste symbolerna och glyferna ha samma storlek, annars kommer ingen av dem att matcha. För det andra måste symbolerna vara i ett liknande teckensnitt som glyferna, vilket utesluter handskrift. Men om symbolens typsnitt är känt, kan mönsterigenkänning vara snabbt och korrekt.

Särdragsextraktion
Varje symbol jämförs med olika regler som beskriver vilken typ av karaktär det kan vara. Till exempel kommer två vertikala linjer med lika höjd som är anslutna med en enda horisontell linje troligen att vara en huvudstor H.

Den här tekniken är användbar eftersom den inte är begränsad till vissa teckensnitt eller storlekar. Det kan också vara mer nyanserat när man känner igen de subtila skillnaderna mellan ett huvud I, gemener L och siffran 1. Nackdelen? Att programmera reglerna är mycket mer komplicerat än att bara jämföra pixlarna i ett symbol till pixlarna i en glyph.

Steg 3: Efterbehandla bilden

När all token-matchning är klar kan OCR-programvaran bara kalla det en dag och presentera resultaten för dig. Men vanligtvis måste lite mer fudging göras för att se till att du inte rullar dina ögon med gibberiska resultat.

Lexikal begränsning
Alla ord jämförs med ett lexikon av godkända ord, och alla som inte matchar ersätts med det närmaste passande ordet. En ordbok är ett exempel på ett lexikon. Detta kan hjälpa till att korrigera ord med felaktiga tecken, som "tagg" istället för "törn".

Applikationsspecifika optimeringar
När OCR används i nischinställningar, till exempel för medicinska eller juridiska dokument, kan en speciell typ av OCR användas som är speciellt utformad för den inställningen. I dessa fall kan OCR-programvaran leta efter matteekvationer, branschspecifika termer etc.

Naturligt språk
Denna avancerade teknik korrigerar meningar med en språkmodell som beskriver hur troligt att vissa ord ska följas av andra ord. Det liknar tekniken som förutsäger vilket ord du vill skriva nästa på ett mobilt tangentbord.

När du gör det bra kan det resultera i text som är anmärkningsvärt läsbar.

Rekommenderade verktyg för optisk karaktärigenkänning

Nu när du vet hur OCR fungerar bör det vara lätt att se att inte alla OCR-verktyg görs lika. Noggrannheten i dina resultat beror starkt på hur väl programvaran implementerar de olika OCR-teknikerna som diskuteras i den här artikeln.

Vi rekommenderar starkt OneNote för detta, vilket bara är en anledning varför det slår Evernote för anteckningar Evernote vs. OneNote: Vilken anteckningsapp är rätt för dig?Evernote och OneNote är fantastiska anteckningsappar. Det är svårt att välja mellan de två. Vi jämförde allt från gränssnitt till anteckningsorganisation för att hjälpa dig att välja. Vad fungerar bäst för dig? Läs mer . Om du är villig att betala för en premiumlösning kan du överväga OmniPage. Se vår jämförelse av OneNote vs. OmniPage för OCR Gratis vs. Betald OCR-programvara: Microsoft OneNote och Nuance OmniPage JämförtOCR-skannermjukvara låter dig konvertera text i bilder eller PDF-filer till redigerbara textdokument. Är ett gratis OCR-verktyg som OneNote tillräckligt bra? Låt oss ta reda på! Läs mer . För mobildokument vill du kolla in dessa OCR-appar för Android-enheter 6 bästa Android OCR-appar för att extrahera text från bilderBehöver du digitalisera en tryckt text så att du kan behålla en mjuk kopia av den? I så fall är allt du behöver ett optiskt teckenigenkänningsverktyg (OCR). Läs mer .

Hur använder du OCR? Har du några favorit OCR-verktyg som vi inte nämnde? Låt oss veta i kommentarerna nedan!

Joel Lee har en B.S. inom datavetenskap och mer än sex års yrkeserfarenhet. Han är chefredaktör för MakeUseOf.