När en människa tittar på en scen eller en bild förstår de det - vilka föremål finns i det och vad som händer om det sker handling. En dator, å andra sidan, bearbetar bara digitala data som beskriver färgvärdet för varje pixel. För en människa är det enkelt att känna igen en pizza på ett rörigt bord. Men tills nyligen skulle datorer inte kunna utföra samma uppgift.

Computer vision, eller CV, gör det möjligt för en dator att kunna plocka ut viktig information från visuella ingångar och göra korrekta förutsägelser och rekommendationer baserat på den informationen.

Hur fungerar datorvision?

Innan datorsyn, för att skapa ett program som kände igen en viss bild, skulle en person behöva göra timmar av manuellt benarbete. För det första måste en databas med liknande bilder samlas in.

Därefter måste dessa bilder analyseras manuellt, mätas och antecknas med relevant data att forskaren trodde kunde identifiera föremålet i fråga (som färg, mått och form). Först då kunde programvara användas för att göra förutsägelser.

instagram viewer

Å andra sidan automatiserar datorvision hela processen med hjälp av en maskininlärningsmetod som kallas djupinlärning. Djupinlärning använder ett flerskiktat neuralt nätverk med hundratals potentiella lager. När det gäller bilder är detta vanligtvis ett fackligt neuralt nätverk (CNN).

Att förklara i detalj hur djupt lärande och neurala nätverk fungerar ligger långt bortom denna artikel. I grund och botten matas stora mängder data in i det neurala nätverket. Neurala nätverket analyserar data upprepade gånger tills det kan bilda korrekta förutsägelser om det.

När det gäller ett CNN som används för en datorvisionsuppgift tar neuralt nätverk data genom flera steg. För det första kollapsar den bilden i flera bitar (enskilda pixlar eller grupper av pixlar som är taggade i förväg).

Sedan gör det förutsägelser om vad som finns i olika delar av bilden (som hårda kanter eller specifika objekt). Den kontrollerar noggrannheten i dessa förutsägelser upprepade gånger och förändrar delar av algoritmen varje gång tills den blir mycket exakt.

Datorer är nu så kraftfulla att de kan analysera en bild mycket snabbare än den mänskliga hjärnan, särskilt när de har lärt sig att känna igen vissa mönster. På det här sättet är det lätt att se hur en djupinlärningsalgoritm kan överträffa mänskliga förmågor.

Vilka är typerna av datorvision?

Datorsyn innebär att man analyserar och förstår bilder och ger resultat av relevanta förutsägelser eller beslut om bilderna. Det finns olika uppgifter som datorvision kommer att använda för att uppnå dessa mål. Några av dessa inkluderar:

  • Bildklassificering: Bildtypen känns igen. Till exempel om det är en persons ansikte, landskap eller objekt. Denna typ av uppgift kan användas för att snabbt identifiera och klassificera bilder. En användning för detta är att automatiskt känna igen och blockera olämpligt innehåll på sociala medier.
  • Objektigenkänning: På samma sätt som bildklassificering kan objektigenkänning identifiera ett visst objekt i en scen - som en pizza på ett rörigt bord.
  • Kantdetektering: En vanlig användning av datorsyn, och vanligtvis det första steget i objektdetektering, är att identifiera de hårda kanterna i en bild.
  • Objektidentifiering: Detta är erkännandet av enskilda exempel på ett objekt eller en bild, som att identifiera en viss person, fingeravtryck eller fordon.
  • Objektdetektering: Detektion är identifieringen av ett visst drag i en bild, som ett brutet ben i en röntgen.
  • Objekt segmentering: Detta är identifieringen av vilka pixlar i bilden tillhör objektet i fråga.
  • Objektspårning: I en videosekvens, när ett objekt har känts igen, kan det enkelt spåras i hela videon.
  • Bildåterställning: Suddighet, buller och andra bildartefakter kan tas bort genom att exakt identifiera var objektet mot bakgrunden finns i bilden.

Exempel på datorvision

Artificiell intelligens är redan används i flera branscher med en häpnadsväckande effekt, vilket är sant för datorsyn. Här är några exempel på CV som redan används idag.

Ansiktsigenkänning

Ansiktsigenkänning är ett av de viktigaste sätten som datorsyn används idag. Jämfört med databaser med kända ansikten kan datorvisionsalgoritmer mycket exakt identifiera enskilda personer.

  • Sociala medier analyserar bilder och märker automatiskt användare som de har ett bra urval av bilder för.
  • Bärbara datorer, telefoner och säkerhetsenheter kan identifiera människor för att ge åtkomst.
  • Rättsvårdande använder ansiktsigenkänning i CCTV-system för att identifiera misstänkta.

Medicin

Datorsyn används för närvarande i vården för att tillhandahålla snabbare och mer exakta diagnoser än experter kan göra. Många applikationer involverar analys av röntgen-, CT- eller MR-bilder för speciella tillstånd, inklusive neurologiska sjukdomar, tumörer och brutna eller brutna ben.

Självkörande bilar

Autonoma fordon behöver förstå sin omgivning att köra säkert. Detta innebär att känna igen vägar, körfält, trafiksignaler, andra fordon, fotgängare och mer. Alla dessa uppgifter använder datorvisionssystem i realtid för att undvika kollisioner och köra säkert.

Datorsyn är utmanande

De nuvarande tillämpningarna av datorsyn börjar redan förändra vårt sätt att arbeta i olika branscher. Från att kunna upptäcka felaktig eller trasig utrustning till korrekt diagnos av cancer, har datorsyn förmågan att förbättra system och rädda liv.

Men det är inte utan sina utmaningar. Datorsyn är fortfarande långt ifrån vad mänsklig vision är. Vi har tusentals år av evolution som gör det möjligt för oss att känna igen och förstå nästan allt som händer omkring oss i realtid. Men vi har ingen aning om hur mänskliga hjärnor utför dessa uppgifter.

Djupinlärning är ett massivt steg i rätt riktning, men det kräver fortfarande otroligt mycket arbete att skapa ett system som kan utföra en uppgift som människor kan göra mycket enkelt, som att identifiera en bil på bilen väg. Detta beror på att datorer utför begränsade uppgifter mycket effektivt. Att utveckla en dator som kan förstå den totala komplexiteten i den visuella världen är ett helt annat bollspel.

När mer forskning går till både AI-applikationer och mänsklig biologi, kommer vi troligen att se en explosion av möjliga användningar för datorvision inom en snar framtid.

E-post
Vad är maskininlärningsalgoritmer? Så här fungerar de

Maskininlärningsalgoritmer är utformade för att göra livet enklare och förbättra system, men de kan gå fel med dåliga konsekvenser.

Läs Nästa

Relaterade ämnen
  • Teknik förklaras
  • Programmering
  • Artificiell intelligens
  • Neurala nätverk
Om författaren
Jake Harfield (16 artiklar publicerade)

Jake Harfield är en frilansskribent baserad i Perth, Australien. När han inte skriver är han vanligtvis ute i busken och fotograferar det lokala djurlivet. Du kan besöka honom på www.jakeharfield.com

Mer från Jake Harfield

Prenumerera på vårt nyhetsbrev

Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e-böcker och exklusiva erbjudanden!

Ett steg till…!

Bekräfta din e-postadress i e-postmeddelandet som vi just skickade till dig.

.