Röstigenkänning är fantastiskt, men hur blev det så bra?

Röstigenkänningstekniken har en rik utvecklingshistoria som har lett den till vad den är idag. Det är kärnan i det moderna livet, vilket ger oss möjligheten att utföra uppgifter bara genom att prata med en enhet. Så hur har denna häpnadsväckande teknik utvecklats under åren? Låt oss ta en titt.

1952: Audrey System

Det första steget i röstigenkänning kom i början av 1950 -talet. Bell Laboratories utvecklade den första maskinen som kunde förstå den mänskliga rösten 1952, och den fick namnet Audrey System. Namnet Audrey var en slags sammandragning av frasen Automatic Digit Recognition. Även om detta var en stor innovation, hade det vissa stora begränsningar.

Mest framträdande kunde Audrey bara känna igen de numeriska siffrorna 0-9, inga ord. Audrey skulle ge feedback när högtalaren sa ett nummer genom att tända 1 av 10 glödlampor, var och en motsvarar en siffra.

Bildkredit: metamorworks/Shutterstock.com

Även om det kunde förstå siffrorna med 90% noggrannhet, var Audrey begränsad till en specifik rösttyp. Det är därför den enda personen som verkligen skulle använda det var HK Davis, en av utvecklarna. När ett tal talades måste högtalaren vänta minst 300 millisekunder innan han säger nästa.

instagram viewer

Det var inte bara begränsat i funktionalitet, utan det var också begränsat i användbarhet. Det var inte mycket användning för en maskin som bara kunde förstå siffror. En möjlig användning var att slå telefonnummer, men det var mycket snabbare och enklare att slå numren för hand. Även om Audrey inte hade en graciös existens, står det fortfarande som en stor milstolpe i mänsklig prestation.

Relaterad: Hur man använder röstskrivning i Microsoft Word

1962: IBMs skokartong

Ett decennium efter Audrey försökte IBM utveckla ett röstigenkänningssystem. Vid världsmässan 1962 visade IBM upp ett röstigenkänningssystem som heter Showbox. Liksom Audrey var dess huvudsakliga uppgift att förstå siffrorna 0-9, men det kunde också förstå sex ord: plus, minus, falskt, totalt, delsumma och av.

Skoboxen var en matematisk maskin som kunde utföra enkla räkneuppgifter. När det gäller feedback, i stället för lampor, kunde Shoebox skriva ut resultaten på papper. Detta gjorde den användbar som en miniräknare, även om högtalaren fortfarande skulle behöva pausa mellan varje nummer/ord.

1971: IBM: s automatiska samtalsidentifiering

Efter Audrey och Shoebox utvecklade andra laboratorier runt om i världen teknik för röstigenkänning. Det tog dock inte fart förrän på 1970-talet, då 1971, IBM tog med den första uppfinningen i sitt slag till marknaden. Det kallades systemet för automatisk samtalsidentifiering. Det var det första röstigenkänningssystemet som användes via telefonsystemet.

Ingenjörer skulle ringa och anslutas till en dator i Raleigh, North Carolina. Den som ringer skulle sedan yttra ett av de 5000 orden i sitt ordförråd och få ett "talat" svar som svar.

Relaterad: Hur man använder röst diktering på Mac

1976: Harpy

I början av 1970 -talet intresserade USA: s försvarsdepartement sig för röstigenkänning. DARPA (Defense Advanced Research Projects Agency) utvecklade programmet Speech Understanding Research (SUR) 1971. Detta program gav finansiering till flera företag och universitet för att hjälpa forskning och utveckling för röstigenkänning.

1976, på grund av SUR, utvecklade Carnegie Mellon University Harpy System. Detta var ett stort steg inom röstigenkänningsteknik. Systemen fram till den tiden kunde förstå ord och siffror, men Harpy var unik genom att den kunde förstå hela meningar.

Den hade ett ordförråd på bara cirka 1 011 ord, vilket enligt en publikation av B. Lowerre och R. Reddy, lika med mer än en biljon olika möjliga meningar. I publikationen står det sedan att Harpy kunde förstå ord med 93,77% noggrannhet.

1980 -talet var en avgörande tid för röstigenkänningsteknik, eftersom detta är årtiondet där röst igenkänningsteknik, eftersom detta var decenniet som vi introducerades för Hidden Markov -metoden (HMM). Den främsta drivkraften bakom HMM är sannolikhet.

Närhelst ett system registrerar ett fonem (det minsta talelementet) finns det en viss sannolikhet för vad nästa blir. HMM använder dessa sannolikheter för att avgöra vilket fonem som sannolikt kommer nästa och bildar de mest troliga orden. De flesta röstigenkänningssystem använder idag fortfarande HMM för att förstå tal.

1990 -talet: Röstigenkänning når konsumentmarknaden

Sedan starten av röstigenkänningsteknologi har det varit på en resa för att hitta ett utrymme på konsumentmarknaden. På 1980-talet visade IBM upp en prototypdator som kunde diktera tal till text. Men det var inte förrän i början av 1990 -talet som folk började se sådana här applikationer i sina hem.

1990 introducerade Dragon Systems den första tal-till-text-dikteringsprogramvaran. Det kallades Dragon Dictate, och det släpptes ursprungligen för Windows. Detta $ 9000 -program var revolutionerande för att föra röstigenkänningsteknik till massorna, men det var en brist. Programvaran som används diskret diktering, vilket innebär att användaren måste pausa mellan varje ord för att programmet ska kunna hämta dem.

1996 bidrog IBM igen till branschen med Medspeak. Detta var också ett tal-till-text-dikteringsprogram, men det led inte av diskret dication som Dragon Dictate gjorde. Istället kan detta program diktera kontinuerligt tal, vilket gjorde det till en mer övertygande produkt.

Relaterad: Så här använder du Google Assistant med hörlurar

2010: En tjej som heter Siri

Under 2000 -talet exploderade röstigenkänningstekniken i popularitet. Det implementerades i mer programvara och hårdvara än någonsin tidigare, och ett avgörande steg i utvecklingen av röstigenkänning var Siri, den digitala assistenten. År 2010 introducerade ett företag med namnet Siri den virtuella assistenten som en iOS -app.

På den tiden var Siri en imponerande mjukvara som kunde diktera vad talaren sa och ge ett utbildat och kvickt svar. Det här programmet var så imponerande att Apple förvärvade företaget samma år och gav Siri en lite översyn och pressade det mot den digitala assistent vi känner idag.

Det var genom Apple som Siri fick sin ikoniska röst (röst av Susan Benett) och en mängd nya funktioner. Det använder naturlig språkbehandling för att styra de flesta av systemets funktioner.

2010 -talet: The Big 4 Digital Assistants

Som det ser ut dominerar fyra stora digitala assistenter röstigenkänning och ytterligare programvara.

Siri finns i nästan alla Apples produkter: iPhones, iPods, iPads och Mac -datorfamiljen.
Google Assistant finns på de flesta av de 3 miljarder + Android -enheter som finns på marknaden. Dessutom kan användarna använda kommandon i många Googles tjänster, som Google Home.
Amazon Alexa har inte mycket av en dedikerad plattform där den bor, men det är fortfarande en framstående assistent. Den är tillgänglig för nedladdning och användning på Android -enheter, Apple -enheter. och till och med välja bärbara Lenovo -datorer
Bixby är den senaste posten till listan över digitala assistenter. Det är Samsungs hemodlade digitala assistent, och den finns bland företagets telefoner och surfplattor.

En talad historia

Röstigenkänning har kommit långt sedan Audrey -dagarna. Det har gjort stora vinster på flera områden; till exempel, enligt Rensa Bridge Mobile, gynnades det medicinska området av röststyrda chatbots under pandemin 2020. Från att bara kunna förstå siffror till att förstå olika variationer av hela meningar, har röstigenkänning visat sig vara en av de mest användbara teknikerna i vår moderna tid.

Dela med sigTweetE-post

Hur fungerar röstigenkänning?

Vi använder röstigenkänning hela tiden, men hur fungerar det?

Läs Nästa

Relaterade ämnen

Teknik förklaras
Siri
Google Assistant
Alexa
Bixby
Röstkommandon

Om författaren

Arthur Brown (31 artiklar publicerade)

Arthur är en teknisk journalist och musiker som bor i Amerika. Han har varit i branschen i nästan ett decennium, efter att ha skrivit för onlinepublikationer som Android Headlines. Han har en djup kunskap om Android och ChromeOS. Tillsammans med att skriva informationsartiklar är han också skicklig på att rapportera tekniska nyheter.

Mer från Arthur Brown

Prenumerera på vårt nyhetsbrev

Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e -böcker och exklusiva erbjudanden!

Klicka här för att prenumerera

About Technology - denizatm.com

Röstigenkänning är fantastiskt, men hur blev det så bra?

1952: Audrey System

1962: IBMs skokartong

1971: IBM: s automatiska samtalsidentifiering

1976: Harpy

1990 -talet: Röstigenkänning når konsumentmarknaden

2010: En tjej som heter Siri

2010 -talet: The Big 4 Digital Assistants

En talad historia

Prenumerera på vårt nyhetsbrev

kategorier

Recent Post

Bing blir snyggare: lägger till Pinterest-anslagstavlor till bildsökning

Surface Pro 3, DuckDuckGo-uppdatering, Netflix i Europa, Facebook Ask Button [Tech News Digest]

De bästa sätten att anpassa välkomstskärmen i Windows 7