Artificiell intelligens kan låta som presidenten. Eller det kan låta som du eller jag. Så vilken cybersäkerhetsrisk innebär AI-röstkloningsprogramvara?

Artificiell intelligens (AI) är en potent teknik som lovar att förändra våra liv. Aldrig har det varit så tydligt som idag, när kraftfulla verktyg är tillgängliga för alla med en internetuppkoppling.

Detta inkluderar AI-röstgeneratorer, avancerad programvara som kan efterlikna mänskligt tal så kompetent att det kan vara omöjligt att skilja mellan de två. Vad betyder detta för cybersäkerhet?

Hur fungerar AI-röstgeneratorer?

Talsyntes, processen att producera mänskligt tal på konstgjord väg, har funnits i decennier. Och som all teknik har den genomgått djupgående förändringar under åren.

De som har använt Windows 2000 och XP kanske kommer ihåg Microsoft Sam, operativsystemets standardtext-till-tal mansröst. Microsoft Sam fick jobbet gjort, men ljuden som den producerade var robotiska, stela och onaturliga. De verktyg vi har till vårt förfogande idag är betydligt mer avancerade, mycket tack vare djupinlärning.

Djup inlärning är en metod för maskininlärning som är baserad på artificiella neurala nätverk. På grund av dessa neurala nätverk kan modern AI bearbeta data nästan som nervcellerna i den mänskliga hjärnan tolkar information. Det vill säga, ju mer människolik AI blir, desto bättre är den på att efterlikna mänskligt beteende.

Det är i ett nötskal hur moderna AI-röstgeneratorer fungerar. Ju mer taldata de utsätts för, desto skickligare blir de på att efterlikna mänskligt tal. På grund av relativt nya framsteg inom denna teknik kan den senaste text-till-tal-mjukvaran i huvudsak replikera ljuden den matas.

Hur hotskådespelare använder AI-röstgeneratorer

Föga överraskande missbrukas denna teknik av hotaktörer. Och inte bara cyberkriminella i ordets typiska bemärkelse, utan också av desinformationsagenter, bedragare, marknadsförare av svart hatt och troll.

I samma ögonblick som ElevenLabs släppte en betaversion av sin text-till-tal-mjukvara i januari 2023, började högerextrema troll på anslagstavlan 4chan missbruka den. Med hjälp av den avancerade AI: n återskapade de röster från personer som David Attenborough och Emma Watson, vilket fick det att verka som om kändisarna höll på med vidriga, hatiska tirader.

Som Vice rapporterade vid den tiden, ElevenLabs medgav att människor missbrukade dess programvara, i synnerhet röstkloning. Denna funktion tillåter vem som helst att "klona" en annan persons röst; allt du behöver göra är att ladda upp en inspelning på en minut och låta AI: n göra resten. Förmodligen, ju längre en inspelning är, desto bättre blir resultatet.

I mars 2023 fångade en viral TikTok-video uppmärksamhet The New York Times. I videon hördes den berömda podcastaren Joe Rogan och Dr Andrew Huberman, en frekvent gäst på The Joe Rogan Experience, diskutera en "libidohöjande" koffeindrink. Videon fick det att se ut som om både Rogan och Huberman otvetydigt stödde produkten. I verkligheten klonades deras röster med hjälp av AI.

Ungefär samtidigt kollapsade den Santa Clara, Kalifornien-baserade Silicon Valley Bank på grund av riskhanteringsmisstag och andra frågor, och togs över av delstatsregeringen. Detta var det största bankfallet i USA sedan finanskrisen 2008, så det skickade chockvågor över de globala marknaderna.

Det som bidrog till paniken var en falsk ljudinspelning av USA: s president Joe Biden. I inspelningen hördes Biden tydligen varna för en nära förestående "kollaps" och uppmanade sin administration att "använda medias fulla kraft för att lugna allmänheten." Faktagranskare gillar Politifakt var snabba med att avslöja klippet, men det är troligt att miljoner hade hört det vid det laget.

Om AI-röstgeneratorer kan användas för att imitera kändisar, kan de också användas för att imitera vanliga människor, och det är precis vad cyberbrottslingar har gjort. Enligt ZDNet, faller tusentals amerikaner för bedrägerier som kallas vishing eller röstnätfiske varje år. Ett äldre par skapade nationella rubriker 2023 när de fick ett telefonsamtal från sitt "barnbarn", som påstod sig sitta i fängelse och bad om pengar.

Om du någonsin har laddat upp en YouTube-video (eller dykt upp i en), deltagit i ett stort gruppsamtal med personer som du inte gör vet, eller laddat upp din röst till internet i någon egenskap, kan du eller dina nära och kära teoretiskt sett vara i fara. Vad skulle hindra en bedragare från att ladda upp din röst till en AI-generator, klona den och kontakta din familj?

AI-röstgeneratorer stör cybersäkerhetslandskapet

Det krävs ingen cybersäkerhetsexpert för att inse hur farlig AI kan vara i fel händer. Och även om det är sant att samma sak kan sägas om all teknik, är AI ett unikt hot av flera anledningar.

För det första är den relativt ny, vilket betyder att vi inte riktigt vet vad vi kan förvänta oss av den. Moderna AI-verktyg låter cyberbrottslingar skala och automatisera sin verksamhet på ett aldrig tidigare skådat sätt, samtidigt som de drar fördel av allmänhetens relativa okunnighet när det gäller denna fråga. Generativ AI gör det också möjligt för hotaktörer med liten kunskap och skicklighet skapa skadlig kod, bygga bluffsajter, sprida spam, skriva nätfiske-e-postmeddelanden, skapa realistiska bilder, och producera oändliga timmar av falskt ljud- och videoinnehåll.

Avgörande är att detta fungerar åt båda hållen: AI används också för att skydda system, och kommer sannolikt att vara det i decennier framöver. Det skulle inte vara orimligt att anta att det som väntar oss är en sorts AI-kapprustning mellan cyberkriminella och cybersäkerhetsindustrin, eftersom dessa verktygs defensiva och offensiva kapacitet är inneboende likvärdig.

För den genomsnittliga människan kräver tillkomsten av utbredd generativ AI en radikal omtanke om säkerhetspraxis. Hur spännande och användbar AI än kan vara, kan den åtminstone sudda ut gränsen mellan vad som är verkligt och vad inte är det, och i värsta fall förvärra befintliga säkerhetsproblem och skapa nytt utrymme för hotaktörer att manövrera i.

Röstgeneratorer visar den destruktiva potentialen hos AI

Så fort ChatGPT kom ut på marknaden ökade samtalen om att reglera AI. Varje försök att begränsa denna teknik skulle förmodligen kräva internationellt samarbete i en grad som vi inte sett på decennier, vilket gör det osannolikt.

Anden är slut ur flaskan, och det bästa vi kan göra är att vänja oss vid det. Det, och hoppas att cybersäkerhetssektorn anpassar sig därefter.