Deepfake musik efterliknar stilen hos en viss artist, inklusive deras röst. Hur är det möjligt att det låter så verkligt?

Under lång tid kunde musik undvika deepfakes-världen eftersom det helt enkelt var för komplicerat att syntetisera någons röst. Allt detta förändrades med framsteg inom AI-teknik. Det har resulterat i röstkloner av kända artister som kan användas för att producera nya sångspår.

Med AI-verktyg som blir mer tillgängliga för vanliga människor, är deepfake-musik ett växande problem. Här är vad det är och hur det skapas.

Utvecklingen av Deepfake Music

När du hör din favoritartist sjunga på Spotify eller YouTube tror du knappt att det kan vara falskt, men AI-framsteg har gjort detta till verklighet. Vid sidan av falska bilder och videor finns det också djupfalsk musik.

AI-verktyg kan troget återge en persons sångröst genom att träna en AI-modell på ljudprover av deras röst. Skapat av fans av artisten, eller fans av AI-teknik, fler människor försöker skapa vokala dubbelgängare.

Människor har försökt syntetisera rösten med hjälp av en dator i åratal, så långt tillbaka som 1961 när IBM 7094 var den första datorn att sjunga. Du kan höra datorgenererad röst som sjunger Daisy Bell i ett YouTube-klipp och försök föreställa dig hur fantastiskt detta ögonblick var.

Snabbspolning framåt till 2000-talet och AI-teknik har båda förbättrat kvaliteten på syntetiserad röst och tillät oss att göra saker som de flesta av oss aldrig trodde var möjliga förrän nu, som att klona människors röster.

Ta bara en titt på det här klippet av Roberto Nickson som förvandlar sin röst till artisten och rapparen Kanye West. Att titta på videon känns kusligt, det låter verkligen precis som Kanye, men det är också obekvämt att titta på. Utan för mycket eftertanke om hur konstnären kan tänka eller känna, och utan tillåtelse, kan det ses som att tillägna sig någons röst.

Till skillnad från datoråtergivningen av Daisy Bell kan AI-vokalkloning återskapa den exakta likheten med någons röst, som inkluderar alla subtila skillnader i klangfärg som hjälper oss att identifiera någons unika sång profil. Olicensierad, och gjort utan tillstånd, har dock deepfake-musik några allvarliga problem, som vi kommer att komma till senare.

Hur Deepfake-låtar skapas

Olika metoder används för att skapa deepfake-låtar men många av dem använder AI-teknik. Open-source-projekt som SoftVC VITS Singing Voice Conversion-projekt på GitHubhar till exempel utvecklat en AI-modell som gör vad den säger i sitt namn: konverterar ett ljudprov till en sångröst.

Den här modellen tar en befintlig ljudfil av någon som sjunger och konverterar den till någon annans röst. Saker som texten och rytmen i den ursprungliga rösten behålls, men ton, klang och personliga sångkvaliteter omvandlas till rösten som specificeras av träningsdataset.

Tänk på att andra delar av låten fortfarande kan produceras manuellt, som att skapa beats och melodier i samma stil och genre som den ursprungliga artisten.

För att skapa en djupförfalskning av Kanye Wests röst behövde en tredjepartsuppsättning matas in i SoftVC VITS-modellen, som skulle inkludera prover av den verkliga Kanyes röst. Filen som innehåller datauppsättningen har sedan tagits bort av författaren, vilket inte är förvånande med tanke på det skumma juridiska territoriet som kan komma med obehöriga datauppsättningar.

Även om den inte har förvandlats till en kommersiell app, kan du hitta en version av SoftVC VITS-modell på Google Collab det är mer användarvänligt.

Tills de etiska och juridiska gränserna är på plats är det möjligt att fler lättanvända appar för röstkloning dyker upp – inte alltför annorlunda än Drayk.it-appen som gjorde en textbeskrivning till låtar utformade efter artisten Ankbonde. Den stängdes senare av.

Några andra verktyg som används för att skapa deepfake musik inkluderar stora språkmodeller som ChatGPT, som kan användas för att skriva texter i stil med en känd artist; och OpenAI: s Jukebox och Googles MusicLM, som är generativa AI-modeller som kan skapa musik i råljudform helt från grunden.

Kan du höra skillnaden?

En låt skapad av en anonym användare vid namn Ghostwriter blev viral på TikTok i april 2023, inte en liten del eftersom den innehöll texter som sjöngs av artisterna Drake och The Weeknd. Naturligtvis var det inte artisternas verkliga röster, utan falska.

Hade inte sången varit en så bra kopia av originalet hade det kanske inte varit någon hit. Med lite grävande kunde du ganska snabbt ta reda på om det var den verkliga affären eller inte, men med bara dina öron kunde du bara gissa om det var äkta.

Om du vill identifiera en AI-genererad bild det finns åtminstone några visuella avvikelser du kan leta efter. När det gäller ljud betyder inte tecken som lågfidelitetsljud eller fel i spåret så mycket eftersom det är kreativa val som används i musikproduktion hela tiden.

Vad som är ännu mer intressant är att många verkligen gillar låten, även efter att ha upptäckt att det inte var Drakes eller The Weeknds verkliga röster. Beundrare påpekade att allt inte helt enkelt skapades med AI, och att verklig skicklighet och arbete gick åt till att skriva texterna, komponera beats och sätta ihop det hela.

Låten kom till Spotify och YouTube innan den togs ner dagarna efter, men inte innan fansen hade laddat ner låten som mp3. Du kan fortfarande hitta kopior av låten online om du söker "Heart On My Sleeve, Drake ft. Helgen".

Snart nog kommer det att bli nästan omöjligt att upptäcka skillnaden mellan AI-genererade sångkloner och den verkliga mänskliga rösten. Med det i åtanke ifrågasätter människor om detta är en bra användning av AI-teknik i första hand, eller till och med en laglig användning av den.

Problem med Deepfake Music

Å ena sidan gillar folk att lyssna på fan-made mashups av sina favoritartister och respekterar den kreativitet som ligger till grund för att göra det till verklighet. Men förmågan att ha röstkloner i första hand bygger på datauppsättningar som kan eller inte kan vara auktoriserade.

Utan tillstånd samlas prover av en persons röst in i en datauppsättning som sedan används för att träna en AI-röstkonverteringsmodell. Det liknar problemet som står inför konstnärer som vill ta bort sina bilder från träningsdatauppsättningar som används för att träna AI-bildgeneratorer som Dall-E eller Midjourney.

Upphovsrättslagstiftningen är inte heller beredd att ta itu med deepfake musik. År 2020 misslyckades artisten Jay-Z med att försöka tvinga YouTube att ta ner AI-genererat ljud av honom som rappade rader från William Shakespeares "To Be or Not to Be" ensam.

När en deepfake-låt laddas upp på Spotify eller YouTube är det också frågan om vem som tjänar pengar. Ska man kunna tjäna pengar på en låt som nästan exakt kopierar någon annans röst?

Holly Herndon är en konstnär som har försökt skapa ett system för människor att kompensera henne i utbyte mot att använda hennes röstmodell för att skapa originalverk. Medan andra artister som Nick Cave har uttalat sig mot AI, skrift:

Sånger uppstår ur lidande, med vilket jag menar att de är baserade på den komplexa, interna mänskliga kampen i skapelsen och, så vitt jag vet, känns inte algoritmer.

Ibland, AI-genererad text kan sakna kreativitet helt och hållet men de läggs fortfarande ut online. AI kan resultera i mycket dålig musik som har haft väldigt lite ansträngning på sig.

Att hitta en balans mellan musik och AI

Deepfake-musik skapas med hjälp av AI-verktyg och AI-modeller som har tränats på obehöriga datamängder. Vissa modeller är öppen källkod och fritt tillgängliga, medan andra försök har gjorts att paketera dem till en användarvänlig app.

När fler människor får tag på deepfake musikmodeller eller appar är det värt att tänka på hur det påverkar artisten. Att få samtycke till träningsdatauppsättningar och kompensation för artisten är bara några av problemen som hägrar över AI-musikteknik.