AI-verktyg i musikproduktion är inget nytt. Men hur är det med musik som genereras från grunden med AI? Det är nu också verklighet.
Generativ AI sprider sig sakta till allt fler discipliner inom den kreativa branschen. Det startade med AI-konstgeneratorer och spred sig sedan till att skriva med AI-genererad text. Nu kan vi lägga till musik till den listan.
Inom en snar framtid kommer AI-genererad musik, skapad från grunden, att bli verklighet. Faktum är att det redan är en möjlighet med Jukebox, OpenAIs musikskapande AI-modell. Det är ännu inte tillgängligt i en lättanvänd applikation, och det låter inte tillräckligt bra ännu, men de algoritmiska benen finns där.
Här är vad du behöver veta om OpenAIs Jukebox och vad du kan göra med den.
Jukebox: AI som genererar musik som råljud
Jukebox är ett neuralt nät som kan generera musik i rå ljudform när du ger den input som genre, artist eller text. Den släpptes i april 2020 av OpenAI, samma företag som gav oss AI-konstgeneratorn vid namn Dall-E, och AI-chatboten som heter ChatGPT.
Till skillnad från Dall-E, som spred sig snabbt över världen och gjorde AI till ett febrigt ämne för nyheter och media, registrerade Jukebox inte ett brett spektrum av intresse efter lanseringen. En anledning till detta är att den inte har en användarvänlig webbapplikation – åtminstone inte ännu.
Du hittar koden på OpenAI hemsida, tillsammans med en djupgående förklaring av hur kodnings- och avkodningsprocessen fungerar.
En annan trolig orsak är att det tar oerhört mycket tid och datorkraft. För att ge dig en idé kan bara en minuts ljud ta 9 timmar att återge. Du kommer att behöva en vilja att utforska modellen i dess kodform, plus mycket tålamod om du vill se vad en AI-modell kan göra för att generera musik.
Eller så kan du hoppa till Jukebox Sample Explorer. Det är här OpenAI har publicerat sina experiment från att generera låtar i likhet med Ella Fitzgerald eller 2Pac.
För att vara tydlig, andra AI-musikverktyg finns för att hjälpa dig skapa en låt, men de genererar inte ljud från början. Istället kombinerar de antingen förinspelade samplingar eller skapar MIDI-information som skickas genom en digital synthesizer.
Hur låter Jukebox?
Resultaten av Jukebox är igenkännliga men konstiga. Det är inte svårt att förstå formen på låten och vilken genre den tillhör, utan kvaliteten på resultatet får det att låta som om du lyssnar på någon av den tidigaste inspelade musiken: det vill säga dämpad med massor av ljud.
Det är säkert att säga att Jukebox inte producerar den typ av hi-fi-ljud som du skulle höra från ett par bra hörlurar. Det är mer som att höra musik från en radiostation som inte är helt inställd på rätt frekvens. Vissa låtar är omtolkningar medan andra är fortsättningar på befintliga låtar. Det finns också en kategori för nya artister och stilar, och osynliga texter.
Trots ljudkvaliteten beskriver tidiga experimentörer att de är imponerade över den kusliga skönheten och den bisarra naturen hos musiken som skapats av Jukebox. "Som ett soundtrack till dokumentation om ett okänt land med en okänd kultur", skriver Merzmench på Medium.
För närvarande är resultaten långt ifrån tillräckligt bra för att kopiera, eller ens ersätta, musik skapad av människor, men det Tekniken går snabbt och snart nog kommer modeller som Jukebox att kunna åstadkomma dessa bedrifter för.
Hur OpenAI: s Jukebox tränades
En del av hur Jukebox kan skapa musik som aldrig tidigare har funnits är att den är tränad på musik från riktiga musiker. OpenAI förklarar att:
"För att träna den här modellen genomsökte vi webben för att skapa en ny datauppsättning med 1,2 miljoner låtar (varav 600 000 är på engelska), parat med motsvarande texter och metadata från LyricWiki."
Att genomsöka data är en praxis som används av vissa AI-företag för att skapa en uppsättning data som en AI-modell kan använda för att lära sig av och fatta beslut när man skapar en bild, text – eller i det här fallet – musik. Datauppsättningar som skapas genom genomsökning är kontroversiella eftersom samtycke inte erhålls från ägarna av data i första hand. Även om vissa plattformar tillåter dig välja bort ditt innehåll från datamängder.
Du kanske tror att 1,2 miljoner låtar är mycket, men som jämförelse tränades Dall-E 2 på hundratals miljoner bild-text-par från internet. Med det i åtanke har Jukebox sin begränsning.
Dess relativt lilla träningspool kan inte fånga den mänskliga musikens rikedom och mångfald. OpenAI har sagt att det till stor del är utbildat på västerländsk musik, vilket representerar en tydlig fördom i vilken musik den kan generera.
Vad kan du göra med Jukebox?
Så, med dess begränsningar i åtanke, vad kan du göra med Jukebox? Ett snabbt sätt att svara på den frågan är att säga vad du inte kan göra med Jukebox.
Eftersom det tar nästan en halv dag att rendera en minuts musik är det inte särskilt användbart för att producera musik. Åtminstone inte i traditionell mening. Normalt rör sig musiker fram och tillbaka mellan att spela på ett instrument (improvisera) och att planera uppbyggnaden av en låt. Samma typ av experiment är inte möjligt med Jukebox.
Eftersom det inte är lätt att skapa en låt med Jukebox i det här skedet, kan du se det mer som ett nytt sätt att generera musikprover. När du har skapat ljud som du gillar kan du använda det i dina kreativa projekt som du brukar göra.
Videon nedan är resultatet av att någon använde musik skapad med Jukebox för att understryka en kort montagevideo.
Artificiell intelligens har ett brett utbud av applikationer även utanför kreativa applikationer, vilket är anledningen till att det är värt förstå vad AI är och de faror det utgör.
Är du rörd av AI Music?
Musiken som genereras av Jukebox är inte lätt att avfärda, och trots alla dess konstigheter och kusliga, människa-maskin-kvalitet låter den i slutändan som musik. Medan musikindustrin har använt AI-verktyg ett tag nu, är möjligheten att generera musik som råljud först nu en realitet.
Men även om modeller som Jukebox existerar, har de ännu inte paketerats till ett kommersiellt verktyg och saknar fortfarande förmågan hos mänskliga musiker.