Googles MusicLM verkade lovande med sin förmåga att generera musik från textmeddelanden. Men efter att ha satt den på prov levererade den inte riktigt.
I januari 2023 tillkännagav Google MusicLM, ett experimentellt AI-verktyg som kan generera musik baserat på textbeskrivningar. Vid sidan av nyheterna släppte Google en fantastisk forskningsartikel för MusicLM som gjorde många människor bländade av förmågan att trolla fram musik från tomma luften.
Med en textuppmaning lovade modellen att producera högtrohetsmusik som levererade på alla möjliga beskrivningar från genre till instrument till abstrakta bildtexter som beskriver kända konstverk. Nu när MusicLM är öppet för allmänheten bestämde vi oss för att testa det.
Googles försök att skapa en AI-musikgenerator
Att förvandla en textuppmaning som "avkopplande jazz" till ett färdigt spår är utan tvekan den heliga gralen av experiment inom AI-musik. I likhet med kända AI-bildgeneratorer som Dall-E eller Midjourney, behöver du inte ha en gnutta musikkunskap för att producera ett spår som har en melodi och beat.
I maj 2023 kunde de som registrerade sig för Googles AI Test Kitchen testa demon för första gången. Möts av en användarvänlig webbsida och ett par vägledande regler – elektroniska och klassiska instrumenten fungerar bäst, och glöm inte att ange en "vibe" – att producera ett stycke musik är ofattbart lätt.
Hastighet är en av de få saker som MusicLM verkligen levererar på, tillsammans med relativt högtrogna samplingar. Det sanna testet skulle dock inte mätas med enbart ett stoppur. Kan MusicLM producera verklig, lyssningsbar musik baserad på några få ord? Inte precis (vi kommer till det här snart).
Så här använder du MusicLM i Googles AI-testkök
Att använda MusicLM är enkelt, du kan registrera dig på väntelistan för Googles AI-testkök om du vill ge det en chans.
På webbappen kommer du att se en textruta där du kan komponera en prompt från några ord till några meningar som beskriver vilken typ av musik du vill höra. För bästa resultat råder Google dig att "vara väldigt beskrivande", och tillägger att du bör försöka inkludera stämningen och känslorna i musiken.
När du är klar trycker du på enter för att börja bearbeta. Inom cirka 30 sekunder kommer två ljudavsnitt att vara tillgängliga för dig att provspela. Av de två har du möjlighet att ge en trofé till det bästa provet som matchar din uppmaning, vilket i sin tur hjälper Google att träna modellen och förbättra dess produktion.
Hur MusicLM låter
Människor har gjort musik sedan minst 40 000 år sedan utan någon definitiv aning om musik kom före, efter eller samtidigt med språkets utveckling. Så på något sätt är det inte förvånande att MusicLM inte riktigt har knäckt koden för denna urgamla universella konst.
Googles MusicLM-forskningsuppsats föreslog att MusicLM kunde generera musik från bildtexter som tillhör kända konstverk och följa efter instruktioner som att byta genre eller stämning på ett smidigt sätt efter en sekvens av olika uppmaningar.
Innan vi kom till så höga beställningar fann vi dock att MusicLM hade flera grundläggande problem att övervinna först.
Svårt att hålla sig till tempot
Det mest grundläggande jobbet för alla musiker är helt enkelt att spela i tid. Med andra ord, håll dig till tempot. Överraskande nog är det inte något MusicLM kan göra 100 % av tiden.
Faktum är att med samma prompt 10 gånger, vilket producerar 20 musikspår, var det bara tre som var i tid. De återstående 17 samplen var snabbare eller långsammare än det angivna tempot som skrevs i "beats per minute", en mycket använd term för att beskriva musik.
I det här exemplet använde vi prompten "solo klassiskt piano spelat med 80 slag per minut, fridfullt och meditativt". Vid närmare lyssning snabbade musiken ofta upp eller långsammare inom den lilla samplingslängden.
Musiken saknade också ett starkt beat och lät som om någon slagit på play mitt i stycket. Huruvida detta var avsiktligt eller inte, det gör det svårt att bedöma om MusicLM faktiskt kan komponera en riktig början eller slut på ett musikstycke utöver att hålla sig till takten.
Slumpmässigt val av instrument
MusicLM hade kanske ännu inte lärt sig hur man spelar i strikt timing, så vi gick vidare till en annan vanlig musikparameter. Vi ville se om den skulle bevilja vår begäran om vissa instrument.
Vi skrev flera olika uppmaningar som inkluderade beskrivningar som "Solo synthesizer" och "Solo basgitarr". Andra var större ensembler som "String quartet" eller "Jazz band". På det hela taget verkade det som en 50:50 chans att du skulle få vad du bad om.
En teori är att modellen associerar vissa instrument med populära musikgenrer. Ta till exempel prompten "Solo synthesizer, ackordprogression. Livlig och positiv". Istället för att få ett synthesizerljud på egen hand producerade MusicLM ett elektroniskt spår komplett med trummor och bas.
Det är möjligt att modellen helt enkelt inte har tillräckligt med data och tillräckligt med utbildning för att förstå den specifika begäran om ett instrument.
Sången är utanför ekvationen
Enligt begränsningarna vid den tiden skulle modellen inte producera musik som innehåller sång. MusicLM: s svåra upphovsrättsfrågor och buggy sång är en trolig faktor till varför Google valde att spela säkert genom att sätta denna begränsning.
Men efter att ha experimenterat med MusicLM under en tid insåg vi att Googles kontroll över modellens produktion inte precis var järnklädd. Konstigt nog skulle en prompt som "akustisk gitarr" producera ett spår som innehöll spökliknande sång i bakgrunden som lät dämpat och avlägset.
Även om detta inte är en vanlig företeelse, låter det dig undra över MusicLM: s förmåga att skapa övertygande sång i första hand.
Med mjukvara som VOCALOID och Synthesizer V som leder vägen in AI-assisterad röstsyntesteknik, utelämna sång från den nuvarande modellen gör att vi undrar om den inte ännu är tillräckligt bra för att konkurrera med befintlig teknik. MusicLM kan mycket väl ha en lång väg kvar att gå innan musiker kommer att sjunga dess lov.
Framtiden för AI-musikgeneratorer
Medan MusicLM har flyttat den generativa AI-musikteknologin framåt, måste den gå tillbaka till skolan och lära sig några fler saker innan den kan ta på sig praktiskt arbete i musikbranschen.
Innan nu var det bästa försöket med generativ AI-musik en modell som heter JukeboxAI av OpenAI. Den var inte precis klar att använda, och det tog hela nio timmar att återge bara en minuts musik.
För dina ansträngningar kommer du sannolikt att få tillbaka ett riktigt främmande klingande spår fyllt av ljudförvrängning och artefakter. På uppsidan, du skulle inte bli uttråkad lyssna på de bisarra skapelser som Jukebox frammanar.
Mot bakgrund av detta har MusicLM gjort några betydande framsteg mot en användarvänlig AI-musikgenerator. Vi skulle nästan kunna förlåta modellen för dess slumpmässiga utgångar när du tänker på hur oerhört komplicerat det är att generera musik i rå ljudform.
Efter att ha satt modellen i funktion känns MusicLM dock halvdant jämfört med vad Google publicerade i sin första forskningsartikel. Sällan får en AI-bildgenerator bilden av ett Apple fel, likaså bör en AI-musikgenerator få några grunder rätt som tempo och instrument.
Googles MusicLM lever inte upp till förväntningarna
Med teknikföretag som tävlar om att konkurrera ut varandra på AI-fronten, känns MusicLM som om det gick in i offentliga försök innan det var klart. Istället för att få grunderna rätt, verkar modellen ha en mycket mer vag och subjektiv inställning till att producera musik.
Google kan uppmuntra dig att vara specifik med din prompt, men den kan inte hantera tempot bra, och du är inte garanterad att få de instrument du bad om varje gång. MusicLM kan vara intressant och en bra demonstration av kraftfulla AI-framsteg, men om musik är slutmålet har det fortfarande en lång väg kvar att gå.