AI kan lura oss att förväxla genererad konst för riktiga bilder. Så varför är händerna en så stor utmaning?
AI-generatorer utvecklas framför våra ögon i en skrämmande takt, men de har fortfarande brister. Att hitta konstiga detaljer i AI-bilder är faktiskt ganska roligt. Det var därför Midjourney-händer blev ett hett ämne, ett problem som är vanligt i många motorer.
Låt oss bryta ner varför händerna utmanar AI-bildgeneratorer så mycket. Deras programmerare fixar redan detta memvärdiga problem, men det är intressant att tänka på hur artificiell intelligens lär sig, för att inte tala om vad som kommer i vägen.
Varför AI-genererade händer gjorde ett uppståndelse
Alla som använder AI-motorer för att skapa bilder kan ha märkt att händerna sällan kommer ut rätt, men problemet väckte huvudet när ett gäng "foton" dök upp på Twitter.
Vid närmare eftertanke gav människornas konstiga händer bort dem som AI-genererade bilder. Det faktum att detta var Midjourneys försök att få handen gjorde situationen mer intressant.
En av de bästa AI-motorerna som fanns kunde inte ta itu med det invecklade med mänskliga händer, så förmågan hos Midjourney och dess konkurrenter sattes på prov. Sant nog är till och med DALL-E benägen för orealistiska fingrar och naglar.
Hypen var ur proportion, med tanke på att AI-genererade händer alltid har varit ett problem, men den extra uppmärksamheten ledde till att Midjourney v5 för att förbättra v4.
Den nya versionen gjorde en poäng med att förbättra handdesignen, en tydlig indikation på att AI-ingenjörer uppmärksammade den lustiga uppståndelsen och bestämde sig för att uppgradera programvarans kapacitet.
Andra motorer är långsamma att följa Midjourneys exempel, så fixa AI-konst med Photoshop förblir en ovärderlig färdighet. Det största hindret för programmerare är hur komplicerat det är att träna artificiell intelligens för att dra övertygande händer.
Varför kämpar AI-bildgeneratorer med händerna?
AI-motorer använder generativa motstridiga nätverk (GAN) eller Stable Diffusion för att producera bilder. Båda teknikerna kräver omfattande källmaterial, utbildning och bearbetningskraft för att skapa även de mest grundläggande konstverken.
Eftersom redan existerande bilder är centrala för en AI: s utbildning måste programmerare mata sin programvara tusentals, om inte miljontals, bilder tillsammans med uppmaningar – att upprepa processen om och om igen tills motorn förstår vad ett visst ord syftar på och hur man representerar det objekt.
Men källbilderna som en AI lär sig av är främst 2D, där händerna avbildas i en mängd olika positioner. Oavsett om den är rak eller böjd, med fem eller tre fingrar.
I slutändan förstår en maskin faktiskt inte begreppet händer, och bilderna den lär sig av visar inte alltid händerna tillräckligt tydligt eller konsekvent. Det är därför Midjourney-händer kan vara så fula: AI-förvirring.
Lika giltig som Elon Musks oro för AI-utveckling kan vara, vissa delar av tekniken har fortfarande mycket att lära. Och deras hinder går utöver otillräckliga exempel på händer.
Andra skäl till varför AI-bildgeneratorer går långsamt att förbättra
Tittar på Midjourneys modeller, v5 erbjuder avancerad överensstämmelse mellan textuppmaningar och producerade bilder, samt högre upplösning och ytterligare verktyg. Men sådana prestationer är inte billiga.
Att träna en AI för att bli bättre med händerna kräver att den matas med bättre bilder, särskilt i 3D. Det innebär att mycket tid och arbetskraft läggs på processer, från att skaffa källmaterial till att förbättra kodningen och upprepa träningen tills AI: n får det rätt.
Även då kan programvaran göra misstag i annars fantastiska konstverk. Förutom att det är ett stort och komplext jobb är det dyrt. Så förvänta dig inte gratis AI-text-till-bild-generatorer att kliva upp till Midjourneys kaliber ännu.
Enkelt uttryckt, problemet med AI-motorer handlar inte bara om dessa datorprograms oförmåga att helt förstå hur mänskliga egenskaper som händer och fötter ser ut eller fungerar. Det handlar också om vad det kostar, och teknikens tillgång till 3D-bilder och maskininlärningstekniker som kan hjälpa generatorer att få ett mer realistiskt grepp om världen omkring dem.
AI-bildgeneratorer kommer inte att kämpa för evigt
Händer är ett knepigt koncept för artificiell intelligens att linda sitt binära huvud runt, men lösningar på problemet är redan på gång. Midjourney, DALL-E 2 och andra plattformar kommer så småningom att kunna hålla konstiga fingrar på ett minimum, om inte utrota dem helt.
Framsteg inom andra AI-områden säkerställer att tekniken ständigt utvecklas, och att dess utvecklare alltid lär sig nya sätt att tillämpa och förbättra den.