Varför AI-bildgeneratorer kämpar med händerna

Varför AI-bildgeneratorer kämpar med händerna
Läsare som du hjälper till att stödja MUO. När du gör ett köp med hjälp av länkar på vår webbplats kan vi tjäna en affiliate-provision. Läs mer.

AI-generatorer utvecklas framför våra ögon i en skrämmande takt, men de har fortfarande brister. Att hitta konstiga detaljer i AI-bilder är faktiskt ganska roligt. Det var därför Midjourney-händer blev ett hett ämne, ett problem som är vanligt i många motorer.





Låt oss bryta ner varför händerna utmanar AI-bildgeneratorer så mycket. Deras programmerare fixar redan detta memvärdiga problem, men det är intressant att tänka på hur artificiell intelligens lär sig, för att inte tala om vad som kommer i vägen.





MAKEUSE AV DAGENS VIDEO SCROLL FÖR ATT FORTSÄTTA MED INNEHÅLL

Varför AI-genererade händer gjorde ett uppståndelse

Alla som använder AI-motorer för att skapa bilder kan ha märkt att händerna sällan kommer ut rätt, men problemet väckte huvudet när ett gäng 'foton' dök upp på Twitter.





Vid närmare eftertanke gav människornas konstiga händer bort dem som AI-genererade bilder. Det faktum att detta var Midjourneys försök att få handen gjorde situationen mer intressant.

En av de bästa AI-motorerna som fanns kunde inte ta itu med det invecklade med mänskliga händer, så förmågan hos Midjourney och dess konkurrenter sattes på prov. Sant nog är till och med DALL-E benägen för orealistiska fingrar och naglar.



internethastigheten går upp och ner
  av människor som skakar hand på DALL-E

Hypen var ur proportion, med tanke på att AI-genererade händer alltid har varit ett problem, men den extra uppmärksamheten ledde till att Midjourney v5 för att förbättra v4 .

Den nya versionen gjorde en poäng med att förbättra handdesignen, en tydlig indikation på att AI-ingenjörer uppmärksammade den lustiga uppståndelsen och bestämde sig för att uppgradera programvarans kapacitet.





Andra motorer är långsamma att följa Midjourneys exempel, så fixa AI-konst med Photoshop förblir en ovärderlig färdighet. Det största hindret för programmerare är hur komplicerat det är att träna artificiell intelligens för att dra övertygande händer.

Varför kämpar AI-bildgeneratorer med händerna?

AI-motorer använder generativa motstridiga nätverk (GAN) eller Stable Diffusion för att producera bilder. Båda teknikerna kräver omfattande källmaterial, utbildning och bearbetningskraft för att skapa även de mest grundläggande konstverken.





Eftersom redan existerande bilder är centrala för en AI:s utbildning måste programmerare mata sin programvara tusentals, om inte miljoner, bilder tillsammans med uppmaningar – upprepa processen om och om igen tills motorn förstår vad ett visst ord refererar till och hur det ska representera det objektet.

vem gör det här telefonnumret tillhör

Men källbilderna som en AI lär sig av är främst 2D, där händerna avbildas i en mängd olika positioner. Oavsett om den är rak eller böjd, med fem eller tre fingrar.

I slutändan förstår en maskin faktiskt inte begreppet händer, och bilderna den lär sig av visar inte alltid händerna tillräckligt tydligt eller konsekvent. Det är därför Midjourney-händer kan vara så fula: AI-förvirring.

Lika giltig som Elon Musks oro för AI-utveckling kan vara, vissa delar av tekniken har fortfarande mycket att lära. Och deras hinder går utöver otillräckliga exempel på händer.

Andra skäl till varför AI-bildgeneratorer går långsamt att förbättra

  Kvinna som kodar på datorn

Tittar på Midjourneys modeller , v5 erbjuder avancerad överensstämmelse mellan textuppmaningar och producerade bilder, samt högre upplösning och ytterligare verktyg. Men sådana prestationer är inte billiga.

Att träna en AI för att bli bättre med händerna kräver att den matas med bättre bilder, särskilt i 3D. Det innebär att mycket tid och arbetskraft läggs på processer, från att skaffa källmaterial till att förbättra kodningen och upprepa träningen tills AI:n får det rätt.

Även då kan programvaran göra misstag i annars fantastiska konstverk. Förutom att det är ett stort och komplext jobb är det dyrt. Så förvänta dig inte gratis AI-text-till-bild-generatorer att kliva upp till Midjourneys kaliber ännu.

Enkelt uttryckt, problemet med AI-motorer handlar inte bara om dessa datorprograms oförmåga att helt förstå hur mänskliga egenskaper som händer och fötter ser ut eller fungerar. Det handlar också om vad det kostar, och teknikens tillgång till 3D-bilder och maskininlärningstekniker som kan hjälpa generatorer att få ett mer realistiskt grepp om världen omkring dem.

AI-bildgeneratorer kommer inte att kämpa för evigt

Händer är ett knepigt koncept för artificiell intelligens att linda sitt binära huvud runt, men lösningar på problemet är redan på gång. Midjourney, DALL-E 2 och andra plattformar kommer så småningom att kunna hålla konstiga fingrar på ett minimum, om inte utrota dem helt.

Framsteg inom andra AI-områden säkerställer att tekniken ständigt utvecklas, och att dess utvecklare alltid lär sig nya sätt att tillämpa och förbättra den.