🤯⚡️AI failar att klona det kända, men nailar att återskapa det vi aldrig sett.

AI som objektsklonare är ett tankefel. Detta förändrar ju allt!

Mar 14, 2024

Det här är nyhetsbrevet där Tomas Seo, innovationsstrateg på Phorecast, avslöjar händelser, upptäckter och ny teknik som får honom att utbrista: Detta förändrar ju allt! Du prenumererar på det här för att fortsätta vara steget före med de senaste trenderna och få konkreta tips för att framtidssäkra dig och din organisation. Har du fått det här av en vän? Då vill du kanske starta en egen prenumeration?

Midjourneys consistant character-funktion är lite inconsistent än så länge, för visst är flickorna lika men inte är det samma person överallt?

Vad har hänt?

-Midjourney släpper funktion för att återanvända skapade karaktärer

Midjourney har lanserat en funktion som möjliggör för användare att AI-generera karaktärer som ser likadana ut varje gång (Character consistency). Detta har länge varit en utmaning inom AI-bildgenerering på grund av att diffusionsmodeller genererar nytt innehåll för varje inmatad prompt, vilket gör det svårt att upprätthålla konsekvens för specifika karaktärsdrag över flera bilder.

Character consistency möjliggör ett historieberättande med en återkommande karaktär vilket gör att Midjourneys 16 miljoner användare nu kan skapa bildserier som berättar en historia med samma huvudkaraktär. Dessutom har de dominerande genererarna för video (RunwayML, PikaLabs) en funktion där du laddar upp en bild som startbild. Consistent characters förenklar för AI-filmskapare att berätta historier där det finns en huvudperson som ser likadan ut filmen igenom.

(Funktionen är släppt till alla men det känns att det är en alpha-version. Även om det är ett steg i rätt riktning så fungerar den ännu inte tillräckligt bra för att vara pålitlig. Karaktärerna blir lika men inte riktigt samma, det är passable men kvaliteten på bilderna blir också sämre, så intrycket blir ibland att ansiktena är gjorda med en äldre generationer av Midjourney.)

Detta förändrar ju allt

Midjourneys nyhet får mig att reflektera över digitalisering och kloner. Men innan vi djupdyker i det så tänkte jag introducera er som inte jobbar med AI-bilder till varför samma ansikte i flera bilder är en så stor nyhet.

De flesta som inte använt AI-bildgenerering i arbetet tror att det är lätt att få till vad som helst nu när AI finns. Men i själva verket är det lika svårt att få en bild som föreställer exakt det kunden har i huvudet som att valla katter. Utifrån ett användarperspektiv är diffusionsmodeller som slot machines.Vi lägger in en prompt och drar i spaken för att se om det blir vinst. AI-bildgenerering med precision kräver mycket tålamod, villighet att experimentera och massor av timmar med felaktiga försök.

I själva verket är diffusionsmodeller väldigt pålitliga mönsteråterskapande statistiska modeller. De har studerat hur en bild ser ut när den blir mer och mer diffus (när det adderas slumpmässiga prickar) för att bli helt enfärgad. Men det konstiga är att när de spelar upp samma mönster baklänges så blir det en bild. Så varje prompt blir kopplad till ett mönster i hur prickar brukar se ut baklänges när de läggs på en bild som är taggad med ord.

Om man förenklar. Bilder på en katt hade ett mönster i hur den såg ut när prickar lades på som vi kallar A. Bilder på en hatt hade ett mönster för hur den såg ut när prickar lades på som vi kallar B. Så promptar vi för en katt i en hatt så lägger modellen ihop hur mönstret för A och B skulle kunna bli tillsammans. Men låt oss kalla det för vad det är, häxeri!

Jag har själv väntat länge på att få ett bättre verktyg för character consistency och jag är inte ensam. På Youtube finns mängder av tips och filmer om workarounds för att få till bättre character consistency. En av de vanligaste frågorna i grupper om Midjourney är hur man kan få kontroll över att en bild ska ha samma person som en annan bild. Det har till och med lanserats flera bildgenereringstjänster med enda säljargument att de är bättre på character consistency. Det är förmodligen den förlösande funktionen för hundratusentals AI-filmskapare att faktiskt kunna skapa en AI-film som bygger på äkta storytelling istället för bara surrealistiska musikvideoaktiga konstprojekt. Den enkla möjligheten att enkelt kunna klona ett utseende från bild till bild är en grundläggande funktion för ökad precision och kontroll för alla bildskapare.

Det finns två angreppssätt för att klona något. Antingen så bygger vi ett objekt, till exempel en stol, som är så lik förlagan som möjligt. Vi har en monteringsanvisning som beskriver material och visar var olika delar ska sitta. Sätter vi ihop dem enligt monteringsanvisningen så har vi klonat stolen. Eller så bygger vi objektsskaparen, den maskin som producerar stolen. Om vi lyckas bygga stoltillverkningsmaskinen exakt kommer det inte vara någon skillnad. Båda angreppssätten kommer kunna leverera en perfekt klon av stolen.

Det nya med digitaliseringen var att det gick att skapa en perfekt klon. All information om den digitala filens sammansättning är känd och det gick därför plötsligt att göra en perfekt objektsklon. Musik.mp3 och kopian Musik_copy.mp3 var identiska. Produktionskostnaden för att producera en till kopia var dessutom nära noll, vilket gjorde att alla branscher som hade kloningsbara objekt skakade. För första gången kunde vi ha kakan och äta den. Digitaliseringen fokuserade på kloning av själva objektet.

Generativ AI möjliggör kloning av fler typer av objekt än datafiler, såsom utseende, röster och visuella manér. Därför tänker vi att det precis som under digitalseringen kommer bli perfekta kopior som radikalt förändrar branscher med de nya kloningsbara objekten. Men det är möjligt att vi begår ett tankefel här. För generativ AI kan inte göra perfekta kloner. Grejen med generativ AI är att den inte följer exakta monteringsanvisningar. Istället möjliggör generativ AI att du utan exakta monteringsanvisningar kan få hyfsat lika objekt varje gång. Det är objektskapare, stoltillverkningsmaskinen som vi bygger för att vi vet att den kan generera stolar men vi har inte full kontroll över resultatet. Istället för att tänka utifrån digitaliseringsseran så bör vi jämföra med tidig industrialism.

Industrialismen gav oss verktygen för massproduktion av produkter med hyfsat jämn produktionskvalitet. Generativ AI är vår tids nya verktyg för produktion av tjänster. Generativ AI kan inte göra perfekta kloner av tjänster men generativ AI kan reproducera funktionen av vissa tjänster tillräckligt bra för att vara både komplement till tidigare produktionsmetoder och för att komma på helt nya tjänster.

Många tänker att det nya endast är att vi nu har teknik för att perfekt klona fler sorters objekt, men det är mer än så. Så tänk istället att det nya med generativ AI är att vi inte klonar skapelser, vi klonar skapare, och detta förändrar ju allt!

Vad kan du göra idag?

Förstå

Vi strävar efter att den nya tekniken ska kunna producera något vi specificerat exakt. Men det innovativa med generativ AI är istället att den möjliggör att producera något vi inte kan specificera innan vi ser det. Till exempel: Den senaste i raden av AI-agenter som kan koda heter Devin. Det är den första som marknadsförs inte som co-pilot för kodning utan som en autonom mjukvaruingenjör. Du specar något du vill ha kodat och så har den sin egen utvecklingsmiljö för kodning och egen webbläsare för research. Kika gärna på deras demo.

Planera

En uppenbar fördel med generativ AI är att använda den som utforskare av en mängd olika möjligheter. Istället för att bara fokusera på att använda generativ AI för att producera – planera in hur tekniken kan fungera för att vidga antalet alternativ som ni hinner utforska. Det går att göra skarp produktion med hjälp av AI, men för att få verktyget att få till den sista finishen krävs mycket resurser. Planera för ett produktionsflöde där AI mer och mer automatiskt kan ta fram underlag för olika vägval, snarare än att planera för att generativ AI ska vara den slutliga produktionsmaskinen (det finns bättre AI/ML modeller för det).

Gör

Kan du säga något som ChatGPT 4 klarar av som inte gratisversionen kan? Det är så otroligt många som uttalar sig om AI som inte utforskat skillnaden mellan gratisversionernas och betalversionernas förmåga. Det är synd för ofta när det kommer nyheter där människor uttalar sig om AI:s oförmåga så baseras dessa på en skev bild av AI:s kapacitet. Så veckans gör är att du tar reda på om du själv kan se vad betalversionen av någon av de olika AI-chattbottarna kan som inte gratisversionen kan.

Länkar

Läs om Midjourneys nya feature här (eller gå direkt till källan som är Midjourneys Discord-kanal)
https://venturebeat.com/ai/midjourney-debuts-feature-for-generating-consistent-characters-across-multiple-gen-ai-images/

Mjukvaruagenten Devin, sign up
https://www.cognition-labs.com/blog

Vill du få ännu mer perspektiv på hur kloning och AI hänger ihop så förklarar Scott Aaronson (som just nu jobbar extra med alignment på OpenAI) hur vi människor kanske eller kanske inte är kloningsbara.

Sedan sist vi hördes

Denna vecka har jag testat haiper.ai som är en ny video-genereringstjänst. Det blir jättefina resultat från deras bästa modell, men den genererar bara 2 sekunder i taget än så länge. Gratis just nu men lär ju kosta pengar så småningom som brukligt är.

Anthropic som har Claude har släppt en promptoptimerare. Den är i ett Google collab, men för dig som är intresserad av hur bolagen själva tycker att promptar ska skrivas för att få deras AI att vara bra så är det väl värt en titt. https://colab.research.google.com/drive/1SoAajN8CBYTl79VyTwxtxncfCWlHlyy9#scrollTo=NTOiFKNxqoq2

Här är instruktioner för hur du använder det
https://twitter.com/moritzkremb/status/1766850258477482333

Är du en insiktsdelare?

Känner du någon som är intresserad av att klona sin kunskap och förpacka den som en tjänst? Eller kanske någon som är intresserad av att börja använda generativ AI för att berätta historier? Vem tänkte du på? Skicka vidare!

Själv vill jag rekommendera Fredrik Wass nyhetsbrev, där han nu senast påpekade hur många som fotar slides med siffror som att de vore källgranskade sanningar när de ibland bara är lite lösa estimeringar.

Denna vecka blev jag själv jag också inspirerad av att mingla med alla på Berghs Unconference. Tack så hemskt mycket till alla som kom och lyssnade på min session (tror det var över 300 pers). De som var där verkade gilla min session för det har strömmat in nya prenumeranter! Nu är ni över 1000 personer som prenumererar på det här nyhetsbrevet. (Det känns väldigt stort för mig!)

Inspirationsföreläsning

Torsdag 11/4 kl 12:00-12:45 kör jag en inspirationsföreläsning för betalande prenumeranter. Svara gärna ja på den inbjudan jag skickat ut om du vill vara med. Jag kommer köra en del av det jag presenterade på Berghs, men jag kommer att addera något mer också eftersom det blir en lite längre slot än på Berghs.

Jag får ibland frågan om vad jag egentligen gör och om man kan anlita mig. Just nu har jag uppdrag i ledningsgrupper som vill ha stöd när de utreder AI-frågor. Jag gör också föreläsningar och workshops för styrelser där syftet är att förändra verksamheten. Eftersom jag har både kreativ och strategisk bakgrund så har mina uppdrag varierat från att ta fram beslutsunderlag till att skapa koncept för nya satsningar. Dessutom har jag jobbat mycket med varumärkesutveckling och konsumentbeteende. Mina kunder är organisationer som på riktigt vill genomföra en större förändring och behöver både inspiration och pragmatiska idéer på hur de ska ta nästa steg. I detta spännande teknikskifte skulle jag gärna bidra med mina kunskaper i en advisory board eller styrelseroll. Hör gärna av dig om något av detta kan vara till nytta i din organisation!

Tomas Seo

Har du fått dagens nyhetsbrev utan att vara prenumerant?
Gillade du det här och vill ha mer så är det bara att skriva upp sig här
(du väljer själv om du vill betala):

Prenumerera