🤯⚡️Sora video är en slaskprodukt

AI förstår vår värld. Detta förändrar ju allt!

Feb 21, 2024

Det här är nyhetsbrevet där Tomas Seo, innovationsstrateg på Phorecast, avslöjar händelser, upptäckter och ny teknik som får honom att utbrista: Detta förändrar ju allt! Du prenumererar på det här för att fortsätta vara steget före med de senaste trenderna och få konkreta tips för att framtidssäkra dig och din organisation. Har du fått det här av en vän? Då vill du kanske starta en egen prenumeration?

Vad har hänt?

-Alla missförstår OpenAIs projekt Sora

OpenAI visade i torsdags upp att deras kommande AI-modell Sora kan generera video som är ett stort hopp i kvalitet från alla andras modeller inom området. Men trots att det står allra först i pressmeddelandet så har de flesta missat att den stora nyheten egentligen inte är att OpenAIs videomodell är exceptionellt bra (vilket den verkar vara).

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.

Målet är enligt OpenAI inte att göra en video-tjänst, utan att utforska hur AI kan fördjupa sin förståelse för människornas värld. I den mer tekniska pressreleasen namngiven ”Video generation models as world simulators” försöker de förtydliga:

Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

OpenAI lyfter tydligt fram syftet med Sora som en del av sin strategi mot att bygga allmänna simuleringsmodeller av verkligheten. Men detta har i stor utsträckning överskuggats av mediernas fokus på den höga grad av realism på video som Sora klarar av att göra.

Detta förändrar ju allt

Dagens nyhetsbrev handlar inte om film, sök på Sora så har du läsning för flera dagar om filmaspekten av Sora. Istället ska jag övertyga dig om att Soras förmåga att göra film är en oviktig restprodukt som OpenAI kanske inte ens tar vidare.

När jag, Axel von Matern och Gottfried Gemzell startade AI-bolaget It’s Alive 1999 så delade vi upp det vi ville bygga i två delar, öron och mun. Egentligen var vi bara intresserade av munnen, men för att kunna konversera bra så behöver man som bekant kunna lyssna dubbelt så bra. OpenAI verkar också dela upp AGI (Artificiell Generell Intelligens, AI som kan lösa alla problem bättre än en genomsnittsexpert inom varje område) i olika delsteg. Det största problemet som vi försökte lösa 1999 var hur vi skulle få vår AI att kunna förstå skillnaden på positiv och negativ tonalitet, något som löst sig själv med dagens transformer-teknik. Det största problemet som OpenAI verkar försöka lösa är hur deras AI-modeller kan förstå den riktiga världen tillräckligt bra för att kunna förutse konsekvenser i den.

I en fotnot refererar den tekniska pressreleasen av Sora till en forskningsrapport om världsmodeller från 2020 (World models). Rapporten handlar om att neurala nätverksmodeller (AI) skapar en inre bild av hur världen de får siffror om ”ser ut” och fungerar. Förra året kom en annan rapport med det aningen mer komplicerade namnet “Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task” som också påvisar att neurala nätverksmodeller bygger upp en inre mental bild av hur ett bräde för Othello ser ut och hur reglerna fungerar bara genom inmatning av massor av koordinater på drag från Othello-matcher. Så vad Sora gör är inte alls vad de andra generativa videomodellerna gör. Runway och Pika försöker få AI att rita upp en sekvens med pixlar som liknar filmer. Men Sora försöker lösa problemet med hur fysiken påverkar objekt, bilderna är bara visualiseringar av Soras funderingar. Det märks också i ett annat avseende för Sora kan generera både vad som hände innan och efter. Det betyder att Sora i första hand är fokuserad på att få sin värld att hänga ihop och inte på att generera bilder.

Jag är inte ens säker på om OpenAI kommer att släppa Sora som tjänst. Den senaste tiden har de blivit väldigt försiktiga i vad ChatGPT ska få göra och inte göra med tanke på upphovsrätt. Video skulle vara ett väldigt lukrativt affärsområde, men slutmålet är inte video, slutmålet är AGI. 2020 berättade OpenAI om sin forskning Jukebox, det var en AI-modell motsvarande Suno.ai som kunde generera musik och sång baserat på olika genrer och textpromptar. Men vi har fortfarande inte kunnat använda Jukebox. Mycket har förstås hänt inom OpenAI sedan 2020 men många av deras lovande projekt blir bara coola demos. Kvar blir syftet – att få en AI som förstår hur vi människor och vår värld fungerar tillräckligt bra för att simulera den.

Nästa steg i OpenAIs plan har ju inte varit video, det har varit AI-agenter. Bottar som kan styra vår webbläsare har varit på gång länge och flera varianter som styr hela din dator är också gårdagens nyheter. OpenAI har större visioner än så. Den långsiktiga planen är att bottarna ska kunna interagera med vår fysiska värld genom robotteknik. AGI som är inlåst i en virtuell värld kan inte lösa alla typer av problem bättre än en genomsnittlig fysisk expert, och är därmed inte en AGI. En lösning på problemet är att vända på det. Om AGI:n inte kan komma ut ur den virtuella världen så får verkligheten komma in. Det är därför som simuleringen blir så viktig.

Det är inte bara OpenAI som förstår det här, NVIDIA har sedan en lång tid tillbaka arbetat på att simulera fysiska världar i vad de nu marknadsför som Omniverse. Det är en motor som både marknadsförs som att den kan göra 3D-modelleringar men också för att bygga upp simuleringsmiljöer för fabriker (digitala tvillingar) som kan användas för att optimera produktion utan att behöva möblera om den fysiska fabriken.

Men apropå NVIDIA, Jim Fan som jobbar som senior research AI research scientist & lead of AI agents på NVIDIA, och som tidigare jobbat på OpenAI verkar vara imponerad av Sora. Han är övertygad om att Sora har tränats med syntetisk data och att det är ett exempel på emergens (ju komplexare simuleringar vi gör, desto mer sannolikt är det att vi kommer att stöta på fenomen som inte kan förklaras utifrån de enskilda delarna). Det här är intressant för att om Sora inte tränar på människogjord video för att bli bättre, utan helt enkelt genererar sin egna träningsdata så är det inget som stoppar hen från att bli bättre på egen hand. Modeller som Midjourney, RunwayML och Pika använder måste matas med enorma mängder bilder och video för att bli en bråkdel bättre. Men om Jim Fan har rätt och Sora har lärt sig laga sin egen mat så behöver alla dessa tjänster bygga helt nya modeller för att komma ikapp.

Men även om det är sant att Sora kan skapa sin egen träningsdata så finns det ett annat tak. I OpenAIs tekniska rapport om Sora visar de exempel på exakt samma prompt genererad men med olika mängd datorkraft, så det är tydligt att den här modellen blir extremt mycket bättre ju starkare processor som den körs på.

Bild från OpenAIs tekniska rapport om Sora

I teorin betyder det här att ju mer processorer som Altman lyckas skramla ihop,desto bättre kommer Sora att kunna simulera vår värld. Det är också därför som så många tech-giganter är ute och anskaffar kapital för att bygga enorm processorkapacitet just nu. Alla förväntar sig att med tillräckligt mycket datorkraft så blir det emergens och dagens AI-modeller evolverar sig själva från toddlers till tankeledare.

Vad kan du göra idag?

Förstå

För att vi ska kunna resonera om världen behöver vi en mental bild av hur den fungerar. 96% av människor gör det genom att se få visuella bilder i vårt huvud. (4% har aphantasia och gör det inte vilket jag skrivit om tidigare). När AI börjar kunna visualisera hur hen tänker så skapas accountability, vi kan se om det är något i resonemanget som inte bygger på en korrekt simulering av hur vår värld fungerar. Vanligtvis så skriver in en prompt i ChatGPT och tillbaka får vi eventuellt en liten redogörelse för hur hen tänkt steg för steg (om vi tänkt på att prompta så). Men det är ju inte alltid vi håller med om slutsatserna. Dagens prompt “Gör en actionplan för hur mitt varumärke kan konkurrera ut varumärke X” ersätts med “Visa mig tre scenarion där mitt varumärke gör åtgärd Y för att konkurrera ut varumärke X och hur det påverkar en potentiell kund som väljer”. Istället för att läsa en rapport kan du sedan se på en kort film som visar konsekvenserna. Där du kan avgöra om du tycker det känns rimligt att en kund skulle reagera så, eller om det finns något tankefel i hur AI tänker att en människa i en valsituation kommer bete sig.

Planera

En digital tvilling är en virtuell modell av en process, produkt, tjänst eller användare. Genom att bygga digitala speglingar möjliggörs simulering, analys och optimering i en riskfri simulerad miljö, vilket erbjuder möjligheter till innovation och förbättring. När detta koncept överförs på en hel organisation så kallas det digital tvillingorganisation (DTO). Det betyder att ni försöker återskapa allt det er organisation gör, alla funktioner, på ett sätt som är digitalt. Det finns några olika synsätt på värdet med DTO:

Nyttan ligger i att skapa en simulerad miljö där ni kan utföra experiment för att se hur det påverkar organisationen, vilket är högst relevant för organisationen med fysiska maskiner för produktion.

Nyttan ligger i att kartlägga möjligheter genom att simulera automatisering av arbetsflöden, processer och interaktioner, vilket är mer relevant för organisationer som inte producerar egna varor.

Men för tjänsteföretag kan vi i och med generativ AI också tänka på den digitala tvillingorganisationen som en tankemodell för en skuggorganisation som jobbar åt de anställda och inte bara utför simulerade uppgifter utan faktiskt bidrar till produktionseffektivitet.

Har din organisation börjat planera för hur er digitala tvilling skulle kunna användas? Ska det vara en simulerad miljö där beslutsfattare på ett riskfritt sätt kan testa möjliga förändringar, förutse framtida utmaningar och på så sätt optimera verksamheten baserad på realtidsdata och avancerade simuleringstekniker? Eller ska det vara ett verktyg för att planera en roadmap för hur ni ska skapa stödsystem för anställda så de kan avlastas från rutinuppgifter och istället sysselsätta sig med de riktigt värdeskapande uppgifterna?

Gör

Börja skriva på ditt filmmanus. Det finns ingen anledning att vänta på att tekniken ska bli bättre innan du börjar skriva. När tekniken som gör att du på ett team av en kan släppa en långfilm så ska du ju generera video, inte skriva manus. Det finns absolut ett annat sätt att jobba med film som bara är att följa vad verktygen är starka på och låta formatet styra handlingen, det kan du ju alltid göra. Men det kommer alla kunna göra. Hitta det där som bara du kan berätta, det tar lite tid, det behöver du göra nu i lugn och ro. Vad finns det för historia du skulle vilja dela med dig av? Skriv ner dina tankar. För filmskapande håller på att demokratiseras och att fundera över vad du själv skulle vilja göra film om kommer ge dig en bättre förståelse för framtidens mångfasetterade berättarkultur.

Länkar

Den tekniska rapporten om Sora
https://openai.com/research/video-generation-models-as-world-simulators

OpenAIs (övergivna?) musikprojekt
https://github.com/openai/jukebox

Läs mer om World Models i rapporten från 2018
https://worldmodels.github.io/
https://arxiv.org/abs/1803.10122

Lite mer tekniskt om hur en AI-modell skapar en bild av Othello utifrån bara siffror
https://arxiv.org/abs/2210.13382

Nividas produkt för digitala tvillingar
https://www.nvidia.com/en-us/omniverse/solutions/digital-twins/

Jim Fan från NVIDIAs första reaktion på Sora
https://twitter.com/DrJimFan/status/1758210245799920123

Sedan en uppföljning
https://twitter.com/DrJimFan/status/1758549500585808071

Sedan sist vi hördes

Sora tog ju uppmärksamheten från allting annat, till exempel att Google Gemini fick bättre minne, nu kan den komma ihåg 1M tokens (det är ungefär alla Harry Potter-böckerna). Alla andra modeller har ju väldigt svårt att komma ihåg långa texter. Precis som människor kommer de ihåg lite i början och lite i slutet bäst. Det är därför som AI-bottarna ibland glömmer bort vad vi pratade om alldeles nyss. Det finns ett test för AI som heter nålen i höstacken, det går ut på att se hur lätt AI korrekt kan återge något den läst/sett/hört. Här ser ni att GPT4 börjar ha svårt att komma ihåg saker när när informationen blir runt 128K

Bild från LLMTest_NeedleInAHaystacks githubsida

Här är motsvarande ”nål i höstacken”-test diagram för Gemini 1.5

Bild från Google Geminis 1.5s tekniska rapport

128k är där i början av diagrammet så den kan alltså komma ihåg mer än dubbelt så långa texter innan det över huvudtaget uppkommer några fail. Det är är Gemini Pro så det är inte den smartaste modellen, så än så länge tycker inte jag det är superanvändbart. Vad hjälper det att komma ihåg långa texter som du inte kan dra de klokaste slutsaterna av det du kommer ihåg. Men som forskningsprojekt är det här en stor bedrift och när alla andra modeller lyckas få till lika bra minne så kommer det bli ett stort lyft.

Sora övergläste också Metas V-JEPA som är något som är användbart redan idag. Den här open source-modellen gör att din egna AI kan träna sig själv genom att titta på video. Så den kommer göra att alla open-source AI så småningom kommer ha lättare skapa nya bättre versioner av sig själva. Det är en geekigare nyhet, men förmodligen kommer den påverka din vardag mer än Sora på kort sikt.

Andra saker vi inte pratade särskillt mycket om på grund av Sora är att Apple jobbar på ett AI-stöd för programmerare så fler kan göra appar, Elevenlabs vill att du (och de) ska tjäna pengar på din röst och att OpenAI själva lanserar en minnesfunktion för att ChatGPT ska komma ihåg mer om hur du vill ha svaren från ChatGPT. Ska bli spännande att se vad som blir veckans stora snackis!

Är du en insiktsdelare?

Känner du någon som är intresserad av ett annat perspektiv på Sora? Eller kanske någon som är intresserad av varför modeller av världen är viktiga för vår förmåga att resonera? Vem tänkte du på? Skicka vidare!

Den 7de mars kommer jag uppträda 🤡 på Berghs AI-Unconference (i Stockholm)
https://www.berghs.se/event/ai-unconference2berghs/
Jag tänkte precis som förra året berätta om något som hänt, varför det kommer förändra allt och vad du kan göra redan idag. Ni känner väl igen det formatet. Vad exakt det blir är för tidigt att säga, men om du inte kan komma så tänkte jag bjuda in betalande prenumeranter till en remote-repris på Pi-dagen (14:de mars). Hoppas du vill komma!

Tomas Seo

Har du fått dagens nyhetsbrev utan att vara prenumerant?
Gillade du det här och vill ha mer så är det bara att skriva upp sig här
(du väljer själv om du vill betala):

Prenumerera