Det hÀr Àr nyhetsbrevet dÀr Tomas Seo, innovationsstrateg pÄ Phorecast, avslöjar hÀndelser, upptÀckter och ny teknik som fÄr honom att utbrista: Detta förÀndrar ju allt! Du prenumererar pÄ det hÀr för att fortsÀtta vara steget före med de senaste trenderna och fÄ konkreta tips för att framtidssÀkra dig och din organisation. Har du fÄtt det hÀr av en vÀn? DÄ vill du kanske starta en egen prenumeration?
Vad har hÀnt?
-Alla missförstĂ„r OpenAIs projekt SoraÂ
OpenAI visade i torsdags upp att deras kommande AI-modell Sora kan generera video som Ă€r ett stort hopp i kvalitet frĂ„n alla andras modeller inom omrĂ„det. Men trots att det stĂ„r allra först i pressmeddelandet sĂ„ har de flesta missat att den stora nyheten egentligen inte Ă€r att OpenAIs videomodell Ă€r exceptionellt bra (vilket den verkar vara).Â
Weâre teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.
MĂ„let Ă€r enligt OpenAI inte att göra en video-tjĂ€nst, utan att utforska hur AI kan fördjupa sin förstĂ„else för mĂ€nniskornas vĂ€rld. I den mer tekniska pressreleasen namngiven âVideo generation models as world simulatorsâ försöker de förtydliga:
Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
OpenAI lyfter tydligt fram syftet med Sora som en del av sin strategi mot att bygga allmÀnna simuleringsmodeller av verkligheten. Men detta har i stor utstrÀckning överskuggats av mediernas fokus pÄ den höga grad av realism pÄ video som Sora klarar av att göra.
Detta förÀndrar ju allt
Dagens nyhetsbrev handlar inte om film, sök pÄ Sora sÄ har du lÀsning för flera dagar om filmaspekten av Sora. IstÀllet ska jag övertyga dig om att Soras förmÄga att göra film Àr en oviktig restprodukt som OpenAI kanske inte ens tar vidare.
NĂ€r jag, Axel von Matern och Gottfried Gemzell startade AI-bolaget Itâs Alive 1999 sĂ„ delade vi upp det vi ville bygga i tvĂ„ delar, öron och mun. Egentligen var vi bara intresserade av munnen, men för att kunna konversera bra sĂ„ behöver man som bekant kunna lyssna dubbelt sĂ„ bra. OpenAI verkar ocksĂ„ dela upp AGI (Artificiell Generell Intelligens, AI som kan lösa alla problem bĂ€ttre Ă€n en genomsnittsexpert inom varje omrĂ„de) i olika delsteg. Det största problemet som vi försökte lösa 1999 var hur vi skulle fĂ„ vĂ„r AI att kunna förstĂ„ skillnaden pĂ„ positiv och negativ tonalitet, nĂ„got som löst sig sjĂ€lv med dagens transformer-teknik. Det största problemet som OpenAI verkar försöka lösa Ă€r hur deras AI-modeller kan förstĂ„ den riktiga vĂ€rlden tillrĂ€ckligt bra för att kunna förutse konsekvenser i den.
I en fotnot refererar den tekniska pressreleasen av Sora till en forskningsrapport om vĂ€rldsmodeller frĂ„n 2020 (World models). Rapporten handlar om att neurala nĂ€tverksmodeller (AI) skapar en inre bild av hur vĂ€rlden de fĂ„r siffror om âser utâ och fungerar. Förra Ă„ret kom en annan rapport med det aningen mer komplicerade namnet âEmergent World Representations: Exploring a Sequence Model Trained on a Synthetic Taskâ som ocksĂ„ pĂ„visar att neurala nĂ€tverksmodeller bygger upp en inre mental bild av hur ett brĂ€de för Othello ser ut och hur reglerna fungerar bara genom inmatning av massor av koordinater pĂ„ drag frĂ„n Othello-matcher. SĂ„ vad Sora gör Ă€r inte alls vad de andra generativa videomodellerna gör. Runway och Pika försöker fĂ„ AI att rita upp en sekvens med pixlar som liknar filmer. Men Sora försöker lösa problemet med hur fysiken pĂ„verkar objekt, bilderna Ă€r bara visualiseringar av Soras funderingar. Det mĂ€rks ocksĂ„ i ett annat avseende för Sora kan generera bĂ„de vad som hĂ€nde innan och efter. Det betyder att Sora i första hand Ă€r fokuserad pĂ„ att fĂ„ sin vĂ€rld att hĂ€nga ihop och inte pĂ„ att generera bilder.
Jag Ă€r inte ens sĂ€ker pĂ„ om OpenAI kommer att slĂ€ppa Sora som tjĂ€nst. Den senaste tiden har de blivit vĂ€ldigt försiktiga i vad ChatGPT ska fĂ„ göra och inte göra med tanke pĂ„ upphovsrĂ€tt. Video skulle vara ett vĂ€ldigt lukrativt affĂ€rsomrĂ„de, men slutmĂ„let Ă€r inte video, slutmĂ„let Ă€r AGI. 2020 berĂ€ttade OpenAI om sin forskning Jukebox, det var en AI-modell motsvarande Suno.ai som kunde generera musik och sĂ„ng baserat pĂ„ olika genrer och textpromptar. Men vi har fortfarande inte kunnat anvĂ€nda Jukebox. Mycket har förstĂ„s hĂ€nt inom OpenAI sedan 2020 men mĂ„nga av deras lovande projekt blir bara coola demos. Kvar blir syftet â att fĂ„ en AI som förstĂ„r hur vi mĂ€nniskor och vĂ„r vĂ€rld fungerar tillrĂ€ckligt bra för att simulera den.
NĂ€sta steg i OpenAIs plan har ju inte varit video, det har varit AI-agenter. Bottar som kan styra vĂ„r webblĂ€sare har varit pĂ„ gĂ„ng lĂ€nge och flera varianter som styr hela din dator Ă€r ocksĂ„ gĂ„rdagens nyheter. OpenAI har större visioner Ă€n sĂ„. Den lĂ„ngsiktiga planen Ă€r att bottarna ska kunna interagera med vĂ„r fysiska vĂ€rld genom robotteknik. AGI som Ă€r inlĂ„st i en virtuell vĂ€rld kan inte lösa alla typer av problem bĂ€ttre Ă€n en genomsnittlig fysisk expert, och Ă€r dĂ€rmed inte en AGI. En lösning pĂ„ problemet Ă€r att vĂ€nda pĂ„ det. Om AGI:n inte kan komma ut ur den virtuella vĂ€rlden sĂ„ fĂ„r verkligheten komma in. Det Ă€r dĂ€rför som simuleringen blir sĂ„ viktig.Â
Det Ă€r inte bara OpenAI som förstĂ„r det hĂ€r, NVIDIA har sedan en lĂ„ng tid tillbaka arbetat pĂ„ att simulera fysiska vĂ€rldar i vad de nu marknadsför som Omniverse. Det Ă€r en motor som bĂ„de marknadsförs som att den kan göra 3D-modelleringar men ocksĂ„ för att bygga upp simuleringsmiljöer för fabriker (digitala tvillingar) som kan anvĂ€ndas för att optimera produktion utan att behöva möblera om den fysiska fabriken.Â
Men apropÄ NVIDIA, Jim Fan som jobbar som senior research AI research scientist & lead of AI agents pÄ NVIDIA, och som tidigare jobbat pÄ OpenAI verkar vara imponerad av Sora. Han Àr övertygad om att Sora har trÀnats med syntetisk data och att det Àr ett exempel pÄ emergens (ju komplexare simuleringar vi gör, desto mer sannolikt Àr det att vi kommer att stöta pÄ fenomen som inte kan förklaras utifrÄn de enskilda delarna). Det hÀr Àr intressant för att om Sora inte trÀnar pÄ mÀnniskogjord video för att bli bÀttre, utan helt enkelt genererar sin egna trÀningsdata sÄ Àr det inget som stoppar hen frÄn att bli bÀttre pÄ egen hand. Modeller som Midjourney, RunwayML och Pika anvÀnder mÄste matas med enorma mÀngder bilder och video för att bli en brÄkdel bÀttre. Men om Jim Fan har rÀtt och Sora har lÀrt sig laga sin egen mat sÄ behöver alla dessa tjÀnster bygga helt nya modeller för att komma ikapp.
Men Ă€ven om det Ă€r sant att Sora kan skapa sin egen trĂ€ningsdata sĂ„ finns det ett annat tak. I OpenAIs tekniska rapport om Sora visar de exempel pĂ„ exakt samma prompt genererad men med olika mĂ€ngd datorkraft, sĂ„ det Ă€r tydligt att den hĂ€r modellen blir extremt mycket bĂ€ttre ju starkare processor som den körs pĂ„.Â
I teorin betyder det hÀr att ju mer processorer som Altman lyckas skramla ihop,desto bÀttre kommer Sora att kunna simulera vÄr vÀrld. Det Àr ocksÄ dÀrför som sÄ mÄnga tech-giganter Àr ute och anskaffar kapital för att bygga enorm processorkapacitet just nu. Alla förvÀntar sig att med tillrÀckligt mycket datorkraft sÄ blir det emergens och dagens AI-modeller evolverar sig sjÀlva frÄn toddlers till tankeledare.
Vad kan du göra idag?
FörstÄ
För att vi ska kunna resonera om vĂ€rlden behöver vi en mental bild av hur den fungerar. 96% av mĂ€nniskor gör det genom att se fĂ„ visuella bilder i vĂ„rt huvud. (4% har aphantasia och gör det inte vilket jag skrivit om tidigare). NĂ€r AI börjar kunna visualisera hur hen tĂ€nker sĂ„ skapas accountability, vi kan se om det Ă€r nĂ„got i resonemanget som inte bygger pĂ„ en korrekt simulering av hur vĂ„r vĂ€rld fungerar. Vanligtvis sĂ„ skriver in en prompt i ChatGPT och tillbaka fĂ„r vi eventuellt en liten redogörelse för hur hen tĂ€nkt steg för steg (om vi tĂ€nkt pĂ„ att prompta sĂ„). Men det Ă€r ju inte alltid vi hĂ„ller med om slutsatserna. Dagens prompt âGör en actionplan för hur mitt varumĂ€rke kan konkurrera ut varumĂ€rke Xâ ersĂ€tts med âVisa mig tre scenarion dĂ€r mitt varumĂ€rke gör Ă„tgĂ€rd Y för att konkurrera ut varumĂ€rke X och hur det pĂ„verkar en potentiell kund som vĂ€ljerâ. IstĂ€llet för att lĂ€sa en rapport kan du sedan se pĂ„ en kort film som visar konsekvenserna. DĂ€r du kan avgöra om du tycker det kĂ€nns rimligt att en kund skulle reagera sĂ„, eller om det finns nĂ„got tankefel i hur AI tĂ€nker att en mĂ€nniska i en valsituation kommer bete sig.
Planera
En digital tvilling Àr en virtuell modell av en process, produkt, tjÀnst eller anvÀndare. Genom att bygga digitala speglingar möjliggörs simulering, analys och optimering i en riskfri simulerad miljö, vilket erbjuder möjligheter till innovation och förbÀttring. NÀr detta koncept överförs pÄ en hel organisation sÄ kallas det digital tvillingorganisation (DTO). Det betyder att ni försöker Äterskapa allt det er organisation gör, alla funktioner, pÄ ett sÀtt som Àr digitalt. Det finns nÄgra olika synsÀtt pÄ vÀrdet med DTO:
Nyttan ligger i att skapa en simulerad miljö dĂ€r ni kan utföra experiment för att se hur det pĂ„verkar organisationen, vilket Ă€r högst relevant för organisationen med fysiska maskiner för produktion.Â
Nyttan ligger i att kartlĂ€gga möjligheter genom att simulera automatisering av arbetsflöden, processer och interaktioner, vilket Ă€r mer relevant för organisationer som inte producerar egna varor.Â
Men för tjÀnsteföretag kan vi i och med generativ AI ocksÄ tÀnka pÄ den digitala tvillingorganisationen som en tankemodell för en skuggorganisation som jobbar Ät de anstÀllda och inte bara utför simulerade uppgifter utan faktiskt bidrar till produktionseffektivitet.
Har din organisation börjat planera för hur er digitala tvilling skulle kunna anvÀndas? Ska det vara en simulerad miljö dÀr beslutsfattare pÄ ett riskfritt sÀtt kan testa möjliga förÀndringar, förutse framtida utmaningar och pÄ sÄ sÀtt optimera verksamheten baserad pÄ realtidsdata och avancerade simuleringstekniker? Eller ska det vara ett verktyg för att planera en roadmap för hur ni ska skapa stödsystem för anstÀllda sÄ de kan avlastas frÄn rutinuppgifter och istÀllet sysselsÀtta sig med de riktigt vÀrdeskapande uppgifterna?
Gör
Börja skriva pÄ ditt filmmanus. Det finns ingen anledning att vÀnta pÄ att tekniken ska bli bÀttre innan du börjar skriva. NÀr tekniken som gör att du pÄ ett team av en kan slÀppa en lÄngfilm sÄ ska du ju generera video, inte skriva manus. Det finns absolut ett annat sÀtt att jobba med film som bara Àr att följa vad verktygen Àr starka pÄ och lÄta formatet styra handlingen, det kan du ju alltid göra. Men det kommer alla kunna göra. Hitta det dÀr som bara du kan berÀtta, det tar lite tid, det behöver du göra nu i lugn och ro. Vad finns det för historia du skulle vilja dela med dig av? Skriv ner dina tankar. För filmskapande hÄller pÄ att demokratiseras och att fundera över vad du sjÀlv skulle vilja göra film om kommer ge dig en bÀttre förstÄelse för framtidens mÄngfasetterade berÀttarkultur.
LĂ€nkar
Den tekniska rapporten om Sora
https://openai.com/research/video-generation-models-as-world-simulators
OpenAIs (övergivna?) musikprojekt
https://github.com/openai/jukebox
LÀs mer om World Models i rapporten frÄn 2018
https://worldmodels.github.io/
https://arxiv.org/abs/1803.10122
Lite mer tekniskt om hur en AI-modell skapar en bild av Othello utifrÄn bara siffror
https://arxiv.org/abs/2210.13382
Nividas produkt för digitala tvillingar
https://www.nvidia.com/en-us/omniverse/solutions/digital-twins/
Jim Fan frÄn NVIDIAs första reaktion pÄ Sora
https://twitter.com/DrJimFan/status/1758210245799920123
Sedan en uppföljning
https://twitter.com/DrJimFan/status/1758549500585808071
Sedan sist vi hördes
Sora tog ju uppmĂ€rksamheten frĂ„n allting annat, till exempel att Google Gemini fick bĂ€ttre minne, nu kan den komma ihĂ„g 1M tokens (det Ă€r ungefĂ€r alla Harry Potter-böckerna). Alla andra modeller har ju vĂ€ldigt svĂ„rt att komma ihĂ„g lĂ„nga texter. Precis som mĂ€nniskor kommer de ihĂ„g lite i början och lite i slutet bĂ€st. Det Ă€r dĂ€rför som AI-bottarna ibland glömmer bort vad vi pratade om alldeles nyss. Det finns ett test för AI som heter nĂ„len i höstacken, det gĂ„r ut pĂ„ att se hur lĂ€tt AI korrekt kan Ă„terge nĂ„got den lĂ€st/sett/hört. HĂ€r ser ni att GPT4 börjar ha svĂ„rt att komma ihĂ„g saker nĂ€r nĂ€r informationen blir runt 128KÂ
HĂ€r Ă€r motsvarande ânĂ„l i höstackenâ-test diagram för Gemini 1.5
128k Àr dÀr i början av diagrammet sÄ den kan alltsÄ komma ihÄg mer Àn dubbelt sÄ lÄnga texter innan det över huvudtaget uppkommer nÄgra fail. Det Àr Àr Gemini Pro sÄ det Àr inte den smartaste modellen, sÄ Àn sÄ lÀnge tycker inte jag det Àr superanvÀndbart. Vad hjÀlper det att komma ihÄg lÄnga texter som du inte kan dra de klokaste slutsaterna av det du kommer ihÄg. Men som forskningsprojekt Àr det hÀr en stor bedrift och nÀr alla andra modeller lyckas fÄ till lika bra minne sÄ kommer det bli ett stort lyft.
Sora överglÀste ocksÄ Metas V-JEPA som Àr nÄgot som Àr anvÀndbart redan idag. Den hÀr open source-modellen gör att din egna AI kan trÀna sig sjÀlv genom att titta pÄ video. SÄ den kommer göra att alla open-source AI sÄ smÄningom kommer ha lÀttare skapa nya bÀttre versioner av sig sjÀlva. Det Àr en geekigare nyhet, men förmodligen kommer den pÄverka din vardag mer Àn Sora pÄ kort sikt.
Andra saker vi inte pratade sÀrskillt mycket om pÄ grund av Sora Àr att Apple jobbar pÄ ett AI-stöd för programmerare sÄ fler kan göra appar, Elevenlabs vill att du (och de) ska tjÀna pengar pÄ din röst och att OpenAI sjÀlva lanserar en minnesfunktion för att ChatGPT ska komma ihÄg mer om hur du vill ha svaren frÄn ChatGPT. Ska bli spÀnnande att se vad som blir veckans stora snackis!
Ăr du en insiktsdelare?
KÀnner du nÄgon som Àr intresserad av ett annat perspektiv pÄ Sora? Eller kanske nÄgon som Àr intresserad av varför modeller av vÀrlden Àr viktiga för vÄr förmÄga att resonera? Vem tÀnkte du pÄ? Skicka vidare!
Den 7de mars kommer jag upptrĂ€da đ€Ą pĂ„ Berghs AI-Unconference (i Stockholm)
https://www.berghs.se/event/ai-unconference2berghs/
Jag tÀnkte precis som förra Äret berÀtta om nÄgot som hÀnt, varför det kommer förÀndra allt och vad du kan göra redan idag. Ni kÀnner vÀl igen det formatet. Vad exakt det blir Àr för tidigt att sÀga, men om du inte kan komma sÄ tÀnkte jag bjuda in betalande prenumeranter till en remote-repris pÄ Pi-dagen (14:de mars). Hoppas du vill komma!
Tomas Seo
Har du fÄtt dagens nyhetsbrev utan att vara prenumerant?
Gillade du det hÀr och vill ha mer sÄ Àr det bara att skriva upp sig hÀr
(du vÀljer sjÀlv om du vill betala):