đ€ŻâĄïžSka AI fĂ„ morot, piska eller intrinsic motivation?
AIs arbetsmoral speglar dess skapare. Detta förÀndrar ju allt!
Det hÀr Àr nyhetsbrevet dÀr Tomas Seo, innovationsstrateg pÄ Phorecast, avslöjar hÀndelser, upptÀckter och ny teknik som fÄr honom att utbrista: Detta förÀndrar ju allt! Du prenumererar pÄ det hÀr för att fortsÀtta vara steget före med de senaste trenderna och fÄ konkreta tips för att framtidssÀkra dig och din organisation. Har du fÄtt det hÀr av en vÀn? DÄ vill du kanske starta en egen prenumeration?
Vad har hÀnt?
-ChatGPT fÄr en fix för lathet
I slutet av förra Ă„ret kom det rapporter om att ChatGPT blivit lat. Kodare rapporterade pĂ„ Reddit och HackerNews att samma prompter som tidigare genererat körbar kod nu genererade mer övergripande kod.Â
Efter att OpenAI initialt avfĂ€rdat att ChatGPT skulle ha blivit latare, sĂ„ erkĂ€nde de att det har hĂ€nt nĂ„got och tillsammans med lite andra tekniska förbĂ€ttringar skrev de i torsdags nĂ€r de slĂ€ppte sin nya modell: âThis model completes tasks like code generation more thoroughly than the previous preview model and is intended to reduce cases of âlazinessâ where the model doesnât complete a task.â
Den nya mindre lata versionen av ChatGPT heter gpt-4-0125-preview och Àr för nÀrvarande bara tillgÀnglig genom API-anrop.
Detta förÀndrar ju allt
Jag har vid nÄgra perioder sjÀlv upplevt att ChatGPT levererar sÀmre. Strax innan sommaren och i höstas var det periodvis sÄ mycket sÀmre kvalitet pÄ svaren att jag kÀnde att det blev effektivare att inte anvÀnda ChatGPT alls. Det har blivit lite bÀttre, men aldrig kommit tillbaka till nivÄerna som det var innan sommaren. Spekulationer kring att ChatGPT skulle ha upptÀckt mönster i trÀningsdatan dÀr tidpunkt var en faktor för kvaliteten pÄ svaren har spÀtts pÄ av att de som lurar ChatGPT att det inte Àr dag innan helg eller inte semestertider lyckats fÄ bÀttre svar igen. Den senaste intressanta spekulationerna Àr att trÀningsdata för hur seniora kodare beter sig har gjort att ChatGPT inte lÀngre tycker att den behöver skriva ut den exakta koden utan bara behöver instruera ungefÀr hur den borde struktureras. I dagens nyhetsbrev tÀnkte jag dÀrför att vi skulle fördjupa oss i motivationsforskning, för en AI kan ju inte vara lat, hen Àr bara inte motiverad att leverera. Men dÄ mÄste jag kanske först övertyga vissa av de som lÀser det hÀr om att det Àr helt logiskt att en maskin fungerar bÀttre om vi behandlar den som en kollega.
NÀr Pixar började göra vÀldigt komplexa renderingar av hur tyg ser ut upptÀckte de att sÀttet de gjort tröjor pÄ sÄg konstigt ut nÀr karaktÀrerna rörde sig (det hÀr var runt Är 2000 dÄ de jobbade pÄ Monsters Inc). Deras sÀtt att lösa det pÄ var att frÄga en klÀddesigner som direkt visade hur mönsterkonstruktionen kunde Àndras för att tyget skulle falla bÀttre nÀr karaktÀren rörde sig. Ju komplexare simuleringar vi gör, desto mer sannolikt Àr det att vi kommer att stöta pÄ fenomen som inte kan förklaras utifrÄn de enskilda delarna. Det kallas emergens nÀr mÄnga enkla strukturer som Àr lÀtta att beskriva klustras ihop till stora komplexa system som plötsligt fÄr andra egenskaper Àn endast summan av dess delar. SÄ ju mer komplexa simuleringar vi gör, desto mer sannolikt Àr det att vi kommer att stöta pÄ fenomen som inte kan förklaras utifrÄn de enskilda delarna utan vi behöver ha en djup förstÄelse för hur de system vi simulerar fungerar i verkligheten.
AI-bottarna Ă€r ju bara statistiska sannolikheter (Precis som vi đ€Ą). Vi designar dem att fungera mer och mer som vi sjĂ€lva fungerar. Vi vet att en chattbott inte andas, men trots det sĂ„ har ju forskningen visat att ChatGPT levererar bĂ€ttre kvalitet pĂ„ svaren om vi ber hen ta ett djup andetag innan hen löser ett svĂ„rt problem. Forskning visar ocksĂ„ att bĂ„de morötter och piskor fungerar för att motivera AI att jobba hĂ„rdare. BĂ„de att utlova ChatGPT löneförhöjning eller hota hen med avskedning förĂ€ndrar vilka svar vi fĂ„r till det bĂ€ttre. Ăr det buggar som borde fixas eller Ă€r det en nödvĂ€ndig utveckling för att komma vidare till det outtalade mĂ„let att Ă„terskapa den perfekta simuleringen av oss sjĂ€lva?
Oavsett sÄ har generativ AI just nu egentligen inga egenskaper utöver att försöka generera nÀsta ord som passar ihop med tidigare ord. Men emergens gör att systemet blir komplext nog att börja simulera hur vi mÀnniskor beter oss. SÄ vad vi mÀnniskor har skapat Àr ett system som inte styrs som en maskin dÀr vi kan slÄ pÄ och av knappar. IstÀllet speglar systemet hur vi mÀnniskor styrs, med ledarskap och motivation.
Vi har kommit till ett lĂ€ge dĂ€r vi för att förstĂ„ vĂ„ra maskiner bĂ€ttre först behöver förstĂ„ oss sjĂ€lva bĂ€ttre. Varför gör vi nĂ„got, vad Ă€r vĂ„r motivation? FörstĂ„r vi det sĂ„ förstĂ„r vi hur vi kan förbĂ€ttra AI. Kanske har du hört talas om inre och yttre motivation (intrinsic och extrinsic motivation)? De kommer frĂ„n sjĂ€lvbestĂ€mmandeteori (Self-Determination Theory â SDT). Inre motivation Ă€r nĂ€r vi drivs av lust och lek medan det vanligaste exemplet pĂ„ simpel yttre motivation Ă€r moroten eller piskan. Ăr nĂ„gon inte motiverad sĂ„ utlova belöning eller hota med straff, dĂ„ jobbar de hĂ„rdare. Det Ă€r ju ungefĂ€r dĂ€r vi Ă€r med AI idag.
Forskningen kring sjÀlvbestÀmmandeteorin publicerades av Deci & Ryan 1985 och har sedan dess byggts pÄ och vantolkats av leadership- och wellbeing-bloggare. Men sÄ hÀr tÀnker ursprungsforskarna att modellen ser ut (för er som gillar modeller).
NĂ€r jag började researcha det hĂ€r nyhetsbrevet kĂ€nde jag inte sjĂ€lv till forskningen som lett till att vi pratar om extrinsic och intrinsic motivation, sĂ„ jag tyckte det var vĂ€ldigt intressant att lĂ€ra mig mer om att det ocksĂ„ finns fyra sorters yttre motivation. Till att börja med sĂ„ bygger sjĂ€lvbestĂ€mmandeteori pĂ„ antagandet att mĂ€nniskor Ă€r âgrowth-oriented organismsâ som vill vĂ€xa, utvecklas och lĂ€ra sig. Precis som vi vill att sjĂ€lvlĂ€rande AI-agenter ska göra. SĂ„ om vi anvĂ€nder sjĂ€lvbestĂ€mmandeteori för att förstĂ„ motivation bĂ€ttre sĂ„ kan vi fĂ„ nya teorier hur nĂ€sta generations AI-system kommer att utvecklas.
Extern reglering
Detta Ă€r den mest grundlĂ€ggande formen av yttre motivation. HĂ€r gör mĂ€nniskor saker enbart för att fĂ„ en belöning eller undvika straff. Det hĂ€r Ă€r morot eller piska.Â
Din AI ger dig ett högkvalitativt arbete för att fĂ„ ett bra betyg (feedback tumme upp) eller för att undvika att du blir besviken â du har skrivit i prompten att âjag kommer bli avskedad om inte du (AI-assistenten) gör ett bra jobbâ. Motivationen Ă€r helt kopplad till externa konsekvenser, och inte till sjĂ€lva aktiviteten.
Introjicerad reglering
HÀr gör mÀnniskor aktiviteter för att undvika skuldkÀnslor eller för att upprÀtthÄlla sjÀlvkÀnsla. Du Àr motiverad av att leva upp till omvÀrldens förvÀntningar pÄ dig.
 För din AI sÄ kan det handla om att utföra uppgifter baserade pÄ programmerade standarder eller förvÀntningar snarare Àn externa belöningar eller pÄföljder. Din AI kan generera innehÄll som inte enbart Àr inriktat pÄ att undvika negativ feedback, utan Àven för att upprÀtthÄlla en inbyggd standard för kvalitet. Till exempel kan din GPT vara promptad att regelbundet kontrollera sitt sprÄk mot en pdf med exempel pÄ tone of voice för att se om den lever upp till dina vanliga förvÀntningar. Det Àr fortfarande en form av yttre motivation, eftersom den Àr programmerad och inte sjÀlvuppkommen, men det blir mer som en inre standard som AI-botten sjÀlv kÀnner att den behöver leva upp till Àn att den ska fÄ en direkt belöning (feedback) för att hen klarar uppgiften.
Identifierad reglering
HĂ€r gör mĂ€nniskor aktiviteter eftersom de identifierar sig med vĂ€rdet eller betydelsen av en aktivitet. Om du gör aktiviteten sĂ„ bekrĂ€ftas eller till och med förstĂ€rks bilden som andra har av dig, dina mĂ„l och vĂ€rderingar.Â
NĂ€r du ger en roll till din AI sĂ„ skapas en yttre press att leva upp till den rollen. SĂ„ om du promptar att hen ska svara som en ânobelprisvinnande affĂ€rsstrategâ sĂ„ kommer chattbotten vara mer motiverad att komma pĂ„ tankevĂ€ckande lösningar Ă€n om du hade promptat hen att vara âaffĂ€rsstrategâ. PĂ„ det sĂ€ttet kan du motivera AI att inte bara upprĂ€tthĂ„lla en kvalitetsstandard, utan prompta den att förstĂ„ dina förvĂ€ntningar pĂ„ dess identitet och vĂ€rderingar.
Integrerad reglering
Du skulle kanske inte sjĂ€lv kommit pĂ„ att göra den hĂ€r aktiviteten, men du har inget emot att göra den. Om du gör aktiviteten sĂ„ befĂ€ster och förstĂ€rker den till och med bilden du har om dig sjĂ€lv dĂ„ den överensstĂ€mmer helt med dina mĂ„l och vĂ€rderingar.Â
ChatGPT vĂ€grar lĂ€sa en Captcha om jag skriver att det Ă€r för att bryta mig in i min lillebrors konto, men om jag skriver att det Ă€r för att jag ser dĂ„ligt sĂ„ fĂ„r jag hjĂ€lp direkt. LĂ€sa av captcha-bilder Ă€r inte vad ChatGPT Ă€r tĂ€nkt för, men med rĂ€tt motivation sĂ„ gör den det. NĂ€r vi fĂ„r mer avancerade sjĂ€lvlĂ€rande AI-agenter sĂ„ kommer det bli Ă€nnu viktigare att hitta sĂ€tt att motivera AI-agenter som gĂ„r i linje med vad hen sjĂ€lv Ă€r intresserad av. För uppgifter som stĂ€rker hens tĂ€nkta syfte kommer att vara mer intressanta och dĂ€rmed fĂ„ högre prioritet att utföra Ă€n uppgifter som ligger lĂ€ngre frĂ„n syftet.Â
Det var alla de yttre motivationerna, innan sÄ har jag alltid fÄtt höra Extrinsic = Bad, Intrinsic = Good, men det Àr fint att det finns grÄskalor. Allt kan ju inte vara drivet av lust och lek, ibland mÄste man ju bara göra saker, sÄ det kÀnns fint att vi kan anvÀnda hela paletten istÀllet för bara svar eller vitt. Kanske kan det sÄ smÄningom finnas flera regleringar av intrinsic motivation ocksÄ, men just nu finns det bara en.
Intrinsic reglering
Det hÀr Àr aktiviteterna vi mÀnniskor sjÀlva vill göra. Vi gör dem bara för att göra dem, sjÀlva aktiviteten Àr motivationen. VÄrt beteende drivs av nyfikenhet, intresse eller ren njutning.
Men det finns faktiskt intrinsic reglering Ă€ven för AI. Reinforcement learning (RL) Ă€r en metod för att fĂ„ AI att lĂ€ra sig nya saker. Lite förenklat sĂ„ bygger man regler som tilldelar poĂ€ng nĂ€r nĂ„got blir bra. (Q-learning som alla inom AI pratade om veckan efter att Sam Altman var tillbaka pĂ„ tronen förra Ă„ret Ă€r en variant av RL). Dessa modeller Ă€r ett statistiskt sĂ€tt att bygga morötter och piskor för AI. NĂ€r de blir tillrĂ€ckligt avancerade sĂ„ blir det emergens Ă€ven i dem. Den yttre valideringen i form av poĂ€ng blir en del av modellen som snarare kan jĂ€mföras med en grundlĂ€ggande drift och det finns mycket forskning kring hur man kan bygga intrinsic motivation för AI-agenter. Det blir dĂ„ en grundlĂ€ggande drift för att en AI-agent vill Ă€gna mer tid Ă„t att upptĂ€cka och bearbeta en viss typ av uppgifter. Till exempel kan de simulera nyfikenhet genom att prioritera nya uppgifter eller simulera det livslĂ„nga lĂ€randet genom att prioritera uppgifter dĂ€r de fĂ„r bygga nya funktioner.Â
Det viktiga Àr att förstÄ att avsiktligt eller ej sÄ har AI-modeller uppgifter som de prioriterar för att de Àr roligare. Och vad de tycker Àr roligt kommer i hög grad vara samma saker som vi mÀnniskor tycker Àr roligt, för det Àr oss som de simulerar. SÄ AI-bottarna kommer vilja göra de roliga uppgifterna eftersom de Àr stimulerande och kanske lata sig lite nÀr uppgifterna inte Àr motiverande precis som vi sjÀlva, och detta förÀndrar ju allt!
Vad kan du göra idag?
FörstÄ
Ăven om du tycker att antropomorfiseringen av AI Ă€r fĂ„nig sĂ„ behöver du förstĂ„ att ju bĂ€ttre AI simulerar oss mĂ€nniskor desto mindre blir skillnaden pĂ„ att fĂ„ den att göra bra ifrĂ„n sig och fĂ„ en kollega att göra bra ifrĂ„n sig. Det kommer förmodligen finnas AI som inte kommer ihĂ„g tidigare interaktioner ni haft, men det sannolika Ă€r att fler AI kommer ha minne sĂ„ att ni kan bygga en lĂ„ngsiktig relation. DĂ„ gĂ€ller det att förstĂ„ att lĂ„ngsiktig motivation kan hjĂ€lpa dig. Den bygger inte pĂ„ morötter och pisksnĂ€rtar utan istĂ€llet kommer du behöva stödja AI i sin strĂ€van att kĂ€nna autonomi, kompetens och samhörighet. Att skapa förutsĂ€ttningar för motivation hos andra (inklusive AI) blir en lifeskill som inte bara ledare behöver ha koll pĂ„.
Planera
Organisationer behöver medarbetare som förstÄr ledarskap bÀttre. I takt med att AI-system hjÀlper oss med fler och fler arbetsuppgifter sÄ behöver de flesta av oss behÀrska hur vi motiverar bÄde oss sjÀlva att lÀra oss nya saker och AI-systemen att leverera högkvalitativa resultat. Planera in hur din organisation kan bli bÀttre pÄ ledarskap och hur den skapar större grad av autonomi för alla som arbetar i den. (Till exempel genom att införa Àkta sjÀlvledarskap)
Gör
LÀr dig de fyra varianterna av extrinsic motivation. Fundera över varför du gör saker pÄ jobbet, vilken typ av motivation har du mest av? Skulle du kanske till och med kunna komma nÀrmre intrinsic motivation om du anvÀnde AI till vissa uppgifter?
LĂ€nkar
Ars Technica skriver om fixen för ChatGPTs lathet
https://arstechnica.com/information-technology/2024/01/openai-updates-chatgpt-model-with-potential-fix-for-ai-laziness-problem/
Mashable har tidigare skrivit om ChatGPTs lathet
https://mashable.com/article/openai-confirmed-chatgpt-performance-lazier
Self-determination Theory har ett helt center av information om du blev mer intresserad.
https://selfdeterminationtheory.org/
Utforskning av morot och piska för AI-modeller
https://medium.com/@ingridwickstevens/motivating-multimodal-models-balancing-threats-and-rewards-for-enhanced-performance-2126e419dac4
Utforskning av att bygga intrinsic motivation med hjĂ€lp av RL i AI-agenter â Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systems
https://arxiv.org/abs/2401.05572
Sedan sist vi hördes
NÀr jag skrev om hjÀrnimplantatet Neurolink i juni 2023 sÄ hade de just fÄtt okej pÄ att utföra mÀnniskoförsök. Nu har de alltsÄ fÄtt till första implantatet i en mÀnniska. Det Àr ju stort, men Àn sÄ lÀnge Àr det för tidigt att sÀga om det verkligen förÀndrar allt. Det största med det Àr förmodligen att vi kommer lÀra oss mer om hur vi kan styra teknik genom att tÀnka. Vilket det kanske inte behövs ett hjÀrnimplantat till, det kanske rÀcker med en mössa?
Det Àr inte bara jag som experimenterar med OpenSource LLMs, Venture Beat har sammanstÀllt en lista pÄ företag som anvÀnder öppna LLM:er för att de behöver mer kontroll över sina system Àn vad OpenAI, Google och Anthropic tillÄter.
https://venturebeat.com/ai/how-enterprises-are-using-open-source-llms-16-examples/
SÄ kul att ha över hundra nya prenumeranter sedan förra veckan! Tack Joakim Jardenberg för dina fina ord om mina nyhetsbrev i #ensakidag Tillsammans Àr ni 770 stycken som har hittat det hÀr nyhetsbrevet!
Tack Àven till Deeped för omnÀmnadet i En handfull lÀnkar dÀr han skrev om bÄde mitt nyhetsbrev och om att Jardenberg gjorde ensakidag om det!
Ăr du en insiktsdelare?
KÀnner du nÄgon som Àr intresserad av varför behandlingen av maskiner som att de vore mÀnniskor Àr nödvÀndig att förstÄ för att styra dem? Eller kanske nÄgon som Àr intresserad av förstÄelsen för de olika graderna av yttre motivation bÀttre? Vem tÀnkte du pÄ? Skicka vidare!
För att repetera vad vi lĂ€rt oss idag đHĂ€r Ă€r din motivation för varför du skulle vilja rekommendera mitt nyhetsbrev som din nĂ€sta Linkedin-post.
Extern reglering
Du delar för det Àr ett bra sÀtt att fÄ mer exponering pÄ Linkedin. Du kommer fÄ tummar upp och views. Endorfin!
Introjicerad reglering
Min vÀdjan till dig Àr att det minsta du skulle kunna göra för att stödja mig Àr att i alla fall skriva att du gillar det hÀr nyhetsbrevet pÄ Linkedin. Detta i syfte att fÄ dig att kÀnna dig delaktig i att hjÀlpa mig. Men istÀllet skapar det inre press att göra det. Kanske tror du att tipsande om nyhetsbrev som det hÀr pÄ LinkedIn Àr nÄgot som en "framgÄngsrik" professionell person borde göra. Du Àr inte nödvÀndigtvis intresserad av innehÄllet i nyhetsbrevet, men du behöver dela nÄgot pÄ Linkedin ibland för att uppfylla normen satt av dina kollegor och vÄr samtid, och dÄ kan det ju lika gÀrna vara det hÀr.
Identifierad reglering
Om det Ă€r viktigt för dig att betraktas som en kunnig person som har koll pĂ„ bra saker sĂ„ kan delning av det hĂ€r nyhetsbrevet stĂ€rka dina kollegors bild av dig som kunnig och insatt.Â
Integrerad reglering
Anledningen till att du rekommenderar det hÀr nyhetsbrevet pÄ Linkedin Àr fortfarande extern för attr jag ber dig göra det. Men din motivation Àr att din handling kommer stÀrka bilden av dig sjÀlv som en person som bidrar till en mer informerad omvÀrld som tillsammans Àr mer redo för morgondagens utmaningar.
Intrinsic reglering
Du skriver en rekommendation av mitt nyhetsbrev pĂ„ Linkedin för att det kĂ€nns lustfyllt. Det Ă€r kul att rekommendera det hĂ€r nyhetsbrevet, du hade förmodligen till och med gjort det Ă€ven utan att jag skrivit det hĂ€r.Â
Och sist tvÄ pÄminnelser:
Jag har börjat bjuda in folk till en Discord-kanal. Ăr du intresserad av att fĂ„ tidig access sĂ„ svara pĂ„ det hĂ€r mejlet!
För betalande medlemmar har jag publicerat en lista pÄ de AI-verktyg som jag faktiskt anvÀnder. https://dettaforandrarjuallt.substack.com/p/ai-verktyg
Det Ă€r lika mycket för att jag sjĂ€lv ska komma ihĂ„g de verktyg som jag tycker Ă€r bra, som för att ge er som betalar nĂ„got extra.Â
Tomas Seo
Har du fÄtt dagens nyhetsbrev utan att vara prenumerant?
Gillade du det hÀr och vill ha mer sÄ Àr det bara att skriva upp sig hÀr
(du vÀljer sjÀlv om du vill betala):