đ€ŻâĄïž12 exempel rĂ€cker för att trĂ€na en AI som slĂ„r o1
Med OpenAIs trÀningsfunktion kan vem som helst trÀna en AI-modell. Detta förÀndrar ju allt!
Det hÀr Àr nyhetsbrevet dÀr Tomas Seo, innovationsstrateg pÄ Phorecast, avslöjar hÀndelser, upptÀckter och ny teknik som fÄr honom att utbrista: Detta förÀndrar ju allt! Du prenumererar pÄ det hÀr för att fortsÀtta vara steget före med de senaste trenderna och fÄ konkreta tips för att framtidssÀkra dig och din organisation. Har du fÄtt det hÀr av en vÀn? DÄ vill du kanske starta en egen prenumeration?
Vad har hÀnt?
- SpecialtrÀna din AI sÄ den blir bÀttre Àn OpenAIs o1
OpenAI genomför just nu sitt event 12 days of OpenAI dÀr de slÀpper nya produkter publikt varje vardag kl 19 (svensk tid).
Mellan de stora nyheterna med en ny hjĂ€rna till ChatGPT kallad o1, och publik tillgĂ„ng (för alla utom oss i EU) till en förbĂ€ttrad Sora â videomodellen som mĂ€nniskor vĂ€ntat pĂ„ i ett Ă„r nu, sĂ„ slĂ€ppte de en mer svĂ„rbegriplig nyhet. Via OpenAIs nya forskningsprogram kan organisationer som blir antagna fĂ„ tillgĂ„ng till deras nya funktion Reinforcement Fine-Tuning (RFT). Funktionen gör det möjligt att förfina generativa AI-modeller för specifika domĂ€ner som juridik, medicin och finans.
I sin demo visade de upp hur deras system kan anvÀndas för att trÀna upp en egen AI-modell sÄ att den kan prestera bÀttre Àn o1 pÄ specifika problem med sÄ lite trÀningsdata som 12 exempel pÄ frÄgor med korrekta svar (tidigare har det krÀvts tusentals för att det ska vara vÀrt det).
"We believe that any field which requires deep expertise in their AI models stands to benefit. So if you work in, say, legal, finance, engineering, insurance, this one's for you."
sa Julie Wang pÄ OpenAI nÀr de presenterade nyheten. Vilket gör det möjligt för sektorer dÀr det finns ett tydligt rÀtt och fel svar att trÀna generativa AI-modeller som letar efter samband i stora datamÀngder.
Detta förÀndrar ju allt
Det Àr sÄ roligt att se att OpenAI har insett att de höll pÄ att hamna i en kategori av bolag som bara publicerade pressreleaser om forskning de gjorde men som vi aldrig fick se till den grad att vi slutade bry oss om nyheter frÄn dem. Deras svar blev det de kallar 12 days of OpenAI eller shipmas, för att de Àntligen skickar ut saker publikt.
Men det Àr nog svÄrt att fÄ komma med i OpenAIs researchprogram, och Àven om de sÀger att de kommer slÀppa den hÀr funktionen publikt nÀsta Är gissar jag att det dröjer till minst nÀsta shipmas. SÄ de flesta brydde sig inte sÄ mycket om RFT dag tvÄs nyhet, men jag tror att det finns nÄgot i den som kommer förÀndra vÀrlden. Men först ska jag förklara hur verktyget fungerar i tvÄ steg:
Mata med data.
Du behöver 12 exempel pÄ frÄgor som du skulle kunna skriva in i ChatGPT och varje frÄga ska ha ett tydligt korrekt svar.Din nya AI Àr redo att anvÀnda!
Det tar en veckas trÀningstid, men sedan har du en modell du kan anvÀnda som Àr bÀttre Àn alla andra AI-modeller i hela vÀrlden pÄ just din typ av frÄgor.
Enkelt eller hur? Det hÀnder en massa pÄ baksidan ocksÄ som Àr riktigt snillrikt, men det nya Àr att du inte behöver bry dig om det. Systemet Àr nu sÄ enkelt att alla som har rÄd att lÄta OpenAIs maskineri gÄ fritt i en vecka kommer kunna trÀna hyperspecialiserade AIs. Jag gissar att det dröjer ytterligare till shipmas 2026 innan kostnaden pÄ sÄdan hÀr specialtrÀning Àr sÄ lÄg att den Àr överkomlig för privatpersoner att leka runt med. Men det kommer det vara pÄ sikt.
Medan futurister drömmer om Artificiell Generell Intelligens â EN AI som kan göra ALLT, sĂ„ sĂ€nks tröskeln för vanliga mĂ€nniskor att skapa egna specialiserade AIs. För Ă€ven om du fortfarande behöver en budget för att köpa trĂ€ningstid sĂ„ rĂ€cker det alltsĂ„ numera med 12 exempel för att skapa den bĂ€sta AI:n i hela vĂ€rlden pĂ„ just ditt problem.
Jag skulle Ă€ndĂ„ rekommendera att ha fler Ă€n 12 exempel redo, i alla fall ett hundratal. Men det Ă€r inte heller sĂ€kert att fler Ă€r lika med bĂ€ttre. SĂ„ vad ska vi ha det hĂ€r till dĂ„? TĂ€nk till exempel att du vill fĂ„ en AI att kunna upptĂ€cka risker för en mycket sĂ€llsynt genetisk sjukdom. DĂ„ skulle ett exempel kunna vara den enkla frĂ„gan âKan den hĂ€r personen ha sjukdomen X?â men i exemplet skickar vi ocksĂ„ med ett DNA-prov. Sedan behöver vi ocksĂ„ skicka med ett utförligt korrekt svar âJa, patienten har sjukdomen X dĂ€rför att [korrekt anledning]â.
I det exempel som OpenAI sjĂ€lva visade upp i demon sĂ„ körde de en trĂ€ning pĂ„ just gener och testerna bad att AI-modellerna skulle ranka gener som var möjliga svar. Deras toppmodell o1 klarade av att lista den gen de letade efter 25% av gĂ„ngerna, men den specialiserade modellen hoppade till att klara det 31% av gĂ„ngerna. 6%-enheters ökning lĂ„ter ju inte sĂ„ mycket, men tĂ€nk dig att en hĂ€lsokontroll skulle hitta var tredje person som har en sĂ€llsynt form av cancer istĂ€llet för var fjĂ€rde â det Ă€r Ă€ndĂ„ nĂ„got. Ăven om modellen inte placerade rĂ€tt svar som etta sĂ„ var rĂ€tt svar med bland topp fem av misstĂ€nkta gener i 41% av fallen.
Det Ă€r enkelt att förestĂ€lla sig att 6â7 procents ökning i trĂ€ffsĂ€kerhet kommer göra stor skillnad i de extra svĂ„ra problemen men det Ă€r klart att vi skulle behöva se bevis pĂ„ att den hĂ€r teknologin kan fĂ„ upp stats pĂ„ att besvara enklare frĂ„gor med tydligt rĂ€tt och fel svar upp till nĂ€ra 100%. De kunde ha lyft fram det tydligare, men att ChatGPT 4 och o1 Ă€r bĂ€ttre pĂ„ till exempel matte beror pĂ„ att det Ă€r samma sĂ€tt som de trĂ€nar alla sina egna modeller, sĂ„ the proof is in the o1-pudding.
âThis is the same technique that we use internally at OpenAI to train our Frontier models.â sĂ€ger John Allard som Ă€r en av dem pĂ„ OpenAI som trĂ€nat o1.
Jag gissar att OpenAI bjuder in till sitt research-program för att de behöver tillgÄng till ny typ av data för att trÀna egna modeller. SÄ de företag som kan tÀnka sig att dela med sig av sin data fÄr skapa specialiserade AI-modeller gratis. En annan anledning Àr förmodligen att de behöver fler exempel pÄ specialistmodeller frÄn nÀringslivet som de kan lyfta fram i sin marknadsföring.
Det Àr ju snart nyÄr, sÄ jag förutspÄr att under 2025 kommer liknande enkla system för att trÀna egna modeller annonseras av alla AI-leverantörer. Google och Microsoft kommer förmodligen att bygga in det i system till utvecklare, Zuck kommer slÀppa det gratis till alla som vill ha det, och nÀsta AI-kommission kommer sÄ smÄningom sÀga att alla som vill ska fÄ chansen att trÀna en egen specialiserad AI. Oavsett vem du vill köpa processorkraft av sÄ kommer möjligheterna att skapa en unik AI-modell vara tillgÀnglig Àven för alla oss som inte Àr AI-ingenjörer och detta förÀndrar ju allt!
Vad kan du göra idag?
FörstÄ
SÄ hÀr fungerar OpenAIs RFT mer i detalj:
Datamatning
Organisationer samlar in ett skrÀddarsytt dataset för sin specifika domÀn och formaterar det i JSONL-format. Dessa matas in och grundmodellen genererar svar.Gradering
En automatiserad graderingsfunktion (betygssÀttare) jÀmför modellens svar med de korrekta svaren och tilldelar poÀng mellan 0 och 1 för att mÀta noggrannhet. (de har ocksÄ verktyg för att trÀna modeller som inte har ett rÀtt eller fel utan dÀr det mer Àr kvalitativ bedömning men de verkade inte vara fÀrdiga för denna shipmas)TrÀning
Modellen fÄr iterativ feedback, dÀr korrekta resonemang belönas och felaktiga resonemang straffas, vilket hjÀlper modellen att justera sitt tÀnkande.Validering
Ett separat dataset (med frÄgor och svar som modellen aldrig har sett) anvÀnds för att testa modellens förmÄga att generalisera till nya uppgifter, utan överlappning med trÀningsdata.Optimering och lansering
Den slutgiltiga modellen optimeras för effektivitet och specialisering innan den lanseras för praktisk anvÀndning.
Vi mÄste förstÄ att ju bÀttre de hÀr systemen blir pÄ att trÀna sig sjÀlva desto fler olösbara problem inom alla specialistkompetenser kommer gÄ att först lösa. NÀr vi sedan bygger ihop alla dessa specialister sÄ de kan prata med varandra sÄ kan vi automatisera allt. Om inte AGI hinner utvecklas innan det.
Planera
Jag har lÀnge gett rÄdet att organisationer behöver dokumentera allt de gör pÄ nÄgot sÀtt för att förr eller senare sÄ kommer det gÄ att göra en egen AI av det. Nu Àr det inte lÄngt kvar. Högsta prio pÄ AI-agendan inför nÀsta Är Àr att antingen sÀga Ja - Vi ska trÀna en egen AI-modell pÄ vÄra unika problem, eller Nej - Vi klarar oss utan specialiserad AI.
Alla som sÀger Ja behöver sÀtta en prislapp pÄ hur billigt det mÄste vara innan ni kör och invÀnta den prislappen. Medan ni gör det sÄ Àr det dags att bygga dataset.
Skriv frÄgor som ni vill kunna stÀlla till er AI.
Skriv svaren som ni vill att er AI skulle ha gett er och motivera varför det Àr korrekt svar. Ni mÄste ocksÄ tÀnka igenom sÄ det finns tillrÀckligt med frÄgor dÀr det finns ett tydligt rÀtt svar, men ocksÄ frÄgor dÀr svaret inte gÄr att fÄ fram, och frÄgor i grÄzonen dÀremellan.
Behöver ni ytterligare hjÀlp att planera er AI-agenda för nÀsta Är sÄ kan jag göra en workshop med er, svara direkt pÄ det hÀr mejlet.
Gör
TÀnk igenom ditt expertomrÄde. Skriv ner en frÄga som du har besvarat minst 12 gÄnger under din karriÀr dÀr svaret berott pÄ omstÀndigheterna och din erfarenhet. Samla ihop datan som var ditt beslutsunderlag för dessa 12 gÄnger och skriv hur du svarade och en utförlig beskrivning varför. Kom ihÄg att Àven den data som du hade tillgÄng till men valde bort som beslutsunderlag kan vara viktig att ta med.
Nu har du det som behövs för att trÀna en AI att resonera som du i ett hyperspecialiserat fall. SÄ nÀr kostnaden gÄr ner och du behöver ett bollplank som verkligen förstÄr hur du tÀnker sÄ har du ditt trÀningsset redo!
LĂ€nkar
OpenAIs 12 days of Shipmas
https://openai.com/12-days/
Ansökan till RFT-programmet med mer info
https://openai.com/form/rft-research-program/
Forbes skriver om RFT.
https://www.forbes.com/sites/lanceeliot/2024/12/08/latest-openai-announcement-showcases-how-reinforcement-fine-tuning-makes-quick-work-of-turning-generative-ai-into-domain-specific-wizards/
Sedan sist vi hördes
Jag har inte lyckats anvÀnda Sora Àn. Eventuellt ska det gÄ via VPN för oss inom EU men det har varit sÄ högt tryck att Àven de utanför EU har haft svÄrt att fÄ skapa nya konton. Men jag har inte heller uppgraderat till ChatGPT Pro som kostar 2000 kr i mÄnaden, vilket behövs för att fÄ generera mÀnniskor med Sora.
Men det Àr fortfarande ytterligare nio till saker som OpenAI ska slÀppa under Shipmas. Det viskas om agenter, sÄ vi fÄr se om jag hoppar pÄ PRO nÀsta vecka!
HÀr Àr en film dÀr OpenAIs agent demonstreras
Ăr du en insiktsdelare?
KÀnner du nÄgon som Àr sÄ bra expert pÄ nÄgot att hens kunskap borde förevigas i en AI-modell? Eller kanske nÄgon som sitter i en AI-styrgrupp som behöver inspiration? Vem tÀnkte du pÄ? Skicka vidare!
Har ni pengar kvar i budgeten som ska spenderas innan Äret Àr slut? Boka in mig för en inspirationsförelÀsning, skrÀddarsydda utbildningar eller workshop. Bara att svara pÄ det hÀr mejlet eller kontakta mig via Linkedin.
FortsÀtt utforska sÄ ses vi nÀsta vecka!
Tomas Seo
Har du fÄtt dagens nyhetsbrev utan att vara prenumerant?
Gillade du det hÀr och vill ha mer sÄ Àr det bara att skriva upp sig hÀr
(du vÀljer sjÀlv om du vill betala):