Centrala slutsatser
- Google Gemini 1.5 lanserar ett kontextfönster med en kapacitet på en miljon tokens, vilket överträffar konkurrenterna som Claude och ChatGPT.
- Ett mer omfattande sammanhangsfönster bidrar till förbättrad prestanda hos AI-modeller och minskar risken för fel, men utgör ingen garanti för framgång i alla lägen.
- Gemini 1.5:s utökade kontextfönster har potentialen att öka precisionen, minska felaktigheter och förbättra förståelsen avsevärt.
Google Gemini 1.5 introducerar nu ett anmärkningsvärt kontextfönster som rymmer en miljon tokens, vilket placerar den i en ledande position jämfört med konkurrenter som ChatGPT, Claude och andra AI-chatbots.
Denna uppgradering är betydande och kan potentiellt differentiera Gemini från mängden. Den fulla effekten är svår att greppa, men Geminis enorma kontextfönster kan revolutionera området.
Vad innebär ett sammanhangsfönster?
AI-modeller har en begränsning i hur mycket data de kan bearbeta när de besvarar frågor, som att förklara ett koncept eller sammanfatta en text. Denna gräns för textstorlek kallas för ett sammanhangsfönster.
Låt oss illustrera detta med en analogi. Tänk dig att du går till en mataffär utan inköpslista. Antalet varor du kan minnas medan du handlar representerar ditt sammanhangsfönster. Ju fler varor du kan hålla i minnet, desto större är chansen att du inte avviker från dina planer. På samma sätt, ju större sammanhangsfönster en AI-modell har, desto större är sannolikheten att den kommer ihåg all information som krävs för att ge dig de bästa svaren.
För närvarande innehar Anthropics Claude 2.1 rekordet för det största kontextfönstret bland allmänt tillgängliga AI-modeller med 200 000 tokens. Därefter följer GPT-4 Turbo med 128 000 tokens. Google Gemini 1.5 stoltserar nu med ett kontextfönster på en miljon tokens, vilket är fyra gånger så stort som någon annan modell på marknaden. Detta väcker den stora frågan: vad innebär ett kontextfönster på en miljon tokens?
Varför Gemini 1.5:s kontextfönster är en stor nyhet
För att sätta det i perspektiv: Claude AI:s kontextfönster på 200 000 tokens innebär att den kan analysera en bok på cirka 150 000 ord och ge svar om dess innehåll. Detta är en anmärkningsvärd kapacitet. Google Gemini 1.5 skulle dock kunna bearbeta 700 000 ord samtidigt!
När du matar in en stor textmängd i en AI-chatbot som ChatGPT eller Gemini, försöker den att bearbeta så mycket text som möjligt. Den mängd text den kan hantera begränsas av dess sammanhangsfönster. Om du har en konversation som omfattar 100 000 ord i en modell som bara kan hantera 28 000 och sedan ställer frågor som kräver att modellen har fullständig kunskap om hela konversationens innehåll (100 000 ord), så kommer modellen inte att lyckas.
Föreställ dig att du bara ser 20 minuter av en timmes film och sedan blir ombedd att redogöra för hela filmens handling. Hur bra skulle resultatet bli? Du skulle antingen vägra svara eller hitta på saker, vilket är precis vad en AI-chatbot skulle göra, vilket leder till så kallade AI-hallucinationer.
Även om du kanske inte matar in 100 000 ord i en chatbot, så är det inte hela bilden. Sammanhangsfönstret omfattar mer än bara texten du matar in vid ett enskilt tillfälle. AI-modeller tar hänsyn till hela konversationen under en chattsession för att säkerställa att deras svar är så relevanta som möjligt.
Så även om du inte ger den en hel bok på 100 000 ord, bidrar dina fram och tillbaka konversationer och svaren den ger till beräkningen av sammanhangsfönstret. Undrar du varför ChatGPT eller Google Gemini ibland glömmer saker du berättat tidigare i en konversation? Det beror troligen på att fönsterutrymmet har tagit slut och modellen har börjat glömma saker.
Ett större sammanhangsfönster är särskilt viktigt för uppgifter som kräver en djup förståelse av sammanhanget, såsom att sammanfatta långa artiklar, besvara komplexa frågor eller upprätthålla ett sammanhängande narrativ i den genererade texten. Om du vill skriva en roman på 50 000 ord med en konsekvent berättelse, eller ha en modell som kan ”titta på” och svara på frågor om en timmes video, då behöver du ett större sammanhangsfönster!
Sammanfattningsvis kan Gemini 1.5:s större sammanhangsfönster avsevärt förbättra AI-modellens prestanda, minska förekomsten av hallucinationer och öka noggrannheten och förmågan att följa instruktioner.
Kommer Gemini 1.5 att motsvara förväntningarna?
Om allt går enligt plan kan Gemini 1.5 överträffa de bästa AI-modellerna på marknaden. Med tanke på Googles tidigare misslyckanden med att skapa en stabil AI-modell är det dock viktigt att vara försiktig. Att enbart öka en modells kontextfönster leder inte automatiskt till förbättring.
Jag har använt Claude 2.1:s kontextfönster på 200 000 tokens under en tid nu, och det står klart att ett större sammanhangsfönster kan förbättra kontextmedvetenheten, men problem med kärnmodellens prestanda kan göra ett större sammanhang till ett problem i sig självt.
Kommer Google Gemini 1.5 att vara en gamechanger? Sociala medier är fyllda med positiva recensioner från användare med tidig tillgång till Gemini 1.5. Dock är många av dessa positiva recensioner baserade på förhastade eller förenklade användningsfall. Ett bra sätt att se hur Gemini 1.5 presterar är att ta del av Googles tekniska rapport om Gemini 1.5 [PDF]. Rapporten visar att modellen, även under ”kontrollerade testförhållanden”, inte lyckades extrahera alla detaljer ur dokument som var väl inom storleken på dess sammanhangsfönster.
Ett kontextfönster på en miljon tokens är en imponerande teknisk bedrift, men om modellen inte kan hämta detaljer i ett dokument på ett tillförlitligt sätt, blir ett större sammanhangsfönster av begränsat praktiskt värde. Det kan till och med bidra till minskad noggrannhet och fler hallucinationer.