Varför Gemini 1.5s One Million Token-kontext är en spelomvandlare

Innehållsförteckning

Viktiga takeaways

Google Gemini 1.5 introducerar ett kontextfönster på en miljon token, som överträffar konkurrenter som Claude och ChatGPT.
Ett större sammanhangsfönster förbättrar en AI-modells prestanda och minskar fel, men garanterar kanske inte övergripande framgång.
Gemini 1.5:s större sammanhangsfönster kan avsevärt förbättra noggrannheten, minska fel och förbättra förståelsen.

Google Gemini 1.5 kommer nu med ett enormt kontextfönster på en miljon token, vilket överväger dess direkta konkurrens i ChatGPT, Claude och andra AI-chatbotar.

Det låter som en massiv uppgradering och kan skilja Gemini åt. Det är lite svårt att förstå dess fulla omfattning – men Geminis enorma sammanhangsfönster kan vara en spelförändring.

Vad är ett sammanhangsfönster?

När de svarar på dina frågor, som att förklara ett koncept eller sammanfatta en text, har AI-modeller en gräns för hur mycket data de kan överväga för att generera ett svar. Gränsen för textstorleken den kan överväga kallas ett sammanhangsfönster.

Här är ett annat sätt att se på det. Låt oss säga att du går till en livsmedelsbutik för att köpa mat utan din inköpslista. Gränsen för hur många matvaror du kommer ihåg när du handlar är ditt sammanhangsfönster. Ju fler matvaror du kan komma ihåg, desto större är chansen att inte förstöra dina shoppingplaner. På samma sätt, ju större sammanhangsfönster en AI-modell har, desto större är chansen att modellen kommer ihåg allt den behöver för att ge dig de bästa resultaten.

I skrivande stund är Anthropics Claude 2.1:s 200k kontextfönster det största kontextfönstret av någon allmänt tillgänglig AI-modell. Detta följs av GPT-4 Turbo med ett 128k kontextfönster. Google Gemini 1.5 ger ett en miljon kontextfönster, fyra gånger större än något annat på marknaden. Detta leder till den stora frågan: vad är grejen med ett kontextfönster på en miljon token?

Varför Gemini 1.5s kontextfönster är en stor sak

Smarta mockups

För att sätta det i ett tydligare perspektiv betyder Claude AI:s 200k kontextfönster att den kan smälta en bok på cirka 150 000 ord och ge svar på den. Det är enormt. Men Googles Gemini 1.5 skulle kunna smälta 700 000 ord samtidigt!

När du matar in ett stort textblock i AI-chatbotar som ChatGPT eller Gemini, försöker den smälta så mycket av texten som möjligt, men hur mycket den kan smälta beror på dess sammanhangsfönster. Så om du har en konversation som rymmer 100 000 ord på en modell som bara kan hantera 28 000 och sedan börjar ställa frågor som kräver att den har fullständig kunskap om hela konversationens värde på 100 000 ord, ställer du in den på att misslyckas.

Föreställ dig att bara titta på 20 minuter av en en timme lång film men att bli ombedd att förklara hela filmen. Hur bra skulle dina resultat bli? Antingen vägrar du att svara eller bara hittar på saker, vilket är precis vad en AI-chatbot skulle göra, vilket leder till AI-hallucinationer.

Om du nu tänker att du aldrig har behövt mata in 100 000 ord i en chatbot, är det inte hela övervägandet. Kontextfönstret överskrider bara texten du matar en AI-modell i en enda prompt. AI-modeller tar hänsyn till hela konversationen du har haft under en chattsession för att säkerställa att deras svar är så relevanta som möjligt.

Så även om du inte matar den med en 100 000 ordbok, bidrar dina fram och tillbaka konversationer och svaren den ger till beräkningen av sammanhangsfönstret. Undrar du varför ChatGPT eller Googles Gemini fortsätter att glömma de saker du har berättat tidigare i en konversation? Det fick troligen slut på fönsterutrymmet och började glömma saker.

Ett större sammanhangsfönster är särskilt viktigt för uppgifter som kräver en djup förståelse av sammanhanget, såsom att sammanfatta långa artiklar, svara på komplexa frågor eller upprätthålla ett sammanhängande narrativ i den genererade texten. Vill du skriva en roman på 50 000 ord som har en konsekvent berättelse hela tiden? Vill du ha en modell som kan ”titta på” och svara på frågor på en entimmes videofil? Du behöver ett större sammanhangsfönster!

Kort sagt, Gemini 1.5:s större sammanhangsfönster kan avsevärt förbättra prestandan för dess AI-modell, minska hallucinationer och avsevärt öka noggrannheten och förmågan att följa instruktionerna bättre.

Kommer Gemini 1.5 att leva upp till förväntningarna?

Om allt går som planerat kan Gemini 1.5 potentiellt överträffa de bästa AI-modellerna på marknaden. Men med tanke på Googles många misslyckanden med att bygga en stabil AI-modell är det viktigt att vara försiktig. Att enbart stöta upp kontextfönstret för en modell gör inte automatiskt modellen bättre.

Jag har använt Claude 2.1:s 200k kontextfönster i månader sedan det släpptes, och en sak är klar för mig – ett större sammanhangsfönster kan verkligen förbättra kontextkänsligheten, men problem med kärnmodellens prestanda kan göra större sammanhang till ett problem med dess egen.

Kommer Google Gemini 1.5 att ge oss en spelväxlare? Sociala medier är för närvarande fyllda med lysande recensioner av Gemini 1.5 från användare med tidig tillgång. Men de flesta 5-stjärniga recensioner härrör från förhastade eller förenklade användningsfall. Ett bra ställe att kolla hur Gemini 1.5 skulle prestera i det vilda finns i Googles Gemini 1.5 teknisk rapport [PDF]. Rapporten visar att även under ”kontrollerad testning” kunde modellen inte hämta alla de små detaljerna i dokument väl inom storleken på dess sammanhangsfönster.

Ett en miljon tokens kontextfönster är verkligen en imponerande teknisk bedrift, men utan att kunna hämta detaljerna i ett dokument på ett tillförlitligt sätt, då är ett större sammanhangsfönster av lite praktiskt värde och kan till och med bli en orsak till minskande noggrannhet och hallucinationer.