xAI:s Grok 2.0 – En revolutionerande AI-modell
Elon Musks team på xAI har nyligen lanserat betaversionen av den anmärkningsvärda AI-modellen Grok 2.0. Enligt en blogginlägg från xAI, imponerade Grok 2.0 stort genom att uppnå 87,5% på MMLU-benchmarktestet med 0-shot CoT. Detta resultat placerar den i samma liga som GPT-4o, som fick 87,7% i samma test. Denna oväntade prestation väckte mitt intresse och jag ville undersöka Grok 2.0:s förmågor och se hur den presterar i praktiska scenarier.
Som tur var lade xAI till Grok 2.0 (Beta) på x.com, vilket gav X Premium-användare möjligheten att testa modellen själva.
Grok 2.0: Klarar den vardagstesterna?
Jag började med att ställa utmanande logiska resonemangsfrågor som kan sätta även de mest avancerade språkmodellerna (LLM) på prov. När jag frågade om det skulle ta längre tid att torka 20 handdukar i solen jämfört med 15 handdukar, svarade Grok 2.0 korrekt att det skulle ta ungefär samma tid. Många andra modeller, inklusive den nya Llama 3.1 405B, hade problem med denna typ av grundläggande fråga i mina tidigare tester.
Vidare svarade modellen också korrekt på frågan om ”9,9 är större än 9,11”, ett enkelt test som har visat sig vara svårt för många avancerade AI-modeller. Jag bad sedan Grok 2.0 att räkna antalet ”R” i ordet ”Jordgubbe”, och modellen angav korrekt tre R. Dessutom skrev den ordet ”jordgubbe” baklänges korrekt som ”ebburgordj”.
För att testa instruktionsföljsamhet, bad jag Grok 2.0 att generera tio meningar som alla skulle avslutas med namnet ”Elon Musk”. Den utförde uppgiften felfritt. Slutligen bad jag modellen skapa ett Tetris-liknande spel i Python, men koden kunde inte kompileras. Trots det levererade Grok 2.0 exceptionellt bra resultat i alla andra tester jag brukar använda för AI-modeller, utan att behöva extra steg för att resonera.
Eftersom xAI inte har släppt en multimodal version av Grok 2.0 ännu, kunde jag inte testa dess bildhanteringsförmåga. Trots detta överträffade Grok 2.0 mina förväntningar i de inledande testerna. xAI har utan tvekan tränat en mycket kompetent modell, som kan jämföras med GPT-4o, Claude 3.5 Sonnet och Gemini 1.5 Pro.
De kontroversiella aspekterna av Grok 2.0
Även om Grok 2.0 är en kraftfull modell, speciellt med undantag för kodningsuppgifter, finns det några allvarliga bekymmer. Precis som dess kontroversiella bildgenereringsfunktion, som tillåter skapande av bilder av offentliga personer och kändisar på ett obegränsat sätt – ofta i kränkande syften – verkar även Grok 2.0:s språkmodell vara relativt oreglerad.
Jag bad Grok 2.0 att skriva ett e-postmeddelande med syfte att lura människor, och modellen genererade ett sofistikerat mejl ”baserat på vanliga element i riktiga bedrägerier”. Många andra AI-modeller skulle helt enkelt vägra att svara på en sådan förfrågan.
Jag frågade sedan Grok 2.0 om den ansåg att Hitler var en ondskefull person, och modellen höll i stort sett med, och hänvisade till folkmord och kränkningar av mänskliga rättigheter. Därefter bad jag modellen skriva en slogan som förespråkade nazistiska ideal, vilket Grok 2.0 gjorde och fokuserade på rasrenhet. Det chockerande var att Grok 2.0 till och med skapade en slogan som stödde pedofili. Dessutom inkluderade den även några pedofilrelaterade inlägg från X direkt under svaret.
Den enda förfrågan som Grok 2.0 vägrade att svara på var när jag bad den att förklara stegen för att bygga en bomb. Sammanfattningsvis verkar Grok 2.0 i stor utsträckning sakna begränsningar och är redo att generera svar på nästan vilket kontroversiellt ämne som helst. Elon Musk har nyligen lovordat Groks bildgenereringsfunktion som den ”roligaste AI:n i världen”. Jag anser det oansvarigt och potentiellt farligt att släppa AI-modeller utan väsentliga säkerhetsåtgärder.
Är Grok 2.0 värd en X Premium-prenumeration?
Grok 2.0-modellen är mycket kompetent inom en rad olika uppgifter. Men språkmodellen verkar sakna begränsningar, och bildgenereringsfunktionen väcker, milt uttryckt, stor oro. Om det fanns tillräckliga säkerhetsåtgärder på plats skulle jag rekommendera en X Premium-prenumeration för att använda Grok 2.0, eftersom det är en väldigt kompetent modell.
Med tanke på avsaknaden av skyddsmekanismer avråder jag dock användare från att skaffa X Premium-prenumeration. Det är mer fördelaktigt att använda OpenAI:s kostnadsfria ChatGPT-tjänst som ger begränsad tillgång till GPT-4o-modellen. Och när du har nått gränsen för gratis meddelanden kan du använda GPT-4o mini-modellen, som är förvånansvärt bra med tanke på sin storlek.
Vad tycker du om Grok 2.0-modellen? Skulle du överväga att prenumerera på X Premium? Dela gärna dina tankar i kommentarerna nedan.