Hur man använder Chatbot Arena för att jämföra de bästa LLM:erna

Med flera chatbots tillgängliga online kan det bli extremt svårt att välja den som uppfyller dina behov. Även om du kan jämföra två chatbots manuellt, kommer det att ta mycket tid och ansträngning.

Ett bättre och enklare sätt är att använda Chatbot Arena för att jämföra de olika LLM som driver populära chatbots. Den erbjuder ett par lägen för att jämföra de olika modellerna, som vi förklarar nedan.

Vad är Chatbot Arena?

Skapat av LMSYS Org, är Chatbot Arena en plattform för att benchmarka olika LLM:er. Den använder Elo Rating-systemet för att rangordna de olika modellerna.

Chatbot Arena erbjuder ett par sätt för användare att jämföra och betygsätta LLM. Baserat på den lämnade feedbacken rankar Chatbot Arena de olika LLM:erna på den offentliga topplistan. Projektet sponsras av HuggingFace, ett alternativ med öppen källkod till ChatGPT.

Hur man jämför anonyma LLM med Chatbot Arena

Chatbot Arenas stridsläge låter dig jämföra LLM anonymt. Du kan till exempel jämföra ChatGPT (GPT 3.5) och Claude. Det betyder att Chatbot Arena själv väljer vilka två språkmodeller som helst och, utan att avslöja deras namn, låter dig jämföra dem.

När du går in i den första prompten hämtar Chatbot Arena svar från båda modellerna och presenterar dem sida vid sida. Plattformen låter dig återskapa svar (för båda LLM) och rensa historik för att starta en annan konversation. Du kan fortsätta ställa fler frågor tills du har utsett en tydlig vinnare.

Sedan kan du välja om modell A är bättre eller B. När du väljer vinnaren avslöjar Chatbot Arena namnen på båda botarna. Detta läge fungerar utmärkt eftersom ditt beslut inte påverkas av din tidigare uppfattning eller popularitet av modellerna. Chatbot Arena låter dig också justera parametrar som temperatur, Top P och max output tokens.

Hur man jämför utvalda LLM med Chatbot Arena

Om du vill jämföra två specifika LLM:er kan du byta till Chatbot Arenas sida-vid-sida-läge. Förutom det faktum att du kan välja LLM själv, fungerar detta läge nästan på samma sätt som stridsläget. Du kan justera parametrar, återskapa svar, rensa historik och välja en vinnare till slut.

Antalet LLM:er som är tillgängliga i detta läge är dock begränsat. Du kan välja olika versioner av Llama 2, Vicuna och ChatGLM. Även om de populära LLM:erna, som GPT-4, GPT-3.5, Claude 1, Claude 2, etc., för närvarande inte är tillgängliga i det här läget, planerar Chatbot Arena att lägga till dem.

Jämför LLM med Chatbot Arena

Oavsett om du letar efter en passande chatbot för dina behov eller bara vill testa olika LLM, är Chatbot Arena en fantastisk plattform.

Det ger ett förenklat sätt att jämföra olika språkmodeller sida vid sida. Och eftersom det har en topplista baserad på användarnas feedback kan du direkt se rankingen av olika modeller utan att köra testerna själv.