Med det stora antalet tillgängliga chattbotar online kan det vara oerhört svårt att avgöra vilken som bäst uppfyller ens specifika behov. Att manuellt jämföra två chattbotar kan vara både tidskrävande och ansträngande.
Ett mer effektivt och lättanvänt alternativ är att utnyttja Chatbot Arena för att jämföra de olika stora språkmodeller (LLM) som driver populära chattbotar. Plattformen erbjuder olika metoder för att jämföra modellerna, vilka beskrivs närmare nedan.
Vad är Chatbot Arena?
Chatbot Arena, som skapats av LMSYS Org, är en plattform dedikerad till att jämföra och utvärdera olika LLM. Systemet använder sig av Elo-rankning för att placera modellerna i en ordning baserad på deras prestanda.
Chatbot Arena ger användarna flera sätt att jämföra och bedöma LLM. Genom den insamlade feedbacken sammanställer plattformen en offentlig topplista där de olika LLM:erna rankas. Projektet sponsras av Hugging Face, ett öppen källkods-alternativ till ChatGPT.
Hur man jämför anonyma LLM med Chatbot Arena
Chatbot Arenas ”stridsläge” ger dig möjligheten att jämföra LLM anonymt. Du kan till exempel ställa GPT 3.5 (ChatGPT) mot Claude. Chatbot Arena väljer slumpmässigt ut två språkmodeller och låter dig jämföra dem utan att avslöja deras identitet.
När du har skrivit in din första fråga presenterar Chatbot Arena svaren från båda modellerna sida vid sida. Plattformen ger dig möjlighet att återskapa svaren (för båda LLM) och rensa historiken för att påbörja en ny konversation. Du kan fortsätta att ställa frågor tills du känner att en tydlig vinnare har framträtt.
Därefter kan du välja om modell A eller B presterade bäst. När du har valt en vinnare avslöjar Chatbot Arena namnen på de båda bottarna. Detta tillvägagångssätt fungerar väl eftersom det förhindrar att ditt beslut påverkas av förutfattade meningar eller populäriteten hos de enskilda modellerna. Chatbot Arena låter dig även justera parametrar som temperatur, Top P och maximalt antal tokens i svaret.
Hur man jämför utvalda LLM med Chatbot Arena
Om du har en önskan att jämföra två specifika LLM kan du istället välja Chatbot Arenas sida-vid-sida läge. Förutom att du själv väljer vilka LLM som ska jämföras fungerar detta läge i princip på samma sätt som ”stridsläget”. Du har möjlighet att justera parametrar, generera om svaren, radera historiken och till sist kora en vinnare.
Antalet LLM som är tillgängliga i detta läge är dock begränsat. Du kan bland annat välja mellan olika versioner av Llama 2, Vicuna och ChatGLM. De mer populära LLM:erna som GPT-4, GPT-3.5, Claude 1 och Claude 2 är i dagsläget inte tillgängliga, men Chatbot Arena planerar att lägga till dem i framtiden.
Jämför LLM med Chatbot Arena
Oavsett om du söker den perfekta chattboten för dina specifika behov eller bara är nyfiken på att testa olika LLM, är Chatbot Arena en utmärkt plattform att använda.
Den erbjuder ett enkelt sätt att jämföra olika språkmodeller sida vid sida. Eftersom den också har en topplista som baseras på användarnas feedback kan du direkt se hur olika modeller presterar utan att själv genomföra tester.