Här är varför små språkmodeller är framtiden för AI

Huvudpunkter

  • Stora företag som Open AI, Google, Microsoft och Meta investerar i SLM:er.
  • SLM:er blir allt mer populära inom industrin och är bättre positionerade som framtidens AI.
  • Exempel på SLM:er inkluderar Google Nano, Microsofts Phi-3 och Open AIs GPT-4o mini.

Stora språkmodeller (LLM:er) introducerades med lanseringen av Open AIs ChatGPT. Sedan dess har flera företag även lanserat sina egna LLM:er, men fler företag lutar nu åt små språkmodeller (SLM:er).

SLM:er får allt större självförtroende, men vad är de och hur skiljer de sig från LLM:er?

Vad är en Liten Språkmodell?

En liten språkmodell (SLM) är en typ av artificiell intelligensmodell med färre parametrar (tänk på detta som ett värde i modellen som lärs under träning). Precis som sina större motsvarigheter kan SLM:er generera text och utföra andra uppgifter. Dock använder SLM:er färre dataset för träning, har färre parametrar och kräver mindre datorkraft för att träna och köra.

SLM:er fokuserar på nyckelfunktioner, och deras lilla fotavtryck innebär att de kan implementeras på olika enheter, inklusive sådana utan högpresterande hårdvara, som mobiltelefoner. Till exempel är Googles Nano en SLM som är byggd för att köras på mobila enheter. På grund av sin lilla storlek kan Nano köras lokalt med eller utan nätverksanslutning, enligt företaget.

Google

Förutom Nano finns det många andra SLM:er från ledande och framväxande företag inom AI-området. Några populära SLM:er inkluderar Microsofts Phi-3, OpenAIs GPT-4o mini, Anthropics Claude 3 Haiku, Metas Llama 3 och Mistral AIs Mixtral 8x7B.

Det finns också andra alternativ på marknaden som man kanske tror är LLM:er men som faktisk är SLM:er. Detta gäller särskilt eftersom de flesta företag tar en fler-modellansats genom att släppa mer än en språkmodell i sin portfölj, som erbjuder både LLM:er och SLM:er. Ett exempel är GPT-4, som har olika modeller, inklusive GPT-4, GPT-4o (Omni) och GPT-4o mini.

Små Språkmodeller vs. Stora Språkmodeller

När vi diskuterar SLM:er kan vi inte bortse från deras stora motsvarigheter: LLM:er. Den huvudsakliga skillnaden mellan en SLM och en LLM är modellens storlek, som mäts i termer av parametrar.

I skrivande stund finns det ingen konsensus inom AI-industrin om det maximala antalet parametrar som en modell inte bör överskrida för att klassas som en SLM, eller det minimala antalet som krävs för att klassas som en LLM. Men SLM:er har vanligtvis miljontals till några miljarder parametrar, medan LLM:er har fler, upp till triljoner.

Till exempel har GPT-3, som släpptes 2020, 175 miljarder parametrar (och GPT-4-modellen ryktas ha runt 1,76 triljoner), medan Microsofts Phi-3-mini, Phi-3-small och Phi-3-medium SLM:er mäter 3,8, 7 och 14 miljarder parametrar respektive.

Microsoft

En annan skillnad mellan SLM:er och LLM:er är mängden data som används för träning. SLM:er tränas på mindre mängder data, medan LLM:er använder stora dataset. Denna skillnad påverkar också modellens kapabilitet att lösa komplexa uppgifter.

På grund av den stora datamängd som används vid träning är LLM:er bättre lämpade för att lösa olika typer av komplexa uppgifter som kräver avancerat resonemang, medan SLM:er är bättre lämpade för enklare uppgifter. Till skillnad från LLM:er använder SLM:er mindre träningsdata, men datan som används måste vara av högre kvalitet för att uppnå många av de kapabiliteter som finns i LLM:er i en liten förpackning.

Varför Små Språkmodeller Är Framtiden

För de flesta tillämpningar är SLM:er bättre positionerade för att bli de vanliga modellerna som används av företag och konsumenter för att utföra en mängd olika uppgifter. Visst, LLM:er har sina fördelar och är mer lämpade för vissa användningsområden, som att lösa komplexa uppgifter. Men SLM:er är framtiden för de flesta användningsområden av följande skäl.

1. Lägre Tränings- och Underhållskostnader

Timofeev Vladimir/Shutterstock

SLM:er behöver mindre data för träning än LLM:er, vilket gör dem till det mest livskraftiga alternativet för individer och små till medelstora företag med begränsad träningdata, ekonomi eller båda. LLM:er kräver stora mängder träningsdata och, i förlängningen, stora datorkraftresurser för både träning och drift.

För att sätta detta i perspektiv bekräftade OpenAIs VD, Sam Altman, att det tog dem mer än 100 miljoner dollar att träna GPT-4 medan han talade på ett evenemang på MIT (enligt Wired). Ett annat exempel är Metas OPT-175B LLM. Meta säger att det tränades med hjälp av 992 NVIDIA A100 80GB GPU:er, som kostar cirka 10 000 dollar per enhet, enligt CNBC. Det sätter kostnaden på cirka 9 miljoner dollar, utan att inkludera andra kostnader som energi, löner och mer.

Med sådana siffror är det inte genomförbart för små och medelstora företag att träna en LLM. I kontrast har SLM:er en lägre inträdesbarriär vad gäller resurser och kostar mindre att driva, vilket gör att fler företag kommer att ta dem till sig.

2. Bättre Prestanda

GBJSTOCK / Shutterstock

Prestanda är ett annat område där SLM:er överträffar LLM:er på grund av deras kompakta storlek. SLM:er har mindre latens och är mer lämpade för scenarier där snabbare svar behövs, som i realtidsapplikationer. Ett exempel är när ett snabbare svar föredras i röstresponsystem som digitala assistenter.

Att köra på enheten (mer om detta senare) innebär också att din begäran inte behöver göra en resa till online-servrar och tillbaka för att svara på din fråga, vilket leder till snabbare svar.

3. Mer Exakt

ZinetroN / Shutterstock

När det gäller generativ AI kvarstår en sak konstant: skräp in, skräp ut. Aktuella LLM:er har tränats med stora dataset av rådata från internet. Därför kan de kanske inte vara exakta i alla situationer. Detta är ett av problemen med ChatGPT och liknande modeller och varför du inte bör lita på allt som en AI-chattbot säger. Å andra sidan tränas SLM:er med högkvalitativare data än LLM:er och har därför högre noggrannhet.

SLM:er kan också finjusteras ytterligare med fokuserad träning på specifika uppgifter eller domäner, vilket leder till bättre noggrannhet inom dessa områden jämfört med större, mer generella modeller.

4. Kan Köras På Enheten

Pete Hansen/Shutterstock

SLM:er behöver mindre datorkraft än LLM:er och är därför idealiska för edge computing-fall. De kan implementeras på edge-enheter som smartphones och autonoma fordon, som inte har stor datorkraft eller resurser. Googles Nano-modell kan köras på enheten, vilket gör att den fungerar även när du inte har en aktiv internetanslutning.

Denna förmåga ger en win-win-situation för både företag och konsumenter. För det första är det en vinst för integriteten eftersom användardata bearbetas lokalt istället för att skickas till molnet, vilket är viktigt eftersom allt mer AI integreras i våra smartphones som innehåller nästan alla detaljer om oss. Det är också en vinst för företag eftersom de inte behöver distribuera och köra stora servrar för att hantera AI-uppgifter.

SLM:er får momentum, med de största aktörerna i branschen, såsom Open AI, Google, Microsoft, Anthropic och Meta, som släpper sådana modeller. Dessa modeller är mer lämpade för enklare uppgifter, vilket är vad de flesta av oss använder LLM:er för; därav är de framtiden.

Men LLM:er försvinner inte. Istället kommer de att användas för avancerade tillämpningar som kombinerar information över olika domäner för att skapa något nytt, som inom medicinsk forskning.

Sammanfattningsvis är SLM:er på väg att förändra landskapet för artificiell intelligens, och deras fördelar gör dem till en attraktiv lösning för många företag och användare. Med lägre kostnader, bättre prestanda och förmågan att köra lokalt, är deras framtid ljus.