Hur man laddar ner och installerar Llama 2 lokalt

Meta släppte Llama 2 sommaren 2023. Den nya versionen av Llama är finjusterad med 40 % fler tokens än den ursprungliga Llama-modellen, vilket fördubblar dess kontextlängd och överträffar betydligt andra tillgängliga modeller med öppen källkod. Det snabbaste och enklaste sättet att komma åt Llama 2 är via ett API via en onlineplattform. Men om du vill ha den bästa upplevelsen är det bäst att installera och ladda Llama 2 direkt på din dator.

Med det i åtanke har vi skapat en steg-för-steg-guide om hur du använder Text-Generation-WebUI för att ladda en kvantifierad Llama 2 LLM lokalt på din dator.

Varför installera Llama 2 lokalt

Det finns många anledningar till att människor väljer att köra Llama 2 direkt. Vissa gör det för integritetsskäl, vissa för anpassning och andra för offlinefunktioner. Om du forskar, finjusterar eller integrerar Llama 2 för dina projekt, kanske det inte är något för dig att komma åt Llama 2 via API. Poängen med att köra en LLM lokalt på din PC är att minska beroendet av tredjeparts AI-verktyg och använda AI när som helst, var som helst, utan att oroa dig för att läcka potentiellt känslig data till företag och andra organisationer.

Med det sagt, låt oss börja med steg-för-steg-guiden för att installera Llama 2 lokalt.

För att förenkla saker och ting kommer vi att använda ett ettklicksinstallationsprogram för Text-Generation-WebUI (programmet som används för att ladda Llama 2 med GUI). Men för att det här installationsprogrammet ska fungera måste du ladda ner Visual Studio 2019 Build Tool och installera de nödvändiga resurserna.

Ladda ner: Visual Studio 2019 (Fri)

  • Fortsätt och ladda ner communityutgåvan av programvaran.
  • Installera nu Visual Studio 2019 och öppna sedan programvaran. När den öppnats, markera rutan på Desktop-utveckling med C++ och tryck på installera.
  • Nu när du har skrivbordsutveckling med C++ installerat är det dags att ladda ner Text-Generation-WebUI-installationsprogrammet med ett klick.

    Steg 2: Installera Text-Generation-WebUI

    Text-Generation-WebUI-installationsprogrammet med ett klick är ett skript som automatiskt skapar de nödvändiga mapparna och ställer in Conda-miljön och alla nödvändiga krav för att köra en AI-modell.

    För att installera skriptet, ladda ner installationsprogrammet med ett klick genom att klicka på Kod > Ladda ner ZIP.

    Ladda ner: Text-Generation-WebUI Installer (Fri)

  • När du har laddat ner, extrahera ZIP-filen till din föredragna plats och öppna sedan den extraherade mappen.
  • Bläddra ner i mappen och leta efter lämpligt startprogram för ditt operativsystem. Kör programmen genom att dubbelklicka på lämpligt skript.
    • Om du använder Windows, välj start_windows batchfil
    • för MacOS, välj start_macos shell scrip
    • för Linux, start_linux skalskript.
  • Ditt antivirus kan skapa en varning; Det här är okej. Uppmaningen är bara ett falskt positivt antivirus för att köra en batchfil eller ett skript. Klicka på Kör ändå.
  • En terminal öppnas och startar installationen. Tidigt pausar installationen och frågar dig vilken GPU du använder. Välj lämplig typ av GPU installerad på din dator och tryck på enter. För de utan ett dedikerat grafikkort, välj Ingen (jag vill köra modeller i CPU-läge). Tänk på att körning i CPU-läge är mycket långsammare jämfört med att köra modellen med en dedikerad GPU.
  • När installationen är klar kan du nu starta Text-Generation-WebUI lokalt. Du kan göra det genom att öppna din föredragna webbläsare och ange den angivna IP-adressen på URL:en.
  • WebUI är nu redo att användas.
  • Programmet är dock bara en modelllastare. Låt oss ladda ner Llama 2 för att modellladdaren ska starta.

    Steg 3: Ladda ner Llama 2-modellen

    Det finns en hel del saker att tänka på när du bestämmer vilken iteration av Llama 2 du behöver. Dessa inkluderar parametrar, kvantisering, hårdvaruoptimering, storlek och användning. All denna information finns angiven i modellens namn.

    • Parametrar: Antalet parametrar som används för att träna modellen. Större parametrar ger mer kapabla modeller men på bekostnad av prestanda.
    • Användning: Kan antingen vara standard eller chatt. En chattmodell är optimerad för att användas som en chatbot som ChatGPT, medan standarden är standardmodellen.
    • Hårdvaruoptimering: Avser vilken hårdvara som bäst kör modellen. GPTQ betyder att modellen är optimerad för att köras på en dedikerad GPU, medan GGML är optimerad för att köras på en CPU.
    • Kvantisering: Betecknar precisionen av vikter och aktiveringar i en modell. För slutledning är en precision på q4 optimal.
    • Storlek: Avser storleken på den specifika modellen.

    Observera att vissa modeller kan vara annorlunda arrangerade och kanske inte ens har samma typ av information som visas. Den här typen av namnkonvention är dock ganska vanlig i HuggingFace Model-biblioteket, så det är fortfarande värt att förstå.

    I det här exemplet kan modellen identifieras som en medelstor Llama 2-modell tränad på 13 miljarder parametrar optimerade för chattavledning med hjälp av en dedikerad CPU.

    För de som kör på en dedikerad GPU, välj en GPTQ-modell, medan för de som använder en CPU, välj GGML. Om du vill chatta med modellen som du skulle göra med ChatGPT, välj chatt, men om du vill experimentera med modellen med dess fulla möjligheter, använd standardmodellen. När det gäller parametrar, vet att användning av större modeller ger bättre resultat på bekostnad av prestanda. Jag skulle personligen rekommendera dig att börja med en 7B-modell. När det gäller kvantisering, använd q4, eftersom det bara är till för att sluta.

    Ladda ner: GGML (Fri)

    Ladda ner: GPTQ (Fri)

    Nu när du vet vilken iteration av Llama 2 du behöver, fortsätt och ladda ner den modell du vill ha.

    I mitt fall, eftersom jag kör det här på en ultrabook, kommer jag att använda en GGML-modell finjusterad för chatt, llama-2-7b-chat-ggmlv3.q4_K_S.bin.

    När nedladdningen är klar, placera modellen i text-generation-webui-main > modeller.

    Nu när du har laddat ner din modell och placerad i modellmappen är det dags att konfigurera modellladdaren.

    Steg 4: Konfigurera Text-Generation-WebUI

    Låt oss nu börja konfigurationsfasen.

  • Återigen, öppna Text-Generation-WebUI genom att köra filen start_(ditt OS) (se föregående steg ovan).
  • Klicka på Modell på flikarna ovanför GUI. Klicka på uppdateringsknappen i rullgardinsmenyn för modell och välj din modell.
  • Klicka nu på rullgardinsmenyn i modellladdaren och välj AutoGPTQ för de som använder en GTPQ-modell och ctransformers för de som använder en GGML-modell. Klicka slutligen på Ladda för att ladda din modell.
  • För att använda modellen, öppna fliken Chatt och börja testa modellen.
  • Grattis, du har framgångsrikt laddat Llama2 på din lokala dator!

    Prova andra LLM

    Nu när du vet hur du kör Llama 2 direkt på din dator med Text-Generation-WebUI, bör du också kunna köra andra LLM:er förutom Llama. Kom bara ihåg namnkonventionerna för modeller och att endast kvantiserade versioner av modeller (vanligtvis q4 precision) kan laddas på vanliga datorer. Många kvantiserade LLM:er finns tillgängliga på HuggingFace. Om du vill utforska andra modeller, sök efter TheBloke i HuggingFaces modellbibliotek, så bör du hitta många tillgängliga modeller.