Hur man laddar ner och installerar Llama 2 lokalt - |Teknik förklaras|Gör själv|

Läsare som du hjälper till att stödja MUO. När du gör ett köp med hjälp av länkar på vår webbplats kan vi tjäna en affiliate-provision. Läs mer.

Meta släppte Llama 2 sommaren 2023. Den nya versionen av Llama är finjusterad med 40 % fler tokens än den ursprungliga Llama-modellen, vilket fördubblar dess kontextlängd och överträffar betydligt andra tillgängliga modeller med öppen källkod. Det snabbaste och enklaste sättet att komma åt Llama 2 är via ett API via en onlineplattform. Men om du vill ha den bästa upplevelsen är det bäst att installera och ladda Llama 2 direkt på din dator.

Med det i åtanke har vi skapat en steg-för-steg-guide om hur du använder Text-Generation-WebUI för att ladda en kvantifierad Llama 2 LLM lokalt på din dator.

Varför installera Llama 2 lokalt

Det finns många anledningar till att människor väljer att köra Llama 2 direkt. Vissa gör det för integritetsskäl, vissa för anpassning och andra för offlinefunktioner. Om du forskar, finjusterar eller integrerar Llama 2 för dina projekt, kanske det inte är något för dig att komma åt Llama 2 via API. Poängen med att köra en LLM lokalt på din PC är att minska beroendet av AI-verktyg från tredje part och använd AI när som helst, var som helst, utan att oroa dig för att läcka potentiellt känslig data till företag och andra organisationer.

Med det sagt, låt oss börja med steg-för-steg-guiden för att installera Llama 2 lokalt.

Steg 1: Installera Visual Studio 2019 Build Tool

För att förenkla saker och ting kommer vi att använda ett ettklicksinstallationsprogram för Text-Generation-WebUI (programmet som används för att ladda Llama 2 med GUI). Men för att det här installationsprogrammet ska fungera måste du ladda ner Visual Studio 2019 Build Tool och installera de nödvändiga resurserna.

varför kallas det ett smurfkonto

Ladda ner: Visual Studio 2019 (Fri)

Fortsätt och ladda ner communityutgåvan av programvaran.
Installera nu Visual Studio 2019 och öppna sedan programvaran. När den öppnats, kryssa i rutan Desktoputveckling med C++ och tryck på installera.

Nu när du har skrivbordsutveckling med C++ installerat är det dags att ladda ner Text-Generation-WebUI-installationsprogrammet med ett klick.

Steg 2: Installera Text-Generation-WebUI

Text-Generation-WebUI-installationsprogrammet med ett klick är ett skript som automatiskt skapar de nödvändiga mapparna och ställer in Conda-miljön och alla nödvändiga krav för att köra en AI-modell.

För att installera skriptet, ladda ner installationsprogrammet med ett klick genom att klicka på Koda > Ladda ner ZIP.

Ladda ner: Text-Generation-WebUI Installer (Fri)

När du har laddat ner, extrahera ZIP-filen till din föredragna plats och öppna sedan den extraherade mappen.
Bläddra ner i mappen och leta efter lämpligt startprogram för ditt operativsystem. Kör programmen genom att dubbelklicka på lämpligt skript.
- Om du använder Windows, välj start_windows kommandofil
- för MacOS, välj start_macos skal scrip
- för Linux, start_linux skalskript.
Ditt antivirus kan skapa en varning; Det här är okej. Uppmaningen är bara en antivirus falskt positivt för att köra en batchfil eller skript. Klicka på Spring ändå .
En terminal öppnas och startar installationen. Tidigt pausar installationen och frågar dig vilken GPU du använder. Välj lämplig typ av GPU installerad på din dator och tryck på enter. För de som inte har ett dedikerat grafikkort, välj Ingen (jag vill köra modeller i CPU-läge) . Tänk på att körning i CPU-läge är mycket långsammare jämfört med att köra modellen med en dedikerad GPU.
När installationen är klar kan du nu starta Text-Generation-WebUI lokalt. Du kan göra det genom att öppna din föredragna webbläsare och ange den angivna IP-adressen på URL:en.
WebUI är nu redo att användas.

Programmet är dock bara en modelllastare. Låt oss ladda ner Llama 2 för att modellladdaren ska starta.

Steg 3: Ladda ner Llama 2-modellen

Det finns en hel del saker att tänka på när du bestämmer vilken iteration av Llama 2 du behöver. Dessa inkluderar parametrar, kvantisering, hårdvaruoptimering, storlek och användning. All denna information finns angiven i modellens namn.

Parametrar: Antalet parametrar som används för att träna modellen. Större parametrar ger mer kapabla modeller men på bekostnad av prestanda.
Användande: Kan antingen vara standard eller chatt. En chattmodell är optimerad för att användas som en chatbot som ChatGPT, medan standarden är standardmodellen.
Hårdvaruoptimering: Avser vilken hårdvara som bäst kör modellen. GPTQ betyder att modellen är optimerad för att köras på en dedikerad GPU, medan GGML är optimerad för att köras på en CPU.
Kvantisering: Betecknar precisionen av vikter och aktiveringar i en modell. För slutledning är en precision på q4 optimal.
Storlek: Avser storleken på den specifika modellen.

Observera att vissa modeller kan vara annorlunda arrangerade och kanske inte ens har samma typ av information som visas. Denna typ av namnkonvention är dock ganska vanlig i KramarFace Modellbibliotek, så det är fortfarande värt att förstå.

operativsystemet hittades inte windows 10

I det här exemplet kan modellen identifieras som en medelstor Llama 2-modell tränad på 13 miljarder parametrar optimerade för chattavledning med hjälp av en dedikerad CPU.

För de som kör på en dedikerad GPU, välj en GPTQ modell, medan för de som använder en CPU, välj GGML . Om du vill chatta med modellen som du skulle göra med ChatGPT, välj chatt , men om du vill experimentera med modellen med dess fulla möjligheter, använd standard modell. När det gäller parametrar, vet att användning av större modeller ger bättre resultat på bekostnad av prestanda. Jag skulle personligen rekommendera dig att börja med en 7B-modell. När det gäller kvantisering, använd q4, eftersom det bara är till för att sluta.

Ladda ner: GGML (Fri)

Ladda ner: GPTQ (Fri)

hur man lägger till användare till sudoers

Nu när du vet vilken iteration av Llama 2 du behöver, fortsätt och ladda ner den modell du vill ha.

I mitt fall, eftersom jag kör det här på en ultrabook, kommer jag att använda en GGML-modell finjusterad för chatt, call-2-7b-chat-ggmlv3.q4_K_S.bin.

När nedladdningen är klar, placera modellen i text-generation-webui-main > modeller .

Nu när du har laddat ner din modell och placerad i modellmappen är det dags att konfigurera modellladdaren.

Steg 4: Konfigurera Text-Generation-WebUI

Låt oss nu börja konfigurationsfasen.

Återigen, öppna Text-Generation-WebUI genom att köra start_(ditt operativsystem) fil (se föregående steg ovan).
Klicka på flikarna ovanför GUI Modell. Klicka på uppdateringsknappen i rullgardinsmenyn för modell och välj din modell.
Klicka nu på rullgardinsmenyn för Modelllastare och välj AutoGPTQ för dem som använder en GTPQ-modell och ctransformatorer för dem som använder en GGML-modell. Slutligen, klicka på Ladda för att ladda din modell.
För att använda modellen, öppna fliken Chatt och börja testa modellen.

Grattis, du har framgångsrikt laddat Llama2 på din lokala dator!

Prova andra LLM

Nu när du vet hur du kör Llama 2 direkt på din dator med Text-Generation-WebUI, bör du också kunna köra andra LLM:er förutom Llama. Kom bara ihåg namnkonventionerna för modeller och att endast kvantiserade versioner av modeller (vanligtvis q4 precision) kan laddas på vanliga datorer. Många kvantiserade LLM:er finns tillgängliga på HuggingFace. Om du vill utforska andra modeller, sök efter TheBloke i HuggingFaces modellbibliotek, så bör du hitta många tillgängliga modeller.