Användare får vanligtvis tillgång till stora språkmodeller (LLM) genom att använda ett användargränssnitt via ett API. Även om det ger flera fördelar, introducerar användningen av API: er också begränsningar, såsom behovet av konstant internet anslutning, begränsade anpassningar, möjliga säkerhetsproblem och företag som begränsar modellkapaciteten genom en betalvägg.
Med kvantiserade LLM: er nu tillgängliga på HuggingFace, och AI-ekosystem som H20, Text Gen och GPT4All så att du kan ladda LLM-vikter på din dator, har du nu möjlighet till en gratis, flexibel och säker AI.
För att komma igång, här är sju av de bästa lokala/offline LLM: erna du kan använda just nu!
1. Hermes GPTQ
En toppmodern språkmodell finjusterad med hjälp av en datamängd på 300 000 instruktioner från Nous Research. Hermes är baserad på Metas LlaMA2 LLM och finjusterades med mestadels syntetiska GPT-4-utgångar.
Modell |
Hermes 13b GPTQ |
Modellstorlek |
7,26 GB |
Parametrar |
13 miljarder |
Kvantisering |
4-bitars |
Typ |
LlaMA2 |
Licens |
GPL 3 |
Användningen av LlaMA2 som basmodell gör att Hermes kan dubbla kontextstorleken eller en maximal tokenstorlek på 4 096. Genom att para ihop den långa kontextstorleken och en kodararkitektur är Hermes känd för att ge långa svar och låga hallucinationsfrekvenser. Detta gör Hermes till en bra modell för olika
naturlig språkbehandling (NLP) uppgifter, som att skriva kod, skapa innehåll och vara en chatbot.Det finns flera kvantiseringar och versioner av den nya Hermes GPTQ. Vi rekommenderar att du först provar Hermes-Llama2 13B-GPTQ-modellen, eftersom det är den enklaste versionen att distribuera samtidigt som den har bra prestanda.
2. Falcon Instruera GPTQ
Denna kvantiserade version av Falcon är baserad på arkitekturen som endast är avkodare finjusterad ovanpå TII: s råa Flacon-7b-modell. Basmodellen av Falcon tränades med hjälp av enastående 1,5 biljoner tokens från det offentliga internet. Som en instruktionsbaserad modell med endast avkodare licensierad under Apache 2, är Falcon Instruct perfekt för småföretag som letar efter en modell att använda för språköversättning och datainmatning.
Modell |
Falcon-7B-Instruct |
Modellstorlek |
7,58 GB |
Parametrar |
7 miljarder |
Kvantisering |
4-bitars |
Typ |
Falk |
Licens |
Apache 2.0 |
Den här versionen av Falcon är dock inte idealisk för finjustering och är endast avsedd för slutledning. Om du vill finjustera Falcon måste du använda råmodellen, som kan kräva tillgång till utbildningshårdvara av företagsklass som NVIDIA DGX eller AMD Instinct AI-acceleratorer.
3.GPT4ALL-J Groovy
GPT4All-J Groovy är en modell med endast avkodare finjusterad av Nomic AI och licensierad under Apache 2.0. GPT4ALL-J Groovy är baserad på den ursprungliga GPT-J-modellen, som är känd för att vara bra på textgenerering från uppmaningar. GPT4ALL -J Groovy har finjusterats som en chattmodell, vilket är perfekt för snabba och kreativa textgenereringsapplikationer. Detta gör GPT4All-J Groovy idealisk för innehållsskapare att hjälpa dem att skriva och kreativa verk, oavsett om det är poesi, musik eller berättelser.
Modell |
GPT4ALL-J Groovy |
Modellstorlek |
3,53 GB |
Parametrar |
7 miljarder |
Kvantisering |
4-bitars |
Typ |
GPT-J |
Licens |
Apache 2.0 |
Tyvärr tränades basmodellen för GPT-J på en datauppsättning endast på engelska, vilket innebär att även denna finjusterade GPT4ALL-J-modell endast kan chatta och utföra textgenereringsapplikationer på engelska.
4.WizardCoder-15B-GPTQ
Letar du efter en modell som är speciellt finjusterad för kodning? Trots sin betydligt mindre storlek är WizardCoder känd för att vara en av de bästa kodningsmodellerna som överträffar andra modeller som LlaMA-65B, InstructCodeT5+ och CodeGeeX. Den här modellen tränades med en kodningsspecifik Evol-Instruct-metod, som automatiskt redigerar dina uppmaningar så att de blir en mer effektiv kodningsrelaterad prompt som modellen bättre kan förstå.
Modell |
WizardCoder-15B-GPTQ |
Modellstorlek |
7,58 GB |
Parametrar |
15 miljarder |
Kvantisering |
4-bitars |
Typ |
Lama |
Licens |
bigcode-openrail-m |
WizardCoder är kvantifierad till en 4-bitarsmodell och kan nu användas på vanliga datorer, där individer kan använda den för experiment och som kodningsassistent för enklare program och skript.
5. Wizard Vicuna Ocensurerad-GPTQ
Wizard-Vicuna GPTQ är en kvantifierad version av Wizard Vicuna baserad på LlaMA-modellen. Till skillnad från de flesta LLM: er som släpps till allmänheten, är Wizard-Vicuna en ocensurerad modell med dess justering borttagen. Detta innebär att modellen inte har samma säkerhets- och moralnormer som de flesta modeller.
Modell |
Wizard-Vicuna-30B-Ocensurerad-GPTQ |
Modellstorlek |
16,94 GB |
Parametrar |
30 miljarder |
Kvantisering |
4-bitars |
Typ |
Lama |
Licens |
GPL 3 |
Även om möjligen poserar en AI-inriktningskontrollproblem, att ha en ocensurerad LLM tar också fram det bästa av modellen genom att tillåtas svara utan några begränsningar. Detta tillåter också användarna att lägga till sin anpassade anpassning av hur AI: n ska agera eller svara baserat på en given uppmaning.
6. Orca Mini-GPTQ
Vill du experimentera med en modell som tränats på en unik inlärningsmetod? Orca Mini är en inofficiell modellimplementering av Microsofts Orca-forskningsdokument. Den tränades med hjälp av lärar-elev-inlärningsmetoden, där datasetet var fullt av förklaringar istället för bara uppmaningar och svar. Detta borde i teorin resultera i en smartare student, där modellen kan förstå problemet snarare än att bara leta efter input och output par som hur typiska LLM: er fungerar.
Modell |
Orca Mini-GPTQ |
Modellstorlek |
8,11 GB |
Parametrar |
3 miljarder |
Kvantisering |
4-bitars |
Typ |
Lama |
Licens |
MIT |
Med endast tre miljarder parametrar är Orca Mini GPTQ lätt att köra även på mindre kraftfulla system. Den här modellen bör dock inte användas för något professionellt eftersom den genererar falsk information, partiska och stötande svar. Denna modell bör användas för att lära sig och experimentera med Orca och dess metoder.
7.LlaMA 2 Chat GPTQ
LlaMA 2 är efterföljaren till den ursprungliga LlaMA LLM, som skapade de flesta modellerna på den här listan. LlaMA 2 är en samling av flera LLM, var och en tränad med 7-70 miljarder parametrar. Totalt sett var LlaMA 2 förtränad med hjälp av 2 biljoner tokens data hämtade från allmänt tillgängliga instruktionsdatauppsättningar.
Modell |
Falcon-40B-Instruct-GPTQ |
Modellstorlek |
7,26 GB |
Parametrar |
3 miljarder |
Kvantisering |
4-bitars |
Typ |
OpenLlaMA |
Licens |
EULA (metalicens) |
LlaMA 2 är avsedd att användas för kommersiellt och forskningsanvändning. Som sådan är den här modellen bäst att använda efter finjustering för bättre prestanda på specifika uppgifter. Denna specifika LlaMA 2-chatt GPTQ-modell har finjusterats och optimerats för engelsk dialog, vilket gör den den perfekta modellen för företag och organisationer att vara en chatbot med liten eller ingen extra utbildning nödvändig. Enligt villkoren kan företag med mindre än 700 miljoner användare använda LlaMA 2 utan att betala någon licensavgift från Meta eller Microsoft.
Prova lokala stora språkmodeller idag
Vissa av modellerna ovan har flera versioner vad gäller parametrar. Generellt sett ger högre parameterversioner bättre resultat men kräver kraftfullare hårdvara, medan lägre parameterversioner genererar resultat av lägre kvalitet men kan köras på lägre hårdvara. Om du är osäker på om din dator kan köra modellen, prova först med den lägre parameterversionen och fortsätt sedan tills du känner att prestandafallet inte längre är acceptabelt.
Eftersom de kvantiserade modellerna i den här listan bara tar upp några få gigabyte utrymme och modelldistributionsplattformar som GPT4All och Text-Generation-WebUI kan enkelt installeras via deras installationsprogram med ett klick, att prova flera modeller och modellversioner borde inte ta mycket tid och ansträngning.
Så vad väntar du på? Prova en lokal modell idag!