Du har säkert hört talas om OpenAI: s GPT, men de är inte de enda LLM: erna på blocket.
Viktiga takeaways
- OpenAI: s GPT-4 är den mest avancerade och mest använda stora språkmodellen, med 1,76 biljoner parametrar och multimodala förmågor.
- Anthropics Claude 2 tävlar med GPT-4 i kreativa skrivuppgifter och klarar sig trots att han har färre resurser.
- Googles PaLM 2, även om det inte är en GPT-4-mördare, är en kraftfull språkmodell med starka flerspråkiga och kreativa förmågor. Falcon-180B är en öppen källkodsmodell som konkurrerar med kommersiella jättar och kan stå tå till tå med GPT-3.5.
Det är AI-säsong och teknikföretag slänger fram stora språkmodeller som bröd från ett bageri. Nya modeller släpps snabbt och det börjar bli för svårt att hålla koll.
Men mitt i mängden av nya releaser har bara ett fåtal modeller tagit sig till toppen och visat sig vara riktiga utmanare i det stora språkmodellutrymmet. När vi närmar oss slutet av 2023 har vi satt ihop de sex mest imponerande stora språkmodellerna du bör prova.
1. OpenAI: s GPT-4
GPT-4 är den mest avancerade allmänt tillgängliga stora språkmodellen hittills. Utvecklat av OpenAI och släppt i mars 2023, GPT-4 är den senaste iterationen i Generative Pre-trained Transformer-serien som började 2018. Med sina enorma möjligheter har GPT-4 blivit en av de mest använda och populäraste stora språkmodellerna i världen.
Även om det inte är officiellt bekräftat, uppskattar källor att GPT-4 kan innehålla häpnadsväckande 1,76 biljoner parametrar, cirka tio gånger mer än sin föregångare, GPT-3.5, och fem gånger större än Googles flaggskepp, PaLM 2. Denna massiva skala möjliggör GPT-4:s multimodala förmågor, vilket gör att den kan bearbeta både text och bilder som input. Som ett resultat kan GPT-4 tolka och beskriva visuell information som diagram och skärmdumpar förutom text. Dess multimodala natur ger en mer människoliknande förståelse av verkliga data.
I vetenskapliga riktmärken överträffar GPT-4 betydligt andra samtida modeller i olika tester. Även om riktmärken ensamma inte helt demonstrerar en modells styrkor, har verkliga användningsfall visat att GPT-4 är exceptionellt skicklig på att lösa praktiska problem intuitivt. GPT-4 faktureras för närvarande med 20 USD per månad och tillgänglig via ChatGPTs Plus-plan.
2. Antropics Claude 2
Även om det inte är lika populärt som GPT-4, kan Claude 2, utvecklat av Anthropic AI, matcha GPT -4:s tekniska riktmärken och verkliga prestanda på flera områden. I vissa standardiserade tester, inklusive utvalda tentor, överträffar Claude 2 GPT-4. AI-språkmodellen har också ett mycket överlägset sammanhangsfönster på cirka 100 000 tokens, jämfört med GPT -4:s 8k- och 32k-tokensmodeller. Även om större sammanhangslängd inte alltid leder till bättre prestanda, ger Claude 2:s utökade kapacitet tydliga fördelar, som att smälta hela 75 000-ordsböcker för analys.
I övergripande prestanda förblir GPT-4 överlägsen, men våra interna tester visar att Claude 2 överträffar det i flera kreativa skrivuppgifter. Claude 2 följer också GPT-4 i programmerings- och matematikkunskaper baserat på våra utvärderingar, men utmärker sig på att ge mänskliga, kreativa svar. När vi uppmanade alla modellerna på den här listan att skriva eller skriva om ett kreativt stycke, sex gånger av tio, valde vi Claude 2:s resultat för dess naturligt klingande människoliknande resultat. För närvarande, Claude 2 är tillgänglig gratis via Claude AI chatbot. Det finns också en $20 betald plan för tillgång till extra funktioner.
Trots att de har mindre finansiellt stöd än jättar som OpenAI och Microsoft, håller Anthropics Claude 2 AI-modell sig mot de populära GPT-modellerna och Googles PaLM-serie. För en AI med färre resurser är Claude 2 imponerande konkurrenskraftig. Om han tvingas satsa på vilken befintlig modell som har störst chans att konkurrera med GPT inom en snar framtid, verkar Claude 2 vara den säkraste satsningen. Även om Claude 2:s avancerade kapacitet är överkörd i finansiering, tyder den på att den kan gå tå till tå med t.o.m. välfinansierade giganter (även om det är värt att notera att Google har gjort flera stora bidrag till antropisk). Modellen slår över sin viktklass och visar lovande som en ny utmanare.
3. OpenAI: s GPT-3.5
Även om GPT-3.5 och dess 175 miljarder parametrar överskuggas av lanseringen av GPT-4, bör inte underskattas. Genom iterativ finjustering och uppgraderingar fokuserade på prestanda, noggrannhet och säkerhet har GPT-3.5 kommit långt från den ursprungliga GPT-3-modellen. Även om den saknar GPT -4:s multimodala kapacitet och släpar efter i sammanhangslängd och parameterantal, GPT-3.5 förblir mycket kapabel, med GPT-4 som den enda modellen som kan överträffa sin allsidiga prestanda avgörande.
Trots att den är en modell på andra nivån i GPT-familjen kan GPT-3.5 hålla sig själv och till och med överträffa Google och Metas flaggskeppsmodeller på flera riktmärken. I sida vid sida tester av matematiska och programmeringsfärdigheter mot Googles PaLM 2 var skillnaderna inte stora, med GPT-3.5 till och med en liten fördel i vissa fall. Mer kreativa uppgifter som humor och narrativt skrivande fick GPT-3.5 att dra fram med avgörande betydelse.
Så även om GPT-4 markerar en ny milstolpe inom AI, är GPT-3.5 fortfarande en imponerande kraftfull modell som kan konkurrera med och ibland överträffa även de mest avancerade alternativen. Dess fortsatta förfining säkerställer att den förblir relevant även tillsammans med flashigare nästa generations modeller.
4. Googles PaLM 2
När man utvärderar en AI-modells kapacitet är den beprövade formeln att läsa den tekniska rapporten och kontrollera riktmärken, men ta allt du lärt dig med en nypa salt och testa modellen själv. Hur kontraintuitivt det än kan tyckas, stämmer inte alltid benchmarkresultaten med verkliga prestanda för vissa AI-modeller. På pappret skulle Googles PaLM 2 vara GPT-4-mördaren, med officiella testresultat som tyder på att den matchar GPT-4 i vissa riktmärken. Men i den dagliga användningen framträder en annan bild.
I logiskt resonemang, matematik och kreativitet faller PaLM 2 till GPT-4. Det släpar också efter Anthropics Claude i en rad kreativa skrivuppgifter. Men även om det inte lyckas leva upp till sin fakturering som en GPT-4-mördare, Googles PaLM 2 är fortfarande en kraftfull språkmodell i sin egen rätt, med enorma förmågor. Mycket av det negativa sentimentet runt den härrör från jämförelser med modeller som GPT-4 snarare än direkt dålig prestanda.
Med 340 miljarder parametrar är PaLM 2 en av världens största modeller. Den utmärker sig särskilt vid flerspråkiga uppgifter och har starka matematiska och programmeringsförmågor. Även om det inte är bäst på det, är PaLM 2 också ganska effektiv på kreativa uppgifter som att skriva. Så även om riktmärken målade upp en optimistisk bild som inte blev helt realiserad, visar PaLM 2 fortfarande imponerande AI-färdigheter, även om den inte överträffar alla konkurrenter över hela linjen.
5. TII: s Falcon-180B
Om du inte har hängt med i den snabba takten för AI-språkmodeller har du förmodligen aldrig stött på Falcon-180B. Utvecklad av UAE: s Technology Innovation Institute, 180 miljarder parametern Falcon-180 är en av de mest kraftfulla språkmodeller med öppen källkod där ute, även om det saknar namnigenkänning av GPT-modeller eller den utbredda användningen av Metas Lama 2. Men gör inga misstag – Falcon-180B kan stå tå till tå med de bästa i klassen.
Jämförelseresultat visar att Falcon-180B överträffar de flesta modeller med öppen källkod och konkurrerar med kommersiella juggernauts som PaLM 2 och GPT-3.5. När den testade matte, kodning, resonemang och kreativt skrivande gick det till och med över GPT-3.5 och PaLM 2 vid gånger. Om vi rankar GPT-4, GPT-3.5 och Falcon-180B, skulle vi placera Falcon-180B rakt mellan GPT-4 och GPT-3.5 för dess styrkor i flera användningsfall.
Även om vi inte med säkerhet kan säga att den är bättre än GPT-3.5 i övergripande prestanda, är den ett fall för sig själv. Även om den är obskyr, förtjänar den här modellen uppmärksamhet för att matcha eller överträffa kapaciteten hos mer kända alternativ. Du kan prova Falcon-180B-modellen på Kramar ansikte (en LLM-plattform med öppen källkod).
Llama 2, Meta AI: s 70 miljarder parametrar stora språkmodell, bygger på sin föregångare, Llama 1. Även om Llama 2 är mindre än de ledande modellerna, överträffar den betydligt de flesta offentligt tillgängliga LLM: er med öppen källkod i benchmarks och användning i verklig värld. Ett undantag skulle vara Falcon-180B.
Vi testade Llama 2 mot GPT-4, GPT-3.5, Claude 2 och PaLM 2 för att mäta dess kapacitet. Föga överraskande överklassade GPT-4 Llama 2 över nästan alla parametrar. Llama 2 höll sig dock mot GPT-3.5 och PaLM 2 i flera utvärderingar. Även om det skulle vara felaktigt att hävda att Llama 2 är överlägsen PaLM 2, löste Llama 2 många problem som störde PaLM 2, inklusive kodningsuppgifter. Claude 2 och GPT-3.5 klarade Llama 2 i vissa områden men var bara avgörande bättre i ett begränsat antal uppgifter.
Så även om de inte överskrider kapaciteten hos de största proprietära modellerna, öppen källkod Llama 2 slår över sin viktklass. För en öppet tillgänglig modell visar den imponerande prestanda och konkurrerar med AI-jättar som PaLM 2 i utvalda utvärderingar. Llama 2 ger en glimt av den framtida potentialen för språkmodeller med öppen källkod.
Prestandagapet mellan AI-modeller minskar
Även om AI-landskapet utvecklas i en rasande takt, är OpenAI: s GPT-4 fortfarande ledaren i flocken. Men även om GPT-4 förblir oöverträffad i skala och prestanda, visar modeller som Claude 2 att med tillräckligt med skicklighet kan mindre modeller tävla inom utvalda områden. Googles PaLM 2, trots att den inte uppfyller vissa höga förväntningar, uppvisar fortfarande djupgående kapacitet. Och Falcon-180B bevisar att initiativ med öppen källkod kan stå axel vid axel med industrititaner som får tillräckliga resurser.