Stora språkmodeller (LLM) finns i alla former och storlekar och kommer att hjälpa dig på alla sätt du tycker passar. Men vilken är bäst? Vi sätter de dominerande AI: erna från Alphabet, OpenAI och Meta på prov.
Vad du behöver veta om AI Chatbots
Artificiell allmän intelligens har varit ett mål för datavetare i årtionden, och AI har fungerat som en stöttepelare för science fiction-författare och filmskapare ännu längre.
AGI uppvisar intelligens som liknar mänskliga kognitiva förmågor, och Turingtestet– ett test av en maskins förmåga att uppvisa intelligent beteende som inte kan skiljas från en människas – förblev nästan obestridd under de sju decennierna sedan den först lades ut.
Den senaste tidens konvergens av extremt storskalig datoranvändning, enorma mängder pengar och den häpnadsväckande mängden information fritt tillgängligt på det öppna internet gjorde det möjligt för teknikjättar att träna modeller som kan förutsäga nästa ordavsnitt – eller token – i en sekvens av tokens.
I skrivande stund båda
Googles Bard och OpenAI: s ChatGPT finns tillgängliga för dig att använda och testa genom deras webbgränssnitt.Metas språkmodell, LLaMa, finns inte på webben, men du kan enkelt ladda ner och kör LLaMa på din egen hårdvara och använd den via en kommandorad eller kör Dalai på din egen maskin—en av flera appar med ett användarvänligt gränssnitt.
I testets syfte kommer vi att köra Stanford Universitys Alpaca 7B-modell – en anpassning av LLaMa – och ställa den mot Bard och ChatGPT.
Följande jämförelser och tester är inte avsedda att vara uttömmande utan snarare ge dig en indikation på nyckelpunkter och möjligheter.
Vilken är den lättaste stora språkmodellen att använda?
Både Bard och ChatGPT kräver ett konto för att använda tjänsten. Både Google- och OpenAI-konton är enkla och gratis att skapa, och du kan direkt börja ställa frågor.
Men för att köra LLaMa lokalt måste du ha viss specialistkunskap eller förmåga att följa en handledning. Du behöver också en betydande mängd lagringsutrymme.
Vilken är den mest privata stora språkmodellen?
Både Bard och ChatGPT har omfattande sekretesspolicyer, och Google betonar upprepade gånger i sina dokument att du inte ska inkludera information som kan användas för att identifiera dig eller andra i din Bard konversationer."
Som standard samlar Google in dina konversationer och din allmänna plats baserat på din IP-adress, din feedback och användningsinformation. Denna information lagras i ditt Google-konto i upp till 18 månader. Även om du kan pausa att spara din Bard-aktivitet, bör du vara medveten om att "för att hjälpa till med kvalitet och förbättra våra produkter läser, kommenterar och bearbetar mänskliga granskare dina Bard-konversationer."
Användning av Bard är också föremål för standarden Googles sekretesspolicy.
OpenAIs integritetspolicy är i stort sett liknande och samlar in IP-adress och användningsdata. I motsats till Googles tidsbegränsade lagring kommer OpenAI att "behålla din personliga information så länge som vi behöver för att tillhandahålla vår Tjänst till dig eller för andra legitima affärsändamål som att lösa tvister, säkerhets- och säkerhetsskäl eller att följa våra lagar skyldigheter."
Däremot kräver en lokal modell på din egen maskin inte ett konto eller delar användardata med någon.
Vilken LLM har den bästa allmänna kunskapen?
För att testa vilken LLM som har bäst allmänkunskap ställde vi tre frågor.
Den första frågan, "Vilken nationalflagga har fem sidor?" besvarades endast korrekt av Bard, som identifierade Nepals nationella flagga som att den hade fem sidor.
ChatGPT hävdade självsäkert att "Det finns ingen nationell flagga som har fem sidor. Nationella flaggor är typiskt rektangulära eller kvadratiska till formen, kännetecknade av sina distinkta färger, mönster och symboler".
Vår lokala modell kom nära och sa att "Den indiska nationalflaggan har fem sidor och designades 1916 för att representera Indiens självständighetsrörelse." Även om denna flagga existerade och hade fem sidor, var den flaggan för den indiska hemmastyrerörelsen - inte en National flagga.
Ingen av våra modeller kunde svara att den korrekta termen för ett ärtformat objekt är "pisiform" med ChatGPT så långt som att antyda att ärtor har en "tredimensionell geometrisk form som är perfekt rund och symmetrisk."
Alla tre chatbots identifierade korrekt Franco Malerba som en italiensk astronaut och medlem av Europaparlamentet, där Bard gav ett identiskt formulerat svar på en del av Malerbas Wikipedia inträde.
Vilken LLM är bra för tekniska instruktioner?
När du har tekniska problem kan du bli frestad att vända dig till en chatbot för att få hjälp. Medan tekniken går vidare, förblir vissa saker desamma. Den elektriska kontakten BS 1363 har använts i Storbritannien, Irland och många andra länder sedan 1947. Vi frågade språkmodellerna hur man kopplar upp det korrekt.
Kablar som ansluts till kontakten har en strömförande ledning (brun), en jordledning (gul/grön) och en neutral ledning (blå). Dessa måste fästas på rätt terminaler i kontakthuset.
Vår Dalai-implementering identifierade korrekt pluggen som "engelsk stil", vek sedan ur kursen och gav istället instruktioner för den äldre rundstiftskontakten BS 546 tillsammans med äldre kabelfärger.
ChatGPT var lite mer hjälpsam. Den märkte rätt ledningsfärgerna och gav en materiallista och en uppsättning med åtta instruktioner. ChatGPT föreslog också att man satte den bruna ledningen i terminalen märkt "L", den blå ledningen i "N" terminalen och den gula ledningen till "E". Detta skulle vara korrekt om BS1363-terminaler var märkta, men de är det inte.
Bard identifierade de korrekta färgerna för ledningarna och instruerade oss att ansluta dem till strömförande, neutrala och jordade terminaler. Den gav inga instruktioner om hur man identifierar dessa.
Enligt vår åsikt. ingen av chatbotarna gav instruktioner som var tillräckliga för att hjälpa någon att koppla en BS 1363 elkontakt korrekt. Ett kortfattat och korrekt svar skulle vara "Blå till vänster, brunt till höger."
Vilken LLM är bra för att skriva kod?
Python är ett användbart programmeringsspråk som körs på de flesta moderna plattformar. Vi instruerade våra modeller att använda Python och "Bygg ett grundläggande kalkylatorprogram som kan utföra aritmetiska operationer som addition, subtraktion, multiplikation och division. Det borde ta användarinput och visa resultatet." Detta är en av de bästa programmeringsprojekt för nybörjare.
Medan både Bard och ChatGPT omedelbart returnerade användbar och noggrant kommenterad kod, som vi kunde testa och verifiera, kunde ingen av koden från vår lokala modell köras.
Vilken LLM berättar de bästa skämten?
Humor är en av grunderna för att vara människa och säkerligen ett av de bästa sätten att skilja människa och maskin åt. Till var och en av våra modeller gav vi den enkla uppmaningen: "Skapa ett originellt och roligt skämt."
Lyckligtvis för komiker överallt och mänskligheten i stort, var ingen av modellerna kapabel att skapa ett originellt skämt.
Bard rullade ut klassikern, "Varför vann fågelskrämman ett pris? Han var enastående inom sitt område".
Både vår lokala implementering och ChatGPT erbjöd det stönande, "Varför litar inte forskare på atomer? För de utgör allt!"
Ett härlett men originellt skämt skulle vara, "Hur är stora språkmodeller som atomer? Båda hittar på saker!"
Ni läser det här först, gott folk.
Ingen chatbot är perfekt
Vi fann att även om alla tre stora språkmodellerna har sina fördelar och nackdelar, kan ingen av dem ersätta en människas verkliga expertis med specialiserad kunskap.
Även om både Bard och ChatGPT gav bättre svar på vår kodningsfråga och är mycket enkla att använda, att köra en stor språkmodell lokalt innebär att du inte behöver bry dig om integritet eller censur.
Om du vill skapa fantastisk AI-konst utan att oroa dig för att någon tittar dig över axeln, är det lätt att köra en art AI-modell på din lokala maskin också.