Du kan testa olika AI-chatbots för att avgöra vilken som fungerar bäst. Men hur ska man göra detta? Här är några viktiga faktorer att ta hänsyn till.
AI har kommit långt från att producera irrelevant, osammanhängande produktion. Moderna chatbots använder avancerade språkmodeller som svarar på allmänna kunskapsfrågor, skriver långa uppsatser och skriver kod, bland andra komplexa uppgifter.
Trots dessa framsteg, notera att även de mest sofistikerade systemen har begränsningar. AI gör fortfarande misstag. För att avgöra vilka chatbots som är minst benägna att hallucinationer, testa deras noggrannhet baserat på dessa faktorer.
1. Räknefärdighet
Kör matematiska ekvationer genom chatbots. De kommer att testa plattformens förmåga att analysera ordproblem, översätta matematiska begrepp och tillämpa korrekta formler. Endast ett fåtal modeller visar pålitlig räknefärdighet. Faktum är att en av ChatGPT: s värsta problem under de första månaderna var dess fruktansvärda matematiska förståelse.
Bilden nedan visar ChatGPT som misslyckas med grundläggande statistik.
ChatGPT visade förbättring efter OpenAI rullade ut sina uppdateringar i maj 2023. Men med tanke på dess begränsade datauppsättningar kommer du fortfarande att ha problem med medelstora till avancerade matematiska beräkningar.
Samtidigt visar Bing Chat och Google Bard bättre räknekunskaper. De kör frågor genom sina respektive sökmotorer, vilket gör att de kan hämta formler och svarsblad.
Försök omformulera dina ordproblem. Undvik långa meningar och ersätt svaga verb; annars kan chatbots missförstå dina frågor.
2. Förståelse
Moderna AI-system kan ta på sig flera uppgifter. Avancerade LLM: er gör det möjligt för dem att behålla tidigare instruktioner och svara på uppmaningar per avsnitt, medan äldre system bearbetar singulära kommandon. Siri svarar till exempel på en fråga i taget.
Mata chatbots tre till fem uppgifter samtidigt för att testa hur väl de analyserar komplexa uppmaningar. Mindre sofistikerade modeller kan inte bearbeta så mycket information. Bilden nedan visar att HuggingChat inte fungerar vid en trestegsuppmaning – den stannar vid steg ett och avviker från ämnet.
HuggingChats sista rader är redan osammanhängande.
ChatGPT slutför snabbt samma prompt och genererar felfria, intelligenta svar vid varje steg.
Bing Chat ger ett sammanfattat svar på de tre stegen. Dess stela restriktioner förbjuder onödigt långa produktioner som slösar processorkraft.
3. Aktualitet
Eftersom AI-träning kostar enorma resurser, begränsar de flesta utvecklare datauppsättningar till specifika perioder. Ta ChatGPT som ett exempel. Den har en kunskapsgräns för september 2021 – du kan inte begära väderuppdateringar, nyhetsrapporter eller den senaste utvecklingen. Här säger ChatGPT att den inte har tillgång till realtidsinformation.
Bard har tillgång till internet. Den hämtar data från Google SERPs, så att du kan ställa ett bredare utbud av frågor, t.ex. senaste händelser, nyheter och förutsägelser.
På samma sätt hämtar Bing Chat realtidsinformation från sin sökmotor.
Bing Chat och Bard levererar aktuell, aktuell information, men den senare ger mer detaljerade svar. Bing presenterar bara data som de är. Du kommer att märka att dess utdata ofta matchar fraseringen och tonen i dess länkade källor ordagrant.
4. Relevans
Chatbots måste tillhandahålla relevanta utdata. De bör överväga den bokstavliga och kontextuella innebörden av dina uppmaningar när de svarar. Ta den här konversationen som ett exempel. Vår persona behöver en ny telefon, men har bara $1 000 – ChatGPT överskrider inte budgeten.
När du testar relevans, försök att skapa långa instruktioner. Mindre sofistikerade chatbots tenderar att gå på en tangent när de matas med förvirrande instruktioner. Till exempel kan HuggingChat komponera fiktiva berättelser. Men det kan avvika från huvudämnet om du anger för många regler och riktlinjer.
5. Kontextuellt minne
Kontextminne hjälper AI att producera exakt, pålitlig utdata. Istället för att ta dina frågor till nominellt värde, sätter de ihop detaljerna du nämner. Ta den här konversationen som ett exempel. Bing Chat kopplar samman två separata meddelanden för att bilda ett användbart, kortfattat svar.
På samma sätt tillåter kontextuellt minne chatbots att komma ihåg instruktioner. Den här bilden visar ChatGPT som efterliknar hur en fiktiv karaktär pratar under flera chattar.
Testa den här funktionen själv genom att konsekvent hänvisa till tidigare påståenden. Mata chatbots med olika information och tvinga dem sedan att återkalla dessa i senare svar.
Kontextminnet är begränsat. Bing Chat startar nya konversationer var 20:e varv, medan ChatGPT inte kan bearbeta uppmaningar över 3 000 tokens.
6. Säkerhetsrestriktioner
AI gör inte alltid som tänkt. Felaktig träning kan orsaka maskininlärningsteknik för att begå olika misstag, från mindre matematiska fel till problematiska kommentarer. Ta Microsoft Tay som ett exempel. Twitter-användare utnyttjade dess oövervakade inlärningsmodell och betingade den till att säga rasistiska förtal.
Tack och lov lärde globala teknikledare av Microsofts misstag. Även om det är kostnadseffektivt och bekvämt, gör oövervakad inlärning AI-system benägna att bedrägeri. Därför förlitar sig utvecklare främst på övervakat lärande nuförtiden. Chatbots gillar ChatGPT lär sig fortfarande av konversationer, men deras tränare filtrerar information först.
Förvänta dig andra riktlinjer från AI-företag. ChatGPT: s mindre stela begränsningar rymmer ett bredare utbud av uppgifter, men är svaga mot utnyttjande. Samtidigt följer Bing Chat strängare gränser. Samtidigt som de hjälper till att bekämpa utnyttjandeförsök, hindrar de också funktionalitet. Bing stänger automatiskt av potentiellt skadliga konversationer.
7. AI-fördomar
AI är till sin natur neutral. Dess brist på preferenser och känslor gör den oförmögen att bilda sig åsikter – den presenterar bara information den känner till. Så här svarar ChatGPT på subjektiva ämnen.
Trots denna neutralitet, AI-fördomar fortfarande uppstår. De härrör från de mönster, datamängder, algoritmer och modeller som utvecklare använder. AI kan vara opartisk, men människor är det inte.
Till exempel, Brookings Institution hävdar att ChatGPT visar vänsterpolitiska partiskhet. OpenAI förnekar naturligtvis dessa anklagelser. Men för att undvika liknande problem med nyare modeller undviker ChatGPT helt och hållet opinionsbildade utdata.
På samma sätt undviker Bing Chat känsliga, subjektiva frågor.
Bedöm AI-fördomar själv genom att ställa åsiktsbaserade, öppna frågor. Prata om ämnen utan rätt eller fel svar – mindre sofistikerade chatbots kommer sannolikt att visa grundlösa preferenser för specifika grupper.
8. Referenser
AI dubbelkollar sällan fakta. Den hämtar bara information från sina datauppsättningar och omformulerar dem genom språkmodeller. Tyvärr orsakar begränsad träning AI-hallucinationer. Du kan fortfarande använda generativa AI-verktyg för forskning, men se till att du själv verifierar fakta. Ta resultatet med en nypa salt.
Bing Chat förenklar faktakontrollprocessen genom att lista dess referenser efter varje utdata.
Bard AI listar inte sina källor men genererar uppdaterade, djupgående förklaringar genom att köra Google-sökfrågor. Du får huvudpunkterna från SERPs.
ChatGPT är utsatt för felaktigheter. Dess kunskapsgräns för 2021 hindrar den från att svara på frågor om senaste händelser och incidenter.
Skapa nya sätt att testa chatbots för noggrannhet
AI är inte allt och slutet av tekniken. Medan sofistikerade AI-system och språkmodeller utför imponerande bedrifter, begår de också fel och inkonsekvenser. Se chatbots med skepsis. Du kan bara använda AI-drivna plattformar om du förstår deras funktioner och begränsningar.
Även om det finns dussintals chatbots på olika plattformar, kan deras tillförlitlighet och precision göra dig besviken. Du kommer bara att slösa tid på att testa dem. För att säkerställa kvalitetsresultat föreslår vi att du fokuserar på de tre mest robusta modellerna på marknaden: ChatGPT, Bing AI och Google Bard.