GPT-4 är här, och det här är de nya funktionerna du bör kolla in.
OpenAI har äntligen lanserat sin mycket efterlängtade GPT-uppdatering, GPT-4. Large Language Model (LLM) kommer med några kraftfulla nya funktioner och möjligheter som redan har chockat användare över hela världen.
Förutom att vara betydligt bättre än GPT-3.5, kan den befintliga LLM som driver OpenAI: s virala chatbot ChatGPT, GPT-4 förstå mer komplexa indata, har en mycket större teckeninmatningsgräns, har multimodala möjligheter och är enligt uppgift säkrare att använda sig av.
1. GPT-4 kan förstå mer komplexa ingångar
En av GPT-4:s största nya funktioner är dess förmåga att förstå mer komplexa och nyanserade uppmaningar. Enligt OpenAI, GPT-4 "uppvisar prestanda på mänsklig nivå på olika professionella och akademiska riktmärken."
Detta visades genom att sätta GPT-4 genom flera tester på mänsklig nivå och standardiserade tester, såsom SAT, BAR och GRE, utan specifik utbildning. Inte bara förstod och löste GTP-4 dessa tester med relativt höga poäng över hela linjen, utan den slog också ut sin föregångare, GPT-3.5, varje gång.
Möjligheten att förstå mer nyanserade inmatningsuppmaningar underlättas också av det faktum att GPT-4 har en mycket större ordgräns. Den nya modellen kan hantera inmatningsuppmaningar på upp till 25 000 ord (för sammanhang var GPT-3.5 begränsad till 8 000 ord). Detta kommer direkt att påverka detaljerna som användare kan klämma in i sina meddelanden, vilket ger modellen mycket mer information att arbeta med och ger längre utdata.
GPT-4 stöder också över 26 språk, inklusive lågresursspråk som lettiska, walesiska och swahili. När riktmärkt på tre-shots noggrannhet på MMLU benchmark, slog GPT-4 GPT-3.5 såväl som andra ledande LLM: er som PaLM och Chinchilla när det gäller engelskspråkig prestanda på 24 språk.
2. Multimodala möjligheter
Den tidigare versionen av ChatGPT var begränsad till bara textmeddelanden. Däremot är en av GPT-4s senaste funktioner dess multimodala möjligheter. Modellen kan acceptera både text- och bilduppmaningar.
Detta innebär att AI: n kan acceptera en bild som input och tolka och förstå den precis som en textuppmaning. Denna funktion spänner över alla storlekar och typer av bilder och text, inklusive dokument som kombinerar de två, handritade skisser och till och med skärmdumpar.
Men GPT-4:s bildläsningsmöjligheter går utöver att bara tolka dem. OpenAI visade upp detta i sin utvecklarström (ovan), där de försåg GPT-4 med en handritad mockup av en skämtwebbplats. Modellen fick i uppdrag att skriva HTML- och JavaScript-kod för att förvandla mockupen till en webbplats samtidigt som skämten ersattes med faktiska.
GPT-4 skrev koden medan den använde layouten som anges i mockupen. Vid testning producerade koden en fungerande webbplats med, som du kan gissa, faktiska skämt. Betyder det AI-framsteg kommer att innebära slutet på programmeringen? Inte riktigt, men det är fortfarande en funktion som kommer att vara praktisk för att hjälpa programmerare.
Hur lovande den här funktionen än verkar är den fortfarande i förhandsgranskning och inte tillgänglig för allmänheten. Dessutom tar modellen mycket tid att bearbeta visuella indata, där OpenAI själv säger att det kan ta arbete och tid att bli snabbare.
3. Större styrbarhet
OpenAI hävdar också att GPT-4 har en hög grad av styrbarhet. Det har också gjort det svårare för AI att bryta karaktär, vilket innebär att det är mindre sannolikt att misslyckas när det implementeras i en app för att spela en viss karaktär.
Utvecklare kan beskriva sin AI: s stil och uppgift genom att beskriva riktningen i "system"-meddelandet. Dessa meddelanden tillåter API-användare att kraftigt anpassa användarupplevelsen inom vissa gränser. Eftersom dessa meddelanden också är det enklaste sättet att "jailbreaka" modellen, arbetar de också med att göra dem säkrare. Demon för GPT-4 spikade in denna punkt genom att få en användare att försöka stoppa GPT-4 från att vara en sokratisk handledare och svara på deras fråga. Modellen vägrade dock att bryta karaktären.
4. Säkerhet
OpenAI ägnade sex månader åt att göra GPT-4 säkrare och mer anpassat. Företaget hävdar att det är 82 % mindre sannolikt att svara på förfrågningar om olämpligt eller på annat sätt otillåtet innehåll, 29 % mer sannolikt att svara i enlighet med OpenAI: s policyer på känsliga förfrågningar och 40 % mer sannolikt att producera faktasvar jämfört med GPT-3.5.
Det är inte perfekt, och du kan fortfarande förvänta dig att det "hallucinerar" då och då och kan ha fel i sina förutsägelser. Visst, GPT-4 har bättre uppfattningar och förutsägelsekraft, men du ska fortfarande inte lita blint på AI.
5. Prestanda förbättringar
Utöver att utvärdera modellens prestanda på mänskliga prov, utvärderade OpenAI även boten på traditionella riktmärken utformade för modeller för maskininlärning.
Den hävdar att GPT-4 "avsevärt överträffar" befintliga LLM: er och "de flesta toppmoderna modeller." Dessa riktmärken inkluderar ovannämnda MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval och Drop, som alla testar individuella förmågor.
Du hittar liknande resultat när du jämför prestationer på akademiska visionsriktmärken. Tester som körs inkluderar VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA och LSMDC, som alla toppar GPT-4. OpenAI har dock uttalat att GPT-4:s resultat i dessa test "inte fullt ut representerar omfattningen av dess kapacitet" eftersom forskare fortsätter att hitta nya och mer utmanande saker som modellen kan hantera.
Litet steg för GPT-4, Giant Leap för AI
Med mer precision, säkerhet vid användning och avancerade funktioner har GPT-4 släppts för allmänheten via ChatGPT+ månadsabonnemang som kostar 20 per månad. Dessutom har OpenAI samarbetat med olika organisationer för att börja bygga konsumentinriktade produkter med GPT-4. Microsoft Bing, Duolingo, Stripe, Be My Eyes och Khan Academy, bland andra, har redan implementerat GPT-4 i sina produkter.
GPT-4 kan vara en stegvis uppdatering jämfört med GPT-3.5, men det är en enorm vinst för AI totalt sett. När modellen blir mer tillgänglig, både för den genomsnittliga användaren och utvecklare genom dess API, verkar det som att den kommer att vara ett bra argument för LLM-implementeringar över fält.