För över 70 år sedan, när artificiell intelligens konceptualiserades, publicerade Alan Turing en artikel som beskrev hur man identifierade den. Det blev senare känt som Turing-testet, och det har använts i decennier för att skilja mellan en människa och en AI.
Men med introduktionen av avancerade AI-chatbotar som ChatGPT och Google Bard, blir det svårare att avgöra om du pratar med en AI. Det väcker frågan; är Turing-testet föråldrat? Och om det är det, vilka är alternativen?
Är Turing-testet föråldrat?
För att avgöra om Turing-testet är föråldrat måste du först förstå hur det fungerar. För att en AI ska klara Turing-testet måste den övertyga en mänsklig förhörsledare om att det är en människa. Men det finns en hake - AI: n utvärderas tillsammans med en människa, och den måste svara med text.
Tänk på det så här; om du är förhörsledaren och ställer frågor till två deltagare online med hjälp av text, men en av dem är en AI-modell — skulle du skilja dem åt efter fem minuter? Tänk på att syftet med Turing-testet inte är att identifiera AI-modellen baserat på de korrekta svaren utan att utvärdera om AI: n kan tänka eller bete sig som en människa.
Problemet med Turing-testmetoden att bara identifiera mänskliga svar är att den inte tar hänsyn till andra faktorer. Till exempel intelligensen hos AI-modellen eller förhörarens kunskap. Dessutom är Turing-testet begränsat till enbart text, och det blir svårare att identifiera en AI som genererar en mänsklig röst eller deepfake videor som imiterar mänskligt beteende.
Men de nuvarande AI-modellerna som ChatGPT-4 och Google Bard har ännu inte avancerat till en punkt där de konsekvent klarar Turing-testet. Faktum är att om du är bekant med AI kan du det upptäcka AI-genererad text.
De 5 bästa Turing-testalternativen
Det är möjligt det framtida AI-modeller som ChatGPT-5 kunde klara Turing-testet. Om det händer skulle vi behöva olika tester kombinerade med Turing-testet för att identifiera om vi pratar med en AI eller en människa. Här är de bästa Turing-testalternativen:
1. Marcustestet
Gary Marcus, en känd kognitionsforskare och AI-forskare, föreslog ett alternativ till Turing-testet som publicerades i New York-bo för att identifiera den kognitiva förmågan hos en AI. Testet är enkelt – du bedömer en AI-modell utifrån dess förmåga att titta på och förstå YouTube-videor och TV-program utan undertexter eller text. För att AI: n ska klara Marcus-testet bör den förstå sarkasm, humor, ironi och handlingen när du tittar på videorna och förklara det som en människa.
Just nu, GPT-4 kan beskriva bilder, men än så länge finns det för närvarande ingen AI-modell som kan förstå videor som en människa. Självkörande fordon kommer nära, men de är inte helt autonoma och kräver sensorer eftersom de inte kan förstå allt i sin omgivning.
2. Det visuella Turing-testet
Enligt en forskningsartikel publicerad på PNAS, kan det visuella Turing-testet användas för att identifiera om du pratar med en människa eller en AI med hjälp av bildfrågor. Det fungerar som Turing-testet, men istället för att svara på frågor med hjälp av texter får deltagarna bilder och förväntas svara på enkla frågor samtidigt som de tänker som en människa. Men den visuellt Turing-test skiljer sig från CAPTCHA eftersom alla svar är korrekta – men för att klara testet måste AI: n bearbeta bilderna på samma sätt som en människa.
Utöver det, om en AI och en människa visas flera bilder sida vid sida och ombeds att identifiera realistiska bilder, skulle människan ha den kognitiva förmågan att klara testet. Detta beror på att AI-modeller har svårt att urskilja bilder som inte ser ut som om de är tagna i den verkliga världen. Det är faktiskt anledningen till att du kan identifiera AI-genererade bilder använder anomalier som inte är vettiga.
3. Lovelace 2.0-testet
Teorin att en dator inte kan skapa originalidéer utöver vad den var programmerad att göra konceptualiserades först av Ada Lovelace före Turing-testet. Men Alan Turing motsatte sig den teorin och hävdade att AI fortfarande kan överraska människor. Det var inte förrän 2001 som riktlinjerna för Lovelace-testet utvecklades för att skilja en AI från en människa - och enligt thekurzweilibrary reglerna reviderades senare 2014.
För att en AI ska klara Lovelace-testet måste den visa att den kan generera originella idéer som överträffar utbildningen. Nuvarande AI-modeller som GPT-4 har inte förmågan att komma med nya uppfinningar utöver vår befintliga kunskap. Dock, artificiell allmän intelligens kan uppnå den förmågan och klara Lovelace-testet.
4. Omvänd Turing-test
Vad sägs om Turing-testet, men gjort omvänt? Istället för att försöka ta reda på om du pratar med en människa, är målet med omvänt Turing-test är att lura AI: n att tro att du är en AI. Men du behöver också en annan AI-modell för att svara på samma frågor med hjälp av text.
Till exempel, om ChatGPT-4 är förhörsledaren, kan du registrera Google Bard och en annan människa som deltagare. Om AI-modellen korrekt kan identifiera den mänskliga deltagaren baserat på svaren har den klarat testet.
Nackdelen med det omvända Turing-testet är att det är opålitligt, särskilt med tanke på det ibland AI kan inte särskilja AI-genererad och mänskligt skrivet innehåll.
5. AI Classification Framework
Enligt AI-klassificeringsramverket utvecklat av Chris Saad, Turing-testet är bara en utvärderingsmetod för att veta om du pratar med en AI. Mer kortfattat är AI-klassificeringsramverket baserat på teorin om multipel intelligens, som kräver mänsklig intelligens för att uppfylla minst åtta olika kriterier, vilket inkluderar: musikalisk rytm, logisk-matematisk intelligens, visuell identifiering, emotionell intelligens, självreflekterande intelligens, existentiell tänkande förmåga och kropp rörelse.
Eftersom AI: n utvärderas på åtta olika parametrar är det osannolikt att det går bra för en människa även om det presterar bättre än genomsnittet i vissa riktmärken. Till exempel, ChatGPT kan lösa matematiska problem, beskriver bilder och samtalar på ett naturligt språk som en människa, men det skulle misslyckas med andra kategorier som definieras i AI-klassificeringsramverket.
Turingtestet är inte avgörande
Turing-testet var tänkt att vara mer av ett tankeexperiment än ett avgörande test för att skilja mellan människor och AI. När det först föreslogs var det det centrala riktmärket för att mäta maskinintelligens.
Men med den senaste utvecklingen av AI-modeller med tal-, visuella och hörande interaktiva möjligheter, kommer Turing-testet till kort eftersom det är begränsat till textkonversation. Den mest effektiva lösningen skulle vara att introducera Turing-testalternativ som ytterligare skiljer AI-modeller från människor.