För mer än sju decennier sedan, under den tid då konceptet artificiell intelligens föddes, publicerade Alan Turing en artikel som beskrev en metod för att avgöra om en maskin kunde tänka. Denna metod, som senare kom att kallas Turing-testet, har under många år fungerat som en standard för att skilja mellan mänskliga och AI-baserade interaktioner.
Med framväxten av sofistikerade AI-chattbottar som ChatGPT och Google Bard blir det dock allt svårare att avgöra om man kommunicerar med en AI eller en människa. Detta aktualiserar frågan: Är Turing-testet fortfarande relevant, eller är det föråldrat? Och om det är fallet, vilka andra metoder kan vi använda för att göra skillnad?
Har Turing-testet blivit inaktuellt?
För att kunna avgöra om Turing-testet har blivit föråldrat, är det viktigt att först förstå hur det fungerar. I grunden går Turing-testet ut på att en AI ska kunna övertyga en mänsklig förhörsledare om att den är en människa. En viktig detalj är att AI:n testas tillsammans med en människa, och kommunikationen sker enbart via text.
Föreställ dig situationen: du som förhörsledare ställer frågor till två deltagare online via text, där en av deltagarna är en AI. Skulle du kunna skilja dem åt efter en kort stund, kanske fem minuter? Det är viktigt att förstå att syftet med Turing-testet inte är att avgöra vilken som är AI:n baserat på korrekta svar, utan att utvärdera om AI:n kan tänka och agera på ett sätt som liknar en människa.
En begränsning med Turing-testets metod att enbart fokusera på mänskliga svar är att den inte beaktar andra faktorer, såsom AI-modellens intelligensnivå eller förhörsledarens kunskap. Dessutom är testet begränsat till textbaserad kommunikation, vilket gör det svårt att identifiera AI-modeller som kan generera mänskliga röster eller skapa deepfake-videor som imiterar mänskligt beteende.
Trots detta har dagens avancerade AI-modeller, som exempelvis ChatGPT-4 och Google Bard, ännu inte nått den nivån där de konsekvent klarar Turing-testet. För den som är bekant med AI kan man ofta känna igen AI-genererad text.
De 5 bästa alternativen till Turing-testet
Det är möjligt att framtida AI-modeller, som ChatGPT-5, kommer att kunna klara Turing-testet. Om detta sker behöver vi andra testmetoder, eventuellt i kombination med Turing-testet, för att avgöra om vi kommunicerar med en AI eller en människa. Här presenteras några av de bästa alternativen till Turing-testet:
1. Marcus-testet
Gary Marcus, en framstående kognitions- och AI-forskare, har föreslagit ett alternativ till Turing-testet, publicerat i New Yorker, för att utvärdera den kognitiva förmågan hos en AI. Testet går ut på att bedöma en AI-modells förmåga att titta på och förstå YouTube-videor och TV-program utan undertexter eller text. För att klara Marcus-testet bör AI:n kunna tolka sarkasm, humor, ironi och handlingen i videorna, samt förklara dem på ett sätt som en människa skulle göra.
I dagsläget kan GPT-4 beskriva bilder, men det finns ännu ingen AI-modell som kan förstå videor på samma sätt som en människa. Självkörande bilar närmar sig denna förmåga, men de är inte helt autonoma och behöver sensorer, eftersom de inte kan förstå allt i sin omgivning.
2. Det visuella Turing-testet
Enligt en forskningsartikel publicerad i PNAS, kan det visuella Turing-testet användas för att avgöra om man kommunicerar med en människa eller en AI genom att använda bildfrågor. Testet fungerar som det traditionella Turing-testet, men istället för att svara på frågor med text får deltagarna bilder och förväntas svara på enkla frågor samtidigt som de tänker som en människa. Det visuella Turing-testet skiljer sig från CAPTCHA, eftersom alla svar är korrekta, men för att klara testet måste AI:n bearbeta bilderna på samma sätt som en människa.
Om en AI och en människa visas flera bilder sida vid sida och ombeds att identifiera realistiska bilder, skulle människan ha den kognitiva förmågan att klara testet. AI-modeller har nämligen svårt att urskilja bilder som inte ser ut som om de är tagna i verkligheten. Det är också anledningen till att man kan identifiera AI-genererade bilder genom avvikelser som inte är logiska.
3. Lovelace 2.0-testet
Idén om att en dator inte kan skapa egna, originella idéer utöver det den är programmerad att göra, presenterades först av Ada Lovelace, långt innan Turing-testet utvecklades. Alan Turing motsatte sig dock denna tanke och hävdade att AI fortfarande kan överraska människor. Det var först 2001 som riktlinjerna för Lovelace-testet utvecklades för att skilja en AI från en människa, och enligt thekurzweiillibrary reviderades reglerna senare 2014.
För att en AI ska klara Lovelace-testet måste den visa att den kan generera originella idéer som går utöver dess programmerade utbildning. Dagens AI-modeller, som GPT-4, saknar förmågan att skapa nya uppfinningar som går utöver vår befintliga kunskap. Men artificiell allmän intelligens kan potentiellt uppnå denna förmåga och klara Lovelace-testet.
4. Omvänt Turing-test
Hur skulle det vara om man vände på Turing-testet? Istället för att försöka avgöra om man pratar med en människa, går det omvända Turing-testet ut på att lura AI:n att tro att du är en AI. För att göra detta behövs även en annan AI-modell som svarar på samma frågor via text.
Om exempelvis ChatGPT-4 agerar förhörsledare kan du registrera Google Bard och en människa som deltagare. Om AI-modellen korrekt kan identifiera den mänskliga deltagaren utifrån svaren, har den klarat testet.
En nackdel med det omvända Turing-testet är att det inte är helt tillförlitligt, särskilt med tanke på att AI ibland kan ha svårt att skilja på AI-genererat innehåll och mänskligt skriven text.
5. AI-klassificeringsramverk
Enligt det AI-klassificeringsramverk som utvecklats av Chris Saad, är Turing-testet bara en av många metoder för att utvärdera om man kommunicerar med en AI. I korthet bygger AI-klassificeringsramverket på teorin om multipel intelligens, som hävdar att mänsklig intelligens uppfyller minst åtta olika kriterier: musikalisk rytm, logisk-matematisk intelligens, visuell identifiering, emotionell intelligens, självreflektion, existentiell tankeförmåga och kroppsrörelse.
Eftersom AI:n utvärderas på åtta olika parametrar är det osannolikt att en AI skulle klara sig bra i samtliga, även om den presterar över genomsnittet i vissa kategorier. ChatGPT kan exempelvis lösa matematiska problem, beskriva bilder och konversera på ett naturligt språk, men skulle misslyckas i andra kategorier som definieras i AI-klassificeringsramverket.
Turing-testet är inte avgörande
Turing-testet var ursprungligen tänkt som ett tankeexperiment snarare än ett avgörande test för att skilja mellan människor och AI. När det först introducerades var det en central metod för att mäta maskinintelligens.
Med den senaste utvecklingen inom AI-modeller, som innefattar röst-, visuell och hörande interaktion, är Turing-testet inte längre tillräckligt, eftersom det är begränsat till textbaserad kommunikation. Den mest effektiva lösningen är att introducera alternativa metoder, som de som presenterats ovan, för att på ett bättre sätt särskilja AI-modeller från människor.