Innehållsförteckning
Viktiga takeaways
- Deepfakes utgör betydande hot mot samhället, inklusive spridning av desinformation, skadande av rykte genom identitetsstöld och framkallande av konflikter för nationell säkerhet.
- Även om AI-teknik erbjuder verktyg för deepfake-detektering, är de inte perfekta, och mänskligt omdöme är fortfarande avgörande för att identifiera deepfake.
- Människor och AI-detektionsverktyg har olika styrkor och svagheter när det gäller att identifiera deepfakes, och att kombinera deras förmågor kan förbättra framgångsfrekvensen för att upptäcka och mildra farorna med deepfake-teknik.
Deepfakes hotar alla aspekter av samhället. Vår förmåga att identifiera falskt innehåll är avgörande för att omintetgöra desinformation, men i takt med att AI-tekniken förbättras, vem kan vi lita på för att upptäcka deepfakes: människa eller maskin?
Farorna med Deepfakes
I takt med att AI-tekniken utvecklas, utgör farorna med deepfakes ett allt större hot mot oss alla. Här är en snabb sammanfattning av några av de mest angelägna problemen med deepfakes:
- Desinformation: Djupt förfalskade videor och röstinspelningar kan sprida desinformation, till exempel falska nyheter.
- Imitation: Genom att utge sig för individer kan deepfakes skada människors rykte eller lura någon de är kända av.
- Nationell säkerhet: Det uppenbara domedagsscenariot med djupa förfalskningar är påhittade bilder eller ljud av en global ledare som inleder konflikt.
- Civila oroligheter: Bedrägliga bilder och ljud kan också användas av parter för att väcka ilska och civila oroligheter bland specifika grupper.
- Cybersäkerhet: Cyberkriminella använder redan AI-röstkloningsverktyg för att rikta in sig på individer med övertygande meddelanden från människor de känner.
- Sekretess och samtycke: Den skadliga användningen av deepfakes tar likheten med individer utan deras samtycke.
- Förtroende och förtroende: Om du inte kan skilja mellan sanning och bedrägeri, blir korrekt information lika opålitlig.
Deepfakes kommer bara att bli mer övertygande, så vi behöver robusta verktyg och processer för att upptäcka dem. AI tillhandahåller ett sådant verktyg i form av deepfake-detekteringsmodeller. Men precis som algoritmer utformade för att identifiera AI-genererad skrift, är deepfake-detekteringsverktyg inte perfekta.
För närvarande är mänskligt omdöme det enda andra verktyg vi kan lita på. Så, är vi bättre än algoritmer på att identifiera deepfakes?
Kan algoritmer upptäcka Deepfakes bättre än människor?
Deepfakes är ett tillräckligt allvarligt hot för att teknikjättar och forskargrupper ägnar enorma resurser till forskning och utveckling. Under 2019 erbjöd personer som Meta, Microsoft och Amazon $1 000 000 i priser under en Deepfake Detection Challenge för den mest exakta detekteringsmodellen.
Den bäst presterande modellen var 82,56 % korrekt mot en datauppsättning av allmänt tillgängliga videor. Men när samma modeller testades mot en ”black box dataset” med 10 000 osynliga videor, var den bäst presterande modellen endast 65,18 % korrekt.
Vi har också massor av studier som analyserar prestandan för AI deepfake-detektionsverktyg mot människor. Naturligtvis varierar resultaten från en studie till en annan, men generellt sett är människor antingen lika med eller överträffar framgångsfrekvensen för deepfake-detekteringsverktyg.
En studie från 2021 publicerad på PNAS fann att ”vanliga mänskliga observatörer” uppnådde en något högre noggrannhetsgrad än de ledande verktygen för deepfake-detektering. Men studien fann också att de mänskliga deltagarna och AI-modellerna var mottagliga för olika typer av misstag.
Intressant nog forskning utförd av Universitetet i Sydney har funnit att den mänskliga hjärnan, omedvetet, är mer effektiv på att upptäcka djupa falska förfalskningar än våra medvetna ansträngningar.
Upptäcker visuella ledtrådar i Deepfakes
Vetenskapen om deepfake-detektion är komplex och den nödvändiga analysen varierar beroende på materialets karaktär. Till exempel är den ökända deepfake-videon av Nordkoreas ledare Kim Jong-un från 2020 i grunden en talking head-video. I det här fallet kan den mest effektiva metoden för deepfake-detektering vara att analysera visemes (munrörelser) och fonem (fonetiska ljud) för inkonsekvenser.
Mänskliga experter, tillfälliga tittare och algoritmer kan alla utföra den här typen av analyser, även om resultaten varierar. De MIT definierar åtta frågor för att identifiera djupfalska videor:
- Var uppmärksam på ansiktet. Avancerade DeepFake-manipulationer är nästan alltid ansiktsomvandlingar.
- Var uppmärksam på kinderna och pannan. Ser huden för slät eller för rynkig ut? Liknar hudens åldrande åldern hos håret och ögonen? DeepFakes kan vara inkongruenta i vissa dimensioner.
- Var uppmärksam på ögonen och ögonbrynen. Uppstår skuggor på platser som du förväntar dig? DeepFakes kanske misslyckas med att representera en scens naturliga fysik fullt ut.
- Var uppmärksam på glasögonen. Finns det någon bländning? Är det för mycket bländning? Förändras vinkeln på bländningen när personen rör sig? Återigen kan DeepFakes misslyckas med att helt representera ljusets naturliga fysik.
- Var uppmärksam på ansiktshår eller brist på sådant. Ser detta ansiktshår äkta ut? DeepFakes kan lägga till eller ta bort mustasch, polisonger eller skägg. Däremot kan DeepFakes misslyckas med att göra omvandlingar av ansiktshår helt naturliga.
- Var uppmärksam på mullvadar i ansiktet. Ser mullvaden äkta ut?
- Var uppmärksam på att blinka. Blinkar personen tillräckligt eller för mycket?
- Var uppmärksam på läpprörelserna. Vissa deepfakes är baserade på läppsynkronisering. Ser läpprörelserna naturliga ut?
De senaste verktygen för deepfake-detektion av AI kan analysera samma faktorer, återigen, med varierande grad av framgång. Dataforskare utvecklar också ständigt nya metoder, som att upptäcka naturligt blodflöde i ansiktena på högtalare på skärmen. Nya tillvägagångssätt och förbättringar av befintliga kan resultera i att AI deepfake-detekteringsverktyg konsekvent överträffar människor i framtiden.
Upptäcker ljudledtrådar i Deepfakes
Att upptäcka djupt falskt ljud är en helt annan utmaning. Utan de visuella ledtrådarna från video och möjligheten att identifiera audiovisuella inkonsekvenser, är deepfake-detektion mycket beroende av ljudanalys (andra metoder som metadataverifiering kan också hjälpa, i vissa fall).
En studie publicerad av University College London 2023 fann att människor kan upptäcka djupt falskt tal 73 % av tiden (engelska och mandarin). Som med deepfake-videor upptäcker mänskliga lyssnare ofta intuitivt onaturliga talmönster i AI-genererat tal, även om de inte kan specificera vad som verkar fel.
Vanliga tecken inkluderar:
- Slurring
- Brist på uttryck
- Bakgrunds- eller störningsljud
- Inkonsekvenser i rösten eller talet
- Brist på ”fullhet” i röster
- Överdrivet skriptad leverans
- Brist på brister (falskstarter, korrigeringar, halsrensning, etc.)
Återigen kan algoritmer också analysera tal för samma djupfalska signaler, men nya metoder gör verktyg mer effektiva. Forskning av USENIX identifierade mönster i rekonstruktion av AI-stämmor som misslyckas med att efterlikna naturligt tal. Den sammanfattar att AI-röstgeneratorer producerar ljudmatchande smala sångkanaler (ungefär storleken på ett sugrör) utan de naturliga rörelserna av mänskligt tal.
Tidigare forskning från Horst Görtz-institutet analyserade äkta och djupt falskt ljud på engelska och japanska, och avslöjade subtila skillnader i de högre frekvenserna av äkta tal och djupa falska.
Både röstkanalen och högfrekventa inkonsekvenser är märkbara för mänskliga lyssnare och AI-detektionsmodeller. När det gäller högfrekvensskillnader kan AI-modeller teoretiskt sett bli allt mer exakta – även om detsamma också kan sägas om AI-deepfakes.
Människor och algoritmer luras båda av Deepfakes, men på olika sätt
Studier tyder på att människor och de senaste verktygen för AI-detektion på liknande sätt kan identifiera djupförfalskningar. Framgångsfrekvensen kan variera mellan 50 % och 90+ %, beroende på testparametrarna.
I förlängningen luras också människor och maskiner av deepfakes i liknande utsträckning. Avgörande är dock att vi är mottagliga på olika sätt, och detta kan vara vår största tillgång för att hantera farorna med deepfake-teknik. Genom att kombinera styrkorna hos människor och verktyg för deepfake-detektion kommer att mildra svagheterna hos var och en och förbättra framgångsfrekvensen.
Till exempel, MIT forskning visade att människor var bättre på att identifiera djupa förfalskningar från världsledare och kända personer än AI-modeller. Det avslöjade också att AI-modellerna kämpade med bilder med flera personer, även om det föreslog att detta kunde bero på att algoritmer tränades på film med enstaka högtalare.
Omvänt fann samma studie att AI-modeller överträffade människor med bilder av låg kvalitet (suddig, kornig, mörk, etc.) som avsiktligt kunde användas för att lura mänskliga tittare. På samma sätt inkluderar nya AI-detektionsmetoder som att övervaka blodflödet i särskilda ansiktsregioner analyser som människor inte kan.
I takt med att fler metoder utvecklas kommer AI:s förmåga att upptäcka tecken som vi inte kan bara att förbättras, men även dess förmåga att lura. Den stora frågan är om deepfake-detekteringstekniken kommer att fortsätta att överträffa deepfakes själva.
Att se saker annorlunda i Deepfakes tidsålder
Deepfake-detekteringsverktyg för AI kommer att fortsätta att förbättras, liksom kvaliteten på själva deepfake-innehållet. Om AI:s förmåga att lura överträffar dess förmåga att upptäcka (som den har med AI-genererad text), kan mänskligt omdöme vara det enda verktyget vi har kvar för att bekämpa deepfakes.
Alla har ett ansvar att lära sig tecknen på deepfakes och hur man upptäcker dem. Förutom att skydda oss mot bedrägerier och säkerhetshot, är allt vi diskuterar och delar online sårbart för desinformation om vi tappar greppet om verkligheten.