Vad är en Deepfake, och bör jag vara orolig?

Vi tenderar att lita på innehållet i video- och ljudinspelningar. Men med AI kan allas ansikte eller röst återskapas med precision. Produkten är en deepfake, en imitation som kan användas för memes, desinformation eller porr.

En titt på Nicholas Cage deepfakes eller Jordan Peeles deepfake PSA gör det klart att vi har att göra med märklig ny teknik. Dessa exempel, även om de är relativt ofarliga, väcker frågor om framtiden. Kan vi lita på video och ljud? Kan vi hålla människor ansvariga för deras handlingar på skärmen? Är vi redo för deepfakes?

Deepfakes är nya, lätta att göra och växer snabbt

Deepfake-tekniken är bara några år gammal, men den har redan exploderat till något som är både fängslande och oroande. Termen ”deepfake”, som myntades på en Reddit-tråd 2017, används för att beskriva återskapandet av en människas utseende eller röst genom artificiell intelligens. Överraskande nog kan nästan vem som helst skapa en deepfake med en taskig dator, lite mjukvara och några timmars arbete.

Tro det eller ej, bilden till vänster är deepfake.

Som med all ny teknik finns det viss förvirring kring deepfakes. ”Drunk Pelosi”-videon är ett utmärkt exempel på denna förvirring. Deepfakes är konstruerade av AI, och de är gjorda för att imitera människor. ”Dunk Pelosi”-videon, som har kallats en deepfake, är faktiskt bara en video av Nancy Pelosi som har varit saktade ner och tonhöjdskorrigerad för att lägga till en sluddrig taleffekt.

Det är också detta som skiljer deepfakery från till exempel CGI:n Carrie Fisher i Star Wars: Rogue One. Medan Disney spenderade massor av pengar på att studera Carrie Fishers ansikte och återskapa det för hand, kan en nörd med lite deepfake-programvara göra samma jobb gratis på en enda dag. AI gör jobbet otroligt enkelt, billigt och övertygande.

Hur man gör en Deepfake

Precis som en elev i ett klassrum måste AI ”lära sig” hur man utför sin avsedda uppgift. Den gör detta genom en process av brute-force trial and error, vanligtvis kallad maskininlärning eller djupinlärning. En AI som är designad för att slutföra den första nivån av Super Mario Bros, till exempel, kommer att spela spelet om och om igen tills det kommer på det bästa sättet att vinna. Personen som designar AI:n måste tillhandahålla lite data för att få saker igång, tillsammans med några ”regler” när saker går fel på vägen. Bortsett från det gör AI allt jobbet.

Detsamma gäller för deepfake ansiktsrekreation. Men att återskapa ansikten är naturligtvis inte detsamma som att slå ett tv-spel. Om vi skulle skapa en deepfake av Nicholas Cage som värd för Wendy Williams show, här är vad vi skulle behöva:

En destinationsvideo: Just nu fungerar deepfakes bäst med tydliga, rena destinationsvideor. Det är därför några av de mest övertygande deepfakes är av politiker; de tenderar att stå stilla på ett podium under konsekvent belysning. Så, vi behöver bara en video av Wendy som sitter stilla och pratar.
Två datauppsättningar: För att mun- och huvudrörelser ska se korrekta ut behöver vi en datauppsättning av Wendy Williams ansikte och en datauppsättning av Nicholas Cages ansikte. Om Wendy tittar åt höger behöver vi ett foto på Nicholas Cage som tittar åt höger. Om Wendy öppnar munnen behöver vi en bild på Cage som öppnar sin mun.

Efter det låter vi AI:n göra sitt jobb. Den försöker skapa deepfake om och om igen och lär sig av sina misstag på vägen. Enkelt, eller hur? Tja, en video av Cages ansikte på Wendy Williams