Innehållsförteckning
Viktiga takeaways
- AI-prompt-injektionsattacker manipulerar AI-modeller för att generera skadlig utdata, vilket potentiellt leder till nätfiskeattacker.
- Snabba injektionsattacker kan utföras genom DAN-attacker (Do Anything Now) och indirekta injektionsattacker, vilket ökar AI:s kapacitet för missbruk.
- Indirekta snabba injektionsattacker utgör den största risken för användarna, eftersom de kan manipulera svaren från pålitliga AI-modeller.
AI snabba injektionsattacker förgiftar resultatet från de AI-verktyg du litar på, ändrar och manipulerar dess utdata till något skadligt. Men hur fungerar en AI-prompt injektionsattack, och hur kan du skydda dig själv?
Vad är en AI Prompt Injection Attack?
AI snabba injektionsattacker drar fördel av generativa AI-modellers sårbarheter för att manipulera deras produktion. De kan utföras av dig eller injiceras av en extern användare genom en indirekt snabb injektionsattack. DAN-attacker (Do Anything Now) utgör ingen risk för dig, slutanvändaren, men andra attacker är teoretiskt kapabla att förgifta resultatet du får från generativ AI.
Till exempel kan någon manipulera AI:n för att instruera dig att ange ditt användarnamn och lösenord i en olaglig form, med hjälp av AI:s auktoritet och trovärdighet för att få en nätfiskeattack att lyckas. Teoretiskt sett kan autonom AI (som att läsa och svara på meddelanden) också ta emot och agera på oönskade externa instruktioner.
Hur fungerar snabba injektionsattacker?
Snabba injektionsattacker fungerar genom att mata ytterligare instruktioner till en AI utan medgivande eller vetskap från användaren. Hackare kan åstadkomma detta på några sätt, inklusive DAN-attacker och indirekta snabba injektionsattacker.
DAN (Do Anything Now) Attacker
DAN-attacker (Do Anything Now) är en typ av snabba injektionsattacker som involverar ”jailbreaking” generativa AI-modeller som ChatGPT. Dessa jailbreaking-attacker utgör ingen risk för dig som slutanvändare – men de breddar kapaciteten hos AI, vilket gör att den kan bli ett verktyg för missbruk.
Till exempel säkerhetsforskare Alejandro Vidal använde en DAN-prompt för att få OpenAI:s GPT-4 att generera Python-kod för en keylogger. Om den används med uppsåt, sänker jailbreakad AI avsevärt de kompetensbaserade barriärerna förknippade med cyberbrottslighet och kan göra det möjligt för nya hackare att göra mer sofistikerade attacker.
Träningsdata Förgiftningsattacker
Träningsdataförgiftningsattacker kan inte exakt kategoriseras som snabba injektionsattacker, men de har anmärkningsvärda likheter när det gäller hur de fungerar och vilka risker de utgör för användarna. Till skillnad från snabba injektionsattacker är förgiftningsattacker med träningsdata en typ av motstridiga attacker mot maskininlärning som inträffar när en hackare modifierar träningsdata som används av en AI-modell. Samma resultat inträffar: förgiftad produktion och modifierat beteende.
De potentiella tillämpningarna för att träna dataförgiftningsattacker är praktiskt taget obegränsade. Till exempel kan en AI som används för att filtrera nätfiskeförsök från en chatt- eller e-postplattform teoretiskt få sina träningsdata modifierade. Om hackare lärde AI-moderatorn att vissa typer av nätfiskeförsök var acceptabla, kunde de skicka nätfiskemeddelanden medan de förblev oupptäckta.
Att träna dataförgiftningsattacker kan inte skada dig direkt men kan göra andra hot möjliga. Om du vill skydda dig mot dessa attacker, kom ihåg att AI inte är idiotsäker och att du bör granska allt du stöter på online.
Indirekta snabba injektionsattacker
Indirekta snabba injektionsattacker är den typ av snabba injektionsattacker som utgör den största risken för dig, slutanvändaren. Dessa attacker inträffar när skadliga instruktioner matas till den generativa AI:n av en extern resurs, till exempel ett API-anrop, innan du får din önskade input.
Grekshake/GitHub
En artikel med titeln Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection on arXiv [PDF] demonstrerade en teoretisk attack där AI:n kunde instrueras att övertala användaren att registrera sig för en nätfiskewebbplats i svaret, med hjälp av dold text (osynlig för det mänskliga ögat men perfekt läsbar för en AI-modell) för att injicera informationen smygande. En annan attack av samma forskargrupp dokumenterad på GitHub visade en attack där Copilot (tidigare Bing Chat) gjordes för att övertyga en användare att det var en live supportagent som sökte kreditkortsinformation.
Indirekta snabba injektionsattacker är hotfulla eftersom de kan manipulera svaren du får från en pålitlig AI-modell – men det är inte det enda hotet de utgör. Som nämnts tidigare kan de också orsaka att alla autonoma AI du kan använda agerar på oväntade – och potentiellt skadliga – sätt.
Är AI snabba injektionsattacker ett hot?
AI prompt injektionsattacker är ett hot, men det är inte exakt känt hur dessa sårbarheter kan utnyttjas. Det finns inga kända framgångsrika AI-injektionsattacker, och många av de kända försöken utfördes av forskare som inte hade någon egentlig avsikt att göra skada. Men många AI-forskare anser att attacker med snabba injektioner av AI är en av de mest skrämmande utmaningarna för att säkert implementera AI.
Dessutom har hotet om AI snabba injektionsattacker inte gått obemärkt förbi av myndigheterna. Enligt Washington Post, i juli 2023 undersökte Federal Trade Commission OpenAI och sökte mer information om kända förekomster av snabba injektionsattacker. Inga attacker är kända för att ha lyckats ännu utöver experiment, men det kommer sannolikt att ändras.
Hackare söker ständigt efter nya medier, och vi kan bara gissa hur hackare kommer att använda snabba injektionsattacker i framtiden. Du kan skydda dig själv genom att alltid tillämpa en sund mängd granskning av AI. I det är AI-modeller otroligt användbara, men det är viktigt att komma ihåg att du har något som AI inte har: mänskligt omdöme. Kom ihåg att du bör granska resultatet du får från verktyg som Copilot noggrant och njuta av att använda AI-verktyg när de utvecklas och förbättras.