Avslöjar din chatbot för mycket? Neural Network Model Inversion Attacker förklaras

Viktiga takeaways

  • Inversionsattacker för neurala nätverksmodeller använder AI-chatbots för att avslöja och rekonstruera personlig information från digitala fotspår.
  • Hackare skapar inversionsmodeller som förutsäger indata baserat på utdata från ett neuralt nätverk och avslöjar känslig data.
  • Tekniker som differentiell integritet, flerpartsberäkning och federerad inlärning kan hjälpa till att skydda mot inversionsattacker, men det är en kontinuerlig kamp. Användare bör vara selektiva deltagare, hålla programvaran uppdaterad och vara försiktig med att tillhandahålla personlig information.

Föreställ dig att du är på en restaurang och precis har smakat den bästa kakan du någonsin ätit. Tillbaka i ditt hem är du fast besluten att återskapa detta kulinariska mästerverk. Istället för att fråga efter receptet litar du på dina smaklökar och kunskap för att dekonstruera efterrätten och piska ihop din egen.

Tänk om någon kunde göra det med din personliga information? Någon smakar på det digitala fotavtryck du lämnar efter dig och rekonstruerar dina privata detaljer.

Det är kärnan i en neural nätverksmodellinversionsattack, en teknik som kan förvandla en AI-chatbot till ett cybersökverktyg.

Förstå Neural Network Model Inversion Attacks

Ett neuralt nätverk är ”hjärnan” bakom modern artificiell intelligens (AI). De är ansvariga för den imponerande funktionaliteten bakom röstigenkänning, humaniserade chatbots och generativ AI.

Neurala nätverk är i huvudsak en serie algoritmer utformade för att känna igen mönster, tänka och till och med lära sig som en mänsklig hjärna. De gör det i en skala och hastighet som vida överträffar våra organiska kapaciteter.

AI:s hemligheters bok

Precis som vår mänskliga hjärna kan neurala nätverk dölja hemligheter. Dessa hemligheter är de uppgifter som dess användare har matat dem. I en modellinversionsattack använder en hackare utdata från ett neuralt nätverk (som svaren från en chatbot) för att omvända manipulera ingångarna (informationen du har tillhandahållit).

För att utföra attacken använder hackare sin egen maskininlärningsmodell som kallas en ”inversionsmodell”. Denna modell är designad för att vara en slags spegelbild, tränad inte på originaldata utan på utdata som genereras av målet.

Syftet med denna inversionsmodell är att förutsäga ingångarna – den ursprungliga, ofta känsliga data som du har matat in i chatboten.

Skapa inversionsmodellen

Att skapa inversionen kan ses som att rekonstruera ett strimlat dokument. Men istället för att sätta ihop pappersremsor, är det att sätta ihop historien som berättas till målmodellens svar.

Inversionsmodellen lär sig språket för det neurala nätverkets utsignaler. Den letar efter tydliga tecken som med tiden avslöjar typen av ingångar. Med varje ny bit av data och varje svar den analyserar, förutsäger den bättre informationen du tillhandahåller.

Denna process är en konstant cykel av hypoteser och tester. Med tillräckligt många utdata kan inversionsmodellen korrekt härleda en detaljerad profil av dig, även från de mest ofarliga data.

Inversionsmodellens process är ett spel för att koppla ihop prickarna. Varje bit data som läcker genom interaktionen tillåter modellen att bilda en profil, och med tillräckligt med tid blir profilen den bildar oväntat detaljerad.

Så småningom avslöjas insikter om användarens aktiviteter, preferenser och identitet. Insikter som inte var avsedda att avslöjas eller offentliggöras.

Vad gör det möjligt?

Inom neurala nätverk är varje fråga och svar en datapunkt. Skickliga angripare använder avancerade statistiska metoder för att analysera dessa datapunkter och söka korrelationer och mönster som är omärkliga för mänsklig förståelse.

Tekniker som regressionsanalys (undersöker sambandet mellan två variabler) för att förutsäga värdena för indata baserat på utdata du får.

Hackare använder maskininlärningsalgoritmer i sina egna inversionsmodeller för att förfina sina förutsägelser. De tar utdata från chatboten och matar in dem i sina algoritmer för att träna dem att approximera den omvända funktionen hos målneurala nätverket.

Förenklat hänvisar ”omvänd funktion” till hur hackarna vänder dataflödet från utdata till input. Målet för angriparen är att träna sina inversionsmodeller för att utföra den motsatta uppgiften av det ursprungliga neurala nätverket.

I grund och botten är det så här de skapar en modell som, givet enbart output, försöker beräkna vad input måste ha varit.

Hur inversionsattacker kan användas mot dig

Föreställ dig att du använder ett populärt hälsobedömningsverktyg online. Du skriver in dina symtom, tidigare tillstånd, kostvanor och till och med droganvändning för att få en inblick i ditt välbefinnande.

Det är känslig och personlig information.

Med en inversionsattack riktad mot AI-systemet du använder, kan en hackare kanske ta till sig de allmänna råden som chatboten ger dig och använda dem för att härleda din privata medicinska historia. Till exempel kan ett svar från chatboten vara något så här:

Antinukleär antikropp (ANA) kan användas för att indikera närvaron av autoimmuna sjukdomar som lupus.

Inversionsmodellen kan förutsäga att målanvändaren ställde frågor relaterade till ett autoimmunt tillstånd. Med mer information och fler svar kan hackarna dra slutsatsen att målet har ett allvarligt hälsotillstånd. Plötsligt blir det användbara onlineverktyget ett digitalt titthål i din personliga hälsa.

Vad kan man göra åt inversionsattacker?

Kan vi bygga ett fort kring våra personuppgifter? Tja, det är komplicerat. Utvecklare av neurala nätverk kan göra det svårare att utföra inversionsmodellattacker genom att lägga till lager av säkerhet och dölja hur de fungerar. Här är några exempel på tekniker som används för att skydda användare:

  • Differentiell sekretess: Detta säkerställer att AI-utgångar är tillräckligt ”brusiga” för att maskera enskilda datapunkter. Det är lite som att viska i en folkmassa – dina ord går förlorade i det kollektiva pladderet från omgivningen.
  • Multi-Party Computation: Denna teknik är som ett team som arbetar på ett konfidentiellt projekt genom att bara dela resultaten av sina individuella uppgifter, inte de känsliga detaljerna. Det gör det möjligt för flera system att behandla data tillsammans utan att exponera enskilda användardata för nätverket – eller varandra.
  • Federated Learning: Innebär att träna en AI över flera enheter, samtidigt som den enskilda användarens data hålls lokal. Det är lite som en kör som sjunger tillsammans; du kan höra varje röst, men ingen enskild röst kan isoleras eller identifieras.

Även om dessa lösningar till stor del är effektiva, är skydd mot inversionsattacker ett katt-och-råtta-spel. När försvaret förbättras, blir teknikerna för att kringgå dem också. Ansvaret faller alltså på de företag och utvecklare som samlar in och lagrar vår data, men det finns sätt du kan skydda dig själv.

Hur du skyddar dig mot inversionsattacker

Bildkredit: Mike MacKenzie/Flickr

Relativt sett är neurala nätverk och AI-teknik fortfarande i sin linda. Tills systemen är idiotsäkra, åligger användaren att vara den första försvarslinjen när de skyddar din data.

Här är några tips om hur du kan minska risken att bli offer för en inversionsattack:

  • Var en selektiv deltagare: Behandla din personliga information som ett hemligt familjerecept. Var selektiv med vem du delar den med, särskilt när du fyller i formulär online och interagerar med chatbots. Ifrågasätt nödvändigheten av varje del av data som efterfrågas av dig. Om du inte skulle dela informationen med en främling, dela den inte med en chatbot.
  • Håll programvaran uppdaterad: Uppdateringar av front-end-programvara, webbläsare och till och med ditt operativsystem är utformade för att hålla dig säker. Medan utvecklare är upptagna med att skydda de neurala nätverken kan du också minska risken för dataavlyssning genom att regelbundet använda patchar och uppdateringar.
  • Håll personlig information personlig: Närhelst en applikation eller chatbot begär personlig information, pausa och överväg avsikten. Om den begärda informationen verkar irrelevant för den tillhandahållna tjänsten är det troligen det.

Du skulle inte ge känslig information som hälsa, ekonomi eller identitet till en ny bekantskap bara för att de sa att de krävde det. På samma sätt kan du mäta vilken information som verkligen är nödvändig för att en applikation ska fungera och välja bort att dela mer.

Skydda vår personliga information i AI-åldern

Vår personliga information är vår mest värdefulla tillgång. Att bevaka den kräver vaksamhet, både i hur vi väljer att dela information och i att utveckla säkerhetsåtgärder för de tjänster vi använder.

Medvetenhet om dessa hot och att vidta åtgärder som de som beskrivs i den här artikeln bidrar till ett starkare försvar mot dessa till synes osynliga attackvektorer.

Låt oss satsa på en framtid där vår privata information förblir just det: privat.