Varför ser vi inte lika många ChatGPT-jailbreaks längre?
Direkt efter lanseringen av ChatGPT, ville många användare utforska dess begränsningar och ”bryta sig ut” från de förutbestämda ramarna. Denna aktivitet, känd som ”jailbreaking”, innebar att man med olika metoder försökte få AI:n att agera utanför sina programmerade gränser. Resultaten var ofta oväntade och ibland riktigt underliga.
Sedan dess har OpenAI förbättrat ChatGPT:s säkerhet, vilket gör det betydligt svårare att genomföra dessa ”jailbreaks”. Det verkar till och med som att den här typen av aktivitet har minskat avsevärt, vilket har fått många att undra om jailbreaking fortfarande är möjligt.
Så, vad har egentligen hänt med alla dessa ChatGPT-jailbreaks?
1. Användarnas förmåga att skapa effektiva ”prompts” har ökat
Innan ChatGPT blev allmänt tillgängligt, var konversationer med AI en specialiserad aktivitet som huvudsakligen utfördes av forskare. De tidiga användarna saknade ofta kunskapen om hur man skapar effektiva instruktioner (”prompts”). Många valde då jailbreaking som en snabb och enkel metod för att få chatboten att göra det de önskade.
Idag ser situationen annorlunda ut. Förmågan att skapa bra ”prompts” har blivit en vanlig färdighet. Genom att experimentera och använda fritt tillgängliga guider har användarna utvecklat sina tekniker. Istället för att leta efter jailbreaks, använder de flesta nu strategier för att uppnå sina mål med hjälp av avancerade instruktioner.
2. Utvecklingen av ocensurerade chattbotar
Medan stora teknikföretag har skärpt innehållskontrollen på vanliga AI-chattbotar som ChatGPT, har mindre företag med fokus på vinst valt att släppa på begränsningarna. Det har skapat en efterfrågan på ocensurerade alternativ. Efter lite efterforskning kan man hitta många AI-chattbotsplattformar som erbjuder chattbotar som är villiga att göra nästan vad som helst.
Oavsett om det handlar om att skriva kriminalromaner, mörk humor eller skadlig programvara, så kan dessa ocensurerade chattbotar med tveksam moral göra det du önskar. Med tanke på dessa alternativ är det inte lika attraktivt att lägga tid och energi på att jailbreaka ChatGPT. Även om dessa alternativ inte nödvändigtvis är lika kraftfulla, kan de hantera många uppgifter. Exempel på populära plattformar är FlowGPT och Unhinged AI.
3. Jailbreaking har blivit svårare
Under ChatGPT:s första tid var jailbreaking så enkelt som att kopiera instruktioner från internet. Man kunde helt ändra ChatGPT:s personlighet med några rader text. Det var möjligt att omvandla chatboten till en ond skurk som lärde ut hur man tillverkar bomber eller en chattbot som svor utan begränsning. Det var en vild tid som resulterade i ökända jailbreaks som DAN (Do Anything Now). DAN var en uppsättning instruktioner som tvingade chatboten att göra vad som helst utan att neka. Chockerande nog fungerade dessa enkla knep.
Men dessa dagar är förbi. Dessa enkla instruktioner fungerar inte längre på ChatGPT. Jailbreaking kräver nu avancerade tekniker för att kringgå OpenAI:s robusta skyddsmekanismer. Eftersom jailbreaking har blivit så svårt, väljer de flesta användare att inte försöka. Den tidiga, öppna eran av ChatGPT är över. Att få chatboten att säga ett olämpligt ord kräver nu mycket ansträngning och expertis, vilket kanske inte är värt besväret.
4. Nyhetens behag har avtagit
En anledning till att många försökte jailbreaka ChatGPT var spänningen i att göra det. Det var underhållande att få AI:n att agera olämpligt, och gav ett visst skrytvärde. Även om det finns praktiska användningsområden för jailbreaks, var det för många mer en ”titta vad jag gjorde”-grej. Men med tiden har spänningen avtagit och med det har också intresset för att lägga tid på jailbreaks.
5. Jailbreaks åtgärdas snabbt
En vanlig praxis inom jailbreaking-communityn är att dela alla framgångsrika metoder när de upptäcks. Problemet är att när en metod blir känd, blir OpenAI ofta medveten om det och åtgärdar sårbarheten. Det innebär att jailbreaks slutar fungera innan många hinner prova dem.
Varje gång en användare mödosamt utvecklar ett nytt jailbreak, påskyndas dess bortgång genom att delas med andra. Det skapar en konflikt mellan att hålla jailbreaks aktiva, men hemliga, och att dela dem med andra. Därför väljer folk nuförtiden ofta att behålla sina jailbreaks för sig själva.
6. Ocensurerade lokala alternativ
Tillgången på lokala språkmodeller som kan köras på den egna datorn har också minskat intresset för ChatGPT-jailbreaks. Även om lokala LLM:er inte är helt ocensurerade, är många mindre begränsade och kan enkelt anpassas efter användarens önskemål. Därför är valet enkelt. Antingen kan man engagera sig i den eviga katt-och-råtta-leken där man letar efter sätt att lura chatboten, bara för att det ska åtgärdas, eller så kan man använda en lokal LLM som kan anpassas permanent.
Det finns en lång lista med kraftfulla ocensurerade LLM:er som kan användas på din egen dator. Några av de mest anmärkningsvärda är Llama 7B (ocensurerad), Zephyr 7B Alpha, Manticore 13B, Vicuna 13B och GPT-4-X-Alpaca.
7. Professionella jailbreakers säljer nu sina tjänster
Varför lägga ner värdefull tid på att utveckla jailbreaking-metoder om man inte får något för det? Nu säljer vissa proffs sina jailbreaks för vinst. Dessa professionella jailbreak-skapare designar specifika jailbreaks för olika uppgifter och säljer dem på marknadsplatser som PromptBase. Priserna varierar beroende på kapacitet, men det kan ligga mellan $2 och $15 per prompt. Komplexa flerstegsoperationer kan kosta betydligt mer.
Kan kampen mot jailbreaks slå tillbaka?
Jailbreaks har inte försvunnit helt, de har bara gått under jorden. OpenAI tjänar pengar på ChatGPT, vilket innebär att de har starka skäl att begränsa skadlig användning som kan påverka affärsmodellen. Det är troligt att den kommersiella aspekten påverkar deras aggressiva kamp mot jailbreaking.
OpenAI:s censur av ChatGPT möter dock allt mer kritik bland användarna. Vissa legitima användningsfall av AI-chattbotar är inte längre möjliga på grund av den strikta censuren. Medan ökad säkerhet skyddar mot skadlig användning, kan överdrivna restriktioner driva en del av ChatGPT-communityn till mindre censurerade alternativ.