Hur man blockerar OpenAIs sökrobotar från att skrapa din webbplats

Medan användare älskar ChatGPT för den stora mängd information som det för närvarande har, kan detsamma inte sägas om webbplatsägare.

OpenAIs ChatGPT använder sökrobotar för att skrapa webbplatser, men om du är en webbplatsägare och du inte vill att OpenAIs sökrobot ska komma åt din webbplats, här är några saker du kan göra för att förhindra det.

Hur fungerar OpenAI Crawling?

En sökrobot (även känd som en spindel eller en sökmotorbot) är ett automatiserat program som söker igenom internet efter information. Den sammanställer sedan informationen på ett sätt som är lätt för din sökmotor att komma åt den.

Webbsökrobotar indexerar varje sida på alla relevanta webbadresser, vanligtvis med fokus på webbplatser som är mer relevanta för dina sökfrågor. Låt oss till exempel anta att du googlar ett visst Windows-fel. Webbsökroboten i din sökmotor kommer att skanna alla webbadresser från webbplatser som den anser vara mer auktoritativa i ämnet Windows-fel.

OpenAI:s webbsökare heter GPTBot, och enligt OpenAI:s dokumentationatt ge GPTBot tillgång till din webbplats kan hjälpa till att träna AI-modellen för att bli säkrare och mer exakt, och det kan till och med hjälpa till att utöka AI-modellens möjligheter.

Hur man förhindrar OpenAI från att genomsöka din webbplats

Liksom de flesta andra sökrobotar kan GPTBot blockeras från att komma åt din webbplats genom att ändra webbplatsens robots.txt-protokoll (även känt som protokollet för uteslutning av robotar). Denna .txt-fil finns på webbplatsens server och den styr hur sökrobotar och andra automatiserade program beter sig på din webbplats.

Här är en kort lista över vad robot.txt-filen kan göra:

  • Det kan helt blockera GPTBot från att komma åt webbplatsen.
  • Det kan endast blockera vissa sidor från en URL från att nås av GPTBot.
  • Den kan berätta för GPTBot vilka länkar den kan följa och vilka den inte kan.

Så här kontrollerar du vad GPTBot kan göra på din webbplats:

Blockera helt och hållet GPTBot från att komma åt din webbplats

  • Ställ in robot.txt-filen och redigera den sedan med valfritt textredigeringsverktyg.
  • Lägg till GPTBot till din webbplats robots.txt enligt följande:
  •  User-agent: GPTBot
    Disallow: /

    Blockera endast vissa sidor från att nås av GPTBot

  • Ställ in robot.txt-filen och redigera den sedan med ditt föredragna textredigeringsverktyg.
  • Lägg till GPTBot till din webbplats robots.txt enligt följande:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Kom dock ihåg att att ändra robot.txt-filen inte är en retroaktiv lösning, och all information som GPTBot kan ha samlat in från din webbplats kommer inte att kunna återställas.

    OpenAI tillåter webbplatsägare att välja bort genomsökning

    Ända sedan sökrobotar har använts för att träna AI-modeller har webbplatsägare letat efter sätt att hålla sin data privat.

    Vissa fruktar att AI-modeller i princip stjäl deras arbete, och tillskriver till och med färre webbplatsbesök till det faktum att nu användare får sin information utan att någonsin behöva besöka deras webbplatser.

    Allt som allt, om du helt vill blockera AI-chatbots från att skanna dina webbplatser är helt ditt val.