Hur man blockerar OpenAIs sökrobotar från att skrapa din webbplats

Hur man blockerar OpenAIs sökrobotar från att skrapa din webbplats
Läsare som du hjälper till att stödja MUO. När du gör ett köp med hjälp av länkar på vår webbplats kan vi tjäna en affiliate-provision. Läs mer.

Medan användare älskar ChatGPT för den stora mängd information som det för närvarande har, kan detsamma inte sägas om webbplatsägare.





MUO Dagens video SCROLL FÖR ATT FORTSÄTTA MED INNEHÅLL

OpenAIs ChatGPT använder sökrobotar för att skrapa webbplatser, men om du är en webbplatsägare och du inte vill att OpenAIs sökrobot ska komma åt din webbplats, här är några saker du kan göra för att förhindra det.





Hur fungerar OpenAI Crawling?

A sökrobot (även känd som en spindel eller en sökmotorbot) är ett automatiserat program som söker igenom internet efter information. Den sammanställer sedan informationen på ett sätt som är lätt för din sökmotor att komma åt den.





Webbsökrobotar indexerar varje sida på alla relevanta webbadresser, vanligtvis med fokus på webbplatser som är mer relevanta för dina sökfrågor. Låt oss till exempel anta att du googlar ett visst Windows-fel. Webbsökroboten i din sökmotor kommer att skanna alla webbadresser från webbplatser som den anser vara mer auktoritativa i ämnet Windows-fel.

hur du dubbelstartar linux på mac

OpenAI:s webbsökare heter GPTBot, och enligt OpenAI:s dokumentation , att ge GPTBot tillgång till din webbplats kan hjälpa till att träna AI-modellen för att bli säkrare och mer exakt, och det kan till och med hjälpa till att utöka AI-modellens möjligheter.



Hur man förhindrar OpenAI från att genomsöka din webbplats

Liksom de flesta andra sökrobotar kan GPTBot blockeras från att komma åt din webbplats genom att ändra webbplatsens robots.txt protokoll (även känt som robotexkluderingsprotokollet). Denna .txt-fil finns på webbplatsens server och den styr hur sökrobotar och andra automatiserade program beter sig på din webbplats.

Här är en kort lista över vad robot.txt fil kan göra:





  • Det kan helt blockera GPTBot från att komma åt webbplatsen.
  • Det kan endast blockera vissa sidor från en URL från att nås av GPTBot.
  • Den kan berätta för GPTBot vilka länkar den kan följa och vilka den inte kan.

Så här kontrollerar du vad GPTBot kan göra på din webbplats:

Blockera helt och hållet GPTBot från att komma åt din webbplats

  1. Konfigurera filen robot.txt , och sedan redigera den med valfritt textredigeringsverktyg.
  2. Lägg till GPTBot till din webbplats robots.txt som följer:
 User-agent: GPTBot 
Disallow: /

Blockera endast vissa sidor från att nås av GPTBot

  1. Ställ in robot.txt fil och sedan redigera den med ditt föredragna textredigeringsverktyg.
  2. Lägg till GPTBot till din webbplats robots.txt som följer:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Kom dock ihåg att ändra robot.txt fil är inte en retroaktiv lösning, och all information som GPTBot redan kan ha samlat in från din webbplats kommer inte att kunna återställas.





OpenAI tillåter webbplatsägare att välja bort genomsökning

Ända sedan sökrobotar har använts för att träna AI-modeller har webbplatsägare letat efter sätt att hålla sin data privat.

Vissa fruktar att AI-modeller i princip stjäl deras arbete, och tillskriver till och med färre webbplatsbesök till det faktum att nu användare får sin information utan att någonsin behöva besöka deras webbplatser.

Allt som allt, om du helt vill blockera AI-chatbots från att skanna dina webbplatser är helt ditt val.