Hur man blockerar AI Chatbots från att skrapa innehållet på din webbplats

Bekymrad över AI-chatbotar som skrapar din webbplats efter innehåll? Lyckligtvis kan du blockera dem från att göra det. Här är hur.

Som det ser ut har AI-chatbots en gratis licens att skrapa din webbplats och använda dess innehåll utan din tillåtelse. Är du orolig över att ditt innehåll skrapas av sådana verktyg?

Den goda nyheten är att du kan stoppa AI-verktyg från att komma åt din webbplats, men det finns några varningar. Här visar vi dig hur du blockerar bots med hjälp av robots.txt-filen för din webbplats, plus för- och nackdelar med att göra det.

Hur kommer AI Chatbots åt ditt webbinnehåll?

AI-chatbotar tränas med hjälp av flera datamängder, av vilka några är öppen källkod och är offentligt tillgängliga. Till exempel tränades GPT3 med hjälp av fem datauppsättningar, enligt en forskningsartikel publicerad av OpenAI:

Common Crawl (60 % vikt vid träning)
WebText2 (22 % vikt i träning)
Böcker1 (8 % vikt i träning)
Books2 (8 % vikt i träning)
Wikipedia (3% vikt i träning)

Vanlig krypning

instagram viewer

inkluderar petabyte (tusentals TB) med data från webbplatser som samlats in sedan 2008, på samma sätt som Googles sökalgoritm genomsöker webbinnehåll. WebText2 är en datauppsättning skapad av OpenAI, som innehåller ungefär 45 miljoner webbsidor länkade till från Reddit-inlägg med minst tre uppröster.

Så, i fallet med ChatGPT, kommer AI-boten inte åt och genomsöker dina webbsidor direkt – inte än i alla fall. Även om OpenAI's tillkännagivande av en ChatGPT-värd webbläsare har väckt oro för att detta kan vara på väg att ändras.

Under tiden bör webbplatsägare hålla ett öga på andra AI-chatbotar, eftersom fler av dem kommer ut på marknaden. Bard är det andra stora namnet på området, och mycket lite är känt om datauppsättningarna som används för att träna den. Uppenbarligen vet vi att Googles sökrobotar ständigt genomsöker webbsidor, men detta betyder inte nödvändigtvis att Bard har tillgång till samma data.

Varför är vissa webbplatsägare oroliga?

Det största bekymret för webbplatsägare är att AI-bots som ChatGPT, Bard och Bing Chat devalverar sitt innehåll. AI-bots använder befintligt innehåll för att generera sina svar, men minskar också behovet för användare att komma åt den ursprungliga källan. Istället för att användare besöker webbplatser för att komma åt information kan de helt enkelt få Google eller Bing att generera en sammanfattning av den information de behöver.

När det kommer till AI-chatbots i sökning är det stora problemet för webbplatsägare att förlora trafik. När det gäller Bard, AI-boten inkluderar sällan citat i sina generativa svar, talar om för användarna vilka sidor den får sin information från.

Så, förutom att ersätta webbplatsbesök med AI-svar, tar Bard bort nästan alla chanser att källwebbplatsen ska få trafik – även om användaren vill ha mer information. Bing Chat, å andra sidan, länkar oftare till informationskällor.

Med andra ord är den nuvarande flottan av generativa AI-verktyg med hjälp av innehållsskapares arbete att systematiskt ersätta behovet av innehållsskapare. I slutändan måste du fråga vilka incitament detta ger webbplatsägare för att fortsätta publicera innehåll. Och i förlängningen, vad händer med AI-bots när webbplatser slutar publicera innehållet som de litar på för att fungera?

Hur man blockerar AI-bots från din webbplats

Om du inte vill att AI-robotar använder ditt webbinnehåll kan du blockera dem från att komma åt din webbplats med hjälp av robots.txt fil. Tyvärr måste du blockera varje enskild bot och ange dem med namn.

Till exempel, Common Crawls bot kallas CCBot och du kan blockera den genom att lägga till följande kod i din robots.txt-fil:

Användaragent: CCBot
Disallow: /

Detta kommer att blockera Common Crawl från att genomsöka din webbplats i framtiden, men det tar inte bort all data som redan samlats in från tidigare genomsökningar.

Om du är orolig för att ChatGPT: s nya plugins kommer åt ditt webbinnehåll har OpenAI redan publicerat instruktioner för att blockera dess bot. I det här fallet heter ChatGPT: s bot ChatGPT-User och du kan blockera den genom att lägga till följande kod i din robots.txt-fil:

User-agent: ChatGPT-User
Disallow: /

Att blockera AI-robotar för sökmotorer från att genomsöka ditt innehåll är dock ett helt annat problem. Eftersom Google är mycket hemlighetsfull om träningsdatan den använder är det omöjligt att identifiera vilka bots du behöver blockera och om de ens kommer att respektera kommandon i din robots.txt fil (många sökrobotar gör det inte).

Hur effektiv är denna metod?

Blockera AI-bots i din robots.txt fil är den mest effektiva metoden som finns tillgänglig för närvarande, men den är inte särskilt tillförlitlig.

Det första problemet är att du måste specificera varje bot du vill blockera, men vem kan hålla reda på varje AI-bot som kommer ut på marknaden? Nästa fråga är att kommandon i din robots.txt filen är icke-obligatoriska instruktioner. Även om Common Crawl, ChatGPT och många andra bots respekterar dessa kommandon, gör många bots det inte.

Den andra stora varningen är att du bara kan blockera AI-bots från att utföra framtida genomsökningar. Du kan inte ta bort data från tidigare genomsökningar eller skicka förfrågningar till företag som OpenAI om att radera all din data.

Tyvärr finns det inget enkelt sätt att blockera alla AI-robotar från att komma åt din webbplats, och att manuellt blockera varje enskild bot är nästan omöjligt. Även om du håller dig uppdaterad med de senaste AI-botarna som roamar på nätet, finns det ingen garanti för att de alla kommer att följa kommandona i din robots.txt fil.

Den verkliga frågan här är om resultaten är värda ansträngningen, och det korta svaret är (nästan säkert) nej.

Det finns potentiella nackdelar med att blockera AI-bots från din webbplats också. Mest av allt kommer du inte att kunna samla in meningsfull data för att bevisa om verktyg som Bard gynnar eller skadar din sökmarknadsföringsstrategi.

Ja, du kan anta att brist på citat är skadligt, men du gissar bara om du saknar data eftersom du blockerade AI-bots från att komma åt ditt innehåll. Det var en liknande historia när Google först introducerade utvalda utdrag att söka.

För relevanta frågor visar Google ett utdrag av innehåll från webbsidor på resultatsidan som svarar på användarens fråga. Detta innebär att användare inte behöver klicka sig vidare till en webbplats för att få det svar de letar efter. Detta orsakade panik bland webbplatsägare och SEO-experter som förlitar sig på att generera trafik från sökfrågor.

Men den typ av frågor som utlöser utvalda utdrag är vanligtvis lågvärdiga sökningar som "vad är X" eller "hur är vädret i New York". Alla som vill ha djupgående information eller en omfattande väderrapport kommer fortfarande att klicka sig igenom, och de som inte vill var aldrig så värdefulla från början.

Du kanske upptäcker att det är en liknande historia med generativa AI-verktyg, men du behöver data för att bevisa det.

Rusa inte in i någonting

Webbplatsägare och utgivare är förståeligt nog oroade över AI-teknik och frustrerade över tanken på att bots använder sitt innehåll för att generera omedelbara svar. Detta är dock inte tiden för att skynda sig in i motoffensiva drag. AI-teknik är ett område som rör sig snabbt, och saker och ting kommer att fortsätta att utvecklas i snabb takt. Ta tillfället i akt att se hur saker och ting utspelar sig och analysera de potentiella hoten och möjligheterna som AI ger till bordet.

Det nuvarande systemet att förlita sig på innehållsskapares arbete för att ersätta dem är inte hållbart. Oavsett om företag som Google och OpenAI ändrar sitt tillvägagångssätt eller regeringar inför nya regler, måste något ge. Samtidigt blir de negativa konsekvenserna av AI-chatbotar för innehållsskapande alltmer uppenbara, vilket webbplatsägare och innehållsskapare kan använda till sin fördel.

About Technology - denizatm.com

Hur man blockerar AI Chatbots från att skrapa innehållet på din webbplats

Hur kommer AI Chatbots åt ditt webbinnehåll?

Varför är vissa webbplatsägare oroliga?

Hur man blockerar AI-bots från din webbplats

Hur effektiv är denna metod?

Rusa inte in i någonting

kategorier

Recent Post

Symantec erbjuder gratis föräldrakontroll för Android [Nyheter]

The New My Yahoo får en ny design som kommer att bli ett iGoogle-alternativ

Yahoo rör sig framåt på vägen med nya Yahoo-kartor