GPTBot är förmodligen inte vad du tror.

Viktiga takeaways

  • OpenAIs GPTBot är en sökrobot designad för att samla in data från offentliga webbplatser, som sedan används för att träna och förbättra AI-modeller som GPT-4 och ChatGPT.
  • Några av de största webbplatserna på internet blockerar GPTBot eftersom den får åtkomst till och använder upphovsrättsskyddat innehåll utan tillstånd eller kompensation till skaparna.
  • Även om webbplatser kan använda verktyg som robots.txt för att försöka blockera GPTBot, finns det inga garantier för att OpenAI kommer att följa, vilket ger dem kontroll över åtkomst till upphovsrättsskyddad data.

I augusti 2023 tillkännagav OpenAI, AI-kraftverket som är krediterat för att utveckla ChatGPT, GPTBot, en sökrobot designad för att gå igenom webben och samla in data.

Inte långt efter det tillkännagivandet blockerade några av de största webbplatserna på internet boten från att komma åt deras webbplats. Men varför? Vad är OpenAIs GPTBot? Varför är de stora webbplatserna rädda för det, och varför försöker de blockera det?

instagram viewer

Vad är OpenAIs GPTBot?

GPTBot är en sökrobot skapad av OpenAI för att söka på internet och samla information för OpenAIs AI-utvecklingsmål. Den är programmerad att genomsöka offentliga webbplatser och skicka tillbaka data till OpenAI: s servrar. OpenAI använder sedan denna data för att träna och förbättra sina AI-modeller, med målet att bygga allt mer avancerade artificiell intelligenssystem. För att bygga sofistikerade AI-modeller som GPT-4 eller dess underordnade produkter som ChatGPT är webbsökare nästan oumbärliga.

Att träna en AI-modell kräver en enorm mängd data, och ett av de mest effektiva sätten att samla in denna data är genom att implementera verktyg som sökrobotar. Sökrobotar kan systematiskt surfa på webben, följa länkar för att indexera stora volymer webbsidor och extrahera nyckeldata som text, bilder och metadata som matchar ett fördefinierat mönster.

Dessa data kan sedan struktureras och matas in i AI-modeller för att träna deras naturliga språkbehandlingsförmåga eller bildgenereringsförmåga eller träna dem för andra AI-uppgifter. Med ord, sökrobotar samlar in data som gör det möjligt för verktyg som ChatGPT eller DALL-E att göra vad de gör.

Webbsökrobotar är inget nytt koncept. Det finns förmodligen miljontals av dem som genomsöker de miljarder webbplatser som finns tillgängliga på internet idag. Och de har funnits sedan åtminstone tidigt 90-tal. GPTBot är bara en av sådana sökrobotar som ägs av OpenAI. Så vad är det som orsakar kontroversen kring just den här sökroboten?

Varför blockerar stora tekniska webbplatser GPTBot?

Enligt Business Insider, blockerar några av de största webbplatserna på internet aktivt OpenAI: s sökrobot på sin webbplats. Så om det slutliga målet för GPTBot är att främja AI-utveckling, varför är några av de största sajterna på internet, av vilka några har gynnats på ett eller annat sätt av AI, emot det?

Tja, här är grejen. Sedan 2022 återuppstod generativ AI-teknik har det förekommit många debatter om AI-företags rätt att använda, nästan utan begränsningar, data hämtade från internet, varav en betydande del är juridiskt skyddad av upphovsrätt. Inga tydliga lagar styr hur dessa företag samlar in och använder data för egen vinning.

Så i grund och botten genomsöker sökrobotar som GPTBot webben, tar tag i människors kreativa arbete i form av text, bilder eller andra former av media och använda den för kommersiella ändamål utan att erhålla något tillstånd, licensiering eller ge ersättning till originalet skapare.

Det är ett vilda västern där ute, och AI-företag tar tag i allt de kan få tag på. Stora webbplatser som Quora, CNN, New York Times, Business Insider och Amazon är inte särskilt nöjda med att deras upphovsrättsskyddat innehåll skördas av dessa sökrobotar, så OpenAI kan få ekonomisk nytta av det hos dem bekostnad.

Det är därför dessa webbplatser använder "robots.txt", en decennier gammal metod för att blockera sökrobotar. Enligt OpenAI, kommer GPTBot att följa instruktionerna för att genomsöka eller undvika att genomsöka webbplatser baserat på reglerna inbäddade i robots.txt, en liten textfil som talar om för webbsökare hur de ska bete sig på en webbplats. Om du har en egen webbplats och skulle älska att hindra GPTBot från att ta tag i dina data, så här kan du blockera OpenAI: s sökrobotar från att skrapa din webbplats.

Kan webbplatser verkligen stoppa GPTBot?

Medan sökrobotar som GPTBot är oumbärliga för att samla in de enorma mängder data som krävs för att träna avancerade AI-system finns det giltiga farhågor kring upphovsrätt och rättvis användning som inte kan vara det ignoreras.

Visst, det finns enkla verktyg som robots.txt som kan användas för att skydda sig mot detta, men huruvida GPTBot följer instruktionerna i den här filen är helt upp till OpenAI: s gottfinnande. Det finns inga garantier för att de kommer att göra det, och det finns inget omedelbart idiotsäkert sätt att avgöra om de har gjort det. I kampen för att hålla GPTBot borta från upphovsrättsskyddad data håller OpenAI essarna, åtminstone för nu.