Hur man ställer in Robots.txt på rätt sätt för din webbplats

Annons

Om du driva en webbplats 10 sätt att skapa en liten och enkel webbplats utan överdriftWordPress kan vara en överdrift. Som dessa andra utmärkta tjänster bevisar, är WordPress inte allt för att skapa webbplatser. Vill du ha enklare lösningar finns det en mängd att välja på. Läs mer , du har förmodligen hört talas om en robots.txt-fil (eller "robotexkluderingsstandarden"). Oavsett om du har det eller inte, är det dags att lära dig mer om det, eftersom denna enkla textfil är en avgörande del av din webbplats. Det kan tyckas obetydligt, men du kan bli förvånad över hur viktigt det är.

Låt oss ta en titt på vad en robots.txt-fil är, vad den gör och hur du ställer in den på rätt sätt för din webbplats.

Vad är en robots.txt-fil?

För att förstå hur en robots.txt-fil fungerar måste du veta lite om sökmotorer Hur fungerar sökmotorer?För många människor är Google internet. Det är utan tvekan den viktigaste uppfinningen sedan själva Internet. Och även om sökmotorerna har förändrats mycket sedan dess, är de underliggande principerna fortfarande desamma. Läs mer

instagram viewer

. Den korta versionen är att de skickar ut "crawlers", som är program som letar igenom internet efter information. De lagrar sedan en del av den informationen så att de kan dirigera folk till den senare.

Dessa sökrobotar, även kända som "bots" eller "spindlar", hittar sidor från miljarder webbplatser. Sökmotorer ger dem anvisningar om vart de ska gå, men enskilda webbplatser kan också kommunicera med botarna och tala om för dem vilka sidor de ska titta på.

För det mesta gör de faktiskt tvärtom och berättar för dem vilka sidor de borde inte titta på. Saker som administrativa sidor, backend-portaler, kategori- och taggsidor och andra saker som webbplatsägare inte vill ska visas på sökmotorer. Dessa sidor är fortfarande synliga för användare, och de är tillgängliga för alla som har behörighet (vilket ofta är alla).

Men genom att säga åt dessa spindlar att inte indexera vissa sidor gör robots.txt-filen alla en tjänst. Om du sökte efter "MakeUseOf" på en sökmotor, skulle du vilja att våra administrativa sidor skulle hamna högt upp i rankingen? Nej. Det skulle inte göra någon nytta, så vi säger åt sökmotorer att inte visa dem. Det kan också användas för att hindra sökmotorer från att kolla in sidor som kanske inte hjälper dem att klassificera din webbplats i sökresultat.

Kort sagt, robots.txt talar om för sökrobotar vad de ska göra.

Kan sökrobotar ignorera robots.txt?

Ignorerar sökrobotar någonsin robots.txt-filer? Ja. Faktum är att många sökrobotar do ignorera det. I allmänhet kommer dessa sökrobotar dock inte från välrenommerade sökmotorer. De kommer från spammare, e-postskördare och andra typer av automatiserade bots Hur man bygger en grundläggande webbsökrobot för att hämta information från en webbplatsHar du någonsin velat fånga information från en webbplats? Så här skriver du en sökrobot för att navigera på en webbplats och extrahera det du behöver. Läs mer som strövar runt på internet. Det är viktigt att ha detta i åtanke - Att använda standarden för uteslutning av robotar för att säga åt bots att hålla sig utanför är inte en effektiv säkerhetsåtgärd. Faktum är att vissa bots kanske Start med sidorna du säger åt dem att inte gå till.

Sökmotorer kommer dock att göra som din robots.txt-fil säger så länge den är korrekt formaterad.

Hur man skriver en robots.txt-fil

Det finns några olika delar som ingår i en standardfil för uteslutning av robotar. Jag kommer att dela upp dem var för sig här.

Användaragentdeklaration

Innan du berättar för en bot vilka sidor den inte ska titta på måste du ange vilken bot du pratar med. För det mesta använder du en enkel deklaration som betyder "alla bots". Det ser ut så här:

Användaragent: *

Asterisken står för "alla bots". Du kan dock ange sidor för vissa bots. För att göra det måste du känna till namnet på boten du lägger ut riktlinjer för. Det kan se ut så här:

Användaragent: Googlebot. [lista över sidor som inte ska genomsökas] Användaragent: Googlebot-Image/1.0. [lista över sidor som inte ska genomsökas] Användaragent: Bingbot. [lista över sidor som inte ska genomsökas]

Och så vidare. Om du upptäcker en bot som du inte vill ska genomsöka din webbplats alls, kan du ange det också.

För att hitta namnen på användaragenter, kolla in useragentstring.com [Inte längre tillgänglig].

Inte tillåta sidor

Detta är huvuddelen av din robotundantagsfil. Med en enkel deklaration säger du till en bot eller en grupp av botar att inte genomsöka vissa sidor. Syntaxen är enkel. Så här skulle du inte tillåta åtkomst till allt i "admin"-katalogen på din webbplats:

Disallow: /admin/

Den raden skulle hindra bots från att genomsöka yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html och allt annat som faller under admin-katalogen.

För att inte tillåta en enskild sida, specificera bara den på raden förbjuda:

Disallow: /public/exception.html

Nu kommer inte "undantag"-sidan att dras, men allt annat i den "offentliga" mappen kommer att göra det.

För att inkludera flera kataloger eller sidor, lista dem bara på efterföljande rader:

Disallow: /privat/ Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /temp/

Dessa fyra rader kommer att gälla för vilken användaragent du än angav överst i avsnittet.

Om du vill hindra bots från att titta på någon sida på din webbplats, använd detta:

Disallow: /

Ställer in olika standarder för bots

Som vi såg ovan kan du ange vissa sidor för olika botar. Genom att kombinera de två föregående elementen, så ser det ut så här:

Användaragent: googlebot. Disallow: /admin/ Disallow: /privat/ Användaragent: bingbot. Disallow: /admin/ Disallow: /privat/ Disallow: /hemlig/

Avsnitten "admin" och "privata" kommer att vara osynliga på Google och Bing, men Google kommer att se den "hemliga" katalogen, medan Bing inte kommer att se det.

Du kan ange allmänna regler för alla botar genom att använda asterisk-användaragenten och sedan ge specifika instruktioner till bots även i efterföljande avsnitt.

Få alltid att falla på plats

Med kunskapen ovan kan du skriva en komplett robots.txt-fil. Starta bara din favorittextredigerare (vi är fans av Sublime 11 sublima texttips för produktivitet och ett snabbare arbetsflödeSublime Text är en mångsidig textredigerare och en guldstandard för många programmerare. Våra tips fokuserar på effektiv kodning, men allmänna användare kommer att uppskatta kortkommandon. Läs mer runt här) och börja låta bots veta att de inte är välkomna på vissa delar av din webbplats.

Om du vill se ett exempel på en robots.txt-fil går du bara till valfri webbplats och lägger till "/robots.txt" i slutet. Här är en del av Giant Bicycles robots.txt-filen:

Som du kan se finns det en hel del sidor som de inte vill ska visas på sökmotorer. De har också inkluderat några saker som vi inte har pratat om ännu. Låt oss ta en titt på vad mer du kan göra i din uteslutningsfil för robotar.

Hitta din webbplatskarta

Om din robots.txt-fil talar om för bots var inte att gå, din sitemap gör tvärtom Hur man skapar en XML-webbplatskarta i 4 enkla stegDet finns två typer av webbplatskartor - HTML-sida eller en XML-fil. En HTML-webbplatskarta är en enda sida som visar besökarnas alla sidor på en webbplats och som vanligtvis har länkar till dessa... Läs mer och hjälper dem att hitta det de letar efter. Och även om sökmotorer förmodligen redan vet var din webbplatskarta är, skadar det inte att låta dem veta igen.

Deklarationen för en platskarta är enkel:

Webbplatskarta: [webbadress till webbplatskarta]

Det är allt.

I vår egen robots.txt-fil ser det ut så här:

Webbplatskarta: //www.makeuseof.com/sitemap_index.xml

Det är allt som finns.

Ställa in en genomsökningsfördröjning

Genomsökningsfördröjningsdirektivet talar om för vissa sökmotorer hur ofta de kan indexera en sida på din webbplats. Det mäts i sekunder, även om vissa sökmotorer tolkar det lite annorlunda. Vissa ser en genomsökningsfördröjning på 5 som säger åt dem att vänta fem sekunder efter varje genomsökning för att påbörja nästa. Andra tolkar det som en instruktion att bara genomsöka en sida var femte sekund.

Varför skulle du säga åt en sökrobot att inte krypa så mycket som möjligt? Till bevara bandbredd 4 sätt Windows 10 slösar din Internetbandbredd påSlösar Windows 10 din internetbandbredd? Så här kontrollerar du och vad du kan göra för att stoppa det. Läs mer . Om din server kämpar för att hänga med i trafiken kanske du vill införa en genomsökningsfördröjning. I allmänhet behöver de flesta människor inte oroa sig för detta. Stora webbplatser med hög trafik kanske vill experimentera lite.

Så här ställer du in en genomsökningsfördröjning på åtta sekunder:

Crawl-fördröjning: 8

Det är allt. Alla sökmotorer följer inte ditt direktiv. Men det skadar inte att fråga. Precis som med att inte tillåta sidor kan du ställa in olika genomsökningsfördröjningar för specifika sökmotorer.

Ladda upp din robots.txt-fil

När du har ställt in alla instruktioner i din fil kan du ladda upp den till din webbplats. Se till att det är en vanlig textfil och har namnet robots.txt. Ladda sedan upp den till din webbplats så att den kan hittas på yoursite.com/robots.txt.

Om du använder en innehållshanteringssystem 10 mest populära innehållshanteringssystem onlineDagarna med handkodade HTML-sidor och behärskning av CSS är sedan länge förbi. Installera ett innehållshanteringssystem (CMS) och inom några minuter kan du ha en webbplats att dela med världen. Läs mer som WordPress, det finns förmodligen ett specifikt sätt du måste gå tillväga för. Eftersom det skiljer sig åt för varje innehållshanteringssystem, måste du läsa dokumentationen för ditt system.

Vissa system kan också ha online-gränssnitt för att ladda upp din fil. För dessa, kopiera och klistra bara in filen du skapade i de föregående stegen.

Kom ihåg att uppdatera din fil

Det sista rådet jag kommer att ge är att då och då titta igenom din uteslutningsfil för robotar. Din webbplats ändras och du kan behöva göra några justeringar. Om du märker en konstig förändring i din sökmotortrafik är det en bra idé att kolla in filen också. Det är också möjligt att standardnotationen kan ändras i framtiden. Som allt annat på din webbplats är det värt att kolla upp det då och då.

Vilka sidor utesluter du sökrobotar från på din webbplats? Har du märkt någon skillnad i sökmotortrafik? Dela dina råd och kommentarer nedan!

Dann är en innehållsstrategi- och marknadskonsult som hjälper företag att generera efterfrågan och leads. Han bloggar också om strategi och innehållsmarknadsföring på dannalbright.com.

About Technology - denizatm.com