Vad är en webbcrawler/spindel och hur fungerar det?

Sökmotorer som Google är en del av det som gör internet så kraftfullt. Med några knapptryckningar och ett klick på en knapp visas de mest relevanta svaren på din fråga. Men har du någonsin undrat hur sökmotorer fungerar? Webbcrawlers är en del av svaret.

Så, vad är en webcrawler och hur fungerar det?

Vad är en webbcrawler?

Pixabay - ingen tillskrivning krävs

När du söker efter något i en sökmotor måste motorn snabbt skanna miljontals (eller miljarder) webbsidor för att visa de mest relevanta resultaten. Webbcrawlers (även kända som spindlar eller sökmotorbots) är automatiserade program som "genomsöker" internet och sammanställer information om webbsidor på ett lättillgängligt sätt.

Ordet ”crawling” syftar på hur webbcrawlers korsar internet. Webbcrawlers är också kända som "spindlar". Det här namnet kommer från hur de genomsöker webben - som hur spindlar kryper på sina spindelväv.

Webbcrawlers bedömer och sammanställer data på så många webbsidor som möjligt. De gör detta för att data ska vara lättillgängliga och sökbara, varför de är så viktiga för sökmotorer.

instagram viewer

Tänk på en webcrawler som redaktören som sammanställer indexet i slutet av boken. Indexets uppgift är att informera läsaren var i boken varje nyckelämne eller fras visas. På samma sätt skapar en sökrobot ett index som en sökmotor använder för att snabbt hitta relevant information om en sökfråga.

Vad är sökindexering?

Som vi har nämnt är sökindexering jämförbar med att sammanställa indexet längst bak i en bok. På ett sätt är sökindexering som att skapa en förenklad karta över internet. När någon ställer en fråga till en sökmotor, kör sökmotorn den genom sitt index och de mest relevanta sidorna visas först.

Men hur vet sökmotorn vilka sidor som är relevanta?

Sökindexering fokuserar främst på två saker: texten på sidan och metadata för sidan. Texten är allt du ser som läsare, medan metadata är information om sidens inmatning av sidskaparen, känd som "metataggar". Metataggarna innehåller saker som sidbeskrivning och metatitel, som visas i sökningen resultat.

Sökmotorer som Google kommer att indexera all text på en webbsida (förutom vissa ord som "the" och "a" i vissa fall). När en term söks in i sökmotorn, kommer den snabbt att söka igenom indexet för den mest relevanta sidan.

Hur fungerar en webbcrawler?

Pixabay - ingen tillskrivning krävs

En sökrobot fungerar som namnet antyder. De börjar på en känd webbsida eller URL och indexerar varje sida på den webbadressen (oftast begär webbplatsägare sökmotorer att genomsöka vissa webbadresser). När de stöter på hyperlänkar på dessa sidor kommer de att sammanställa en "att göra" -lista med sidor som de kommer att genomsöka nästa. Webbgenomsökaren fortsätter detta på obestämd tid, efter särskilda regler om vilka sidor som ska genomsökas och vilka som ska ignoreras.

Webbgenomsökare genomsöker inte varje sida på internet. I själva verket uppskattas att endast 40-70% av internet har sökindexerats (vilket fortfarande är miljarder sidor). Många webbsökare är utformade för att fokusera på sidor som anses vara mer "auktoritativa". Auktoritativ sidor passar en handfull kriterier som gör dem mer benägna att innehålla högkvalitativa eller populära information. Webbcrawlers måste också konsekvent besöka sidor när de uppdateras, tas bort eller flyttas.

En sista faktor som styr vilka sidor en webbsökare kommer att genomsöka är protokollet robots.txt eller protokollet för uteslutning av robotar. En webbsides server kommer att vara värd för en robots.txt -fil som anger reglerna för alla webbsökare eller andra program som kommer åt sidan. Filen kommer att utesluta att vissa sidor genomsöks och vilka länkar genomsökaren kan följa. Ett syfte med robots.txt -filen är att begränsa belastningen som bots lägger på webbplatsens server.

För att förhindra att en sökrobot får åtkomst till vissa sidor på din webbplats kan du lägga till "disallow" -taggen via robots.txt -fil eller lägg till noindex metatagg till den aktuella sidan.

Vad är skillnaden mellan att krypa och skrapa?

Webbskrapning är användningen av bots för att ladda ner data från en webbplats utan webbplatsens tillstånd. Ofta används webbskrapning av skadliga skäl. Webbskrapning tar ofta all HTML -kod från specifika webbplatser, och mer avancerade skrapor tar också CSS- och JavaScript -elementen. Skrapverktyg för webb kan användas för att snabbt och enkelt sammanställa information om specifika ämnen (säg en produktlista) men kan också vandra in gråa och olagliga territorier.

Webbcrawling är å andra sidan indexering av information på webbplatser med tillstånd så att den enkelt kan visas i sökmotorer.

Web Crawler Exempel

Varje större sökmotor har en eller flera sökrobotar. Till exempel:

Google har Googlebot
Bing har Bingbot
DuckDuckGo har DuckDuckBot.

Större sökmotorer som Google har specifika robotar för olika fokus, inklusive Googlebot -bilder, Googlebot -videor och AdsBot.

Hur påverkar webbgenomsökning SEO?

Pixabay - ingen tillskrivning krävs

Om du vill att din sida ska visas i sökmotorresultat måste sidan vara tillgänglig för webbsökare. Beroende på din webbserver kanske du vill tilldela en viss genomsökningsfrekvens, vilka sidor sökroboten ska skanna och hur mycket tryck de kan lägga på din server.

I grund och botten vill du att webbsökarna ska finslipa sidor fyllda med innehåll, men inte på sidor som tackmeddelanden, administrationssidor och interna sökresultat.

Information vid dina fingertoppar

Att använda sökmotorer har blivit andra natur för de flesta av oss, men de flesta av oss har ingen aning om hur de fungerar. Webbcrawlers är en av huvuddelarna i en effektiv sökmotor och effektivt indexerar information om miljontals viktiga webbplatser varje dag. De är ett ovärderligt verktyg för webbplatsägare, besökare och sökmotorer.

Dela med sigTweetE-post

Programmering vs. Webbutveckling: Vad är skillnaden?

Du kanske tror att applikationsprogrammerare och webbutvecklare gör samma jobb, men det är långt ifrån sanningen. Här är de viktigaste skillnaderna mellan programmerare och webbutvecklare.

Läs Nästa

Relaterade ämnen

Teknik förklaras
Webbsökning
Google Sök
Sök trick

Om författaren

Jake Harfield (25 artiklar publicerade)

Jake Harfield är frilansskribent baserad i Perth, Australien. När han inte skriver är han vanligtvis ute i busken och fotograferar lokalt djurliv. Du kan besöka honom på www.jakeharfield.com

Mer från Jake Harfield

Prenumerera på vårt nyhetsbrev

Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e -böcker och exklusiva erbjudanden!

Klicka här för att prenumerera

About Technology - denizatm.com

Vad är en webbcrawler/spindel och hur fungerar det?