Webbskrapning innebär insamling av information i form av data från webbplatser eller sidor. Även om din kanske inte är en medveten handling, har du skrapat på nätet på ett eller annat sätt medan du samlar in information. Men det är vanligtvis subtilt.
Webbskrapning eller skärmskrapning är i allmänhet en målmedveten handling, och proffs automatiserar designen för att få enorma data. Oavsett om du kopierar texter på en webbplats manuellt, använder dedikerade verktyg eller skriver webbskrapningsskript, slår webbskrapor ibland hårt på en webbplats genom att göra flera förfrågningar samtidigt.
Men medan många företag nu utnyttjar webbskrapning för att skapa konkurrensfördelar, är det faktiskt lagligt?
Vilka webbplatser ska och ska du inte skrapa?
Internet är en informationspool som ger människor tillgång till gamla och realtidsdata. Webbskrapning eller skärmskrapning har funnits ett tag nu. Men hur mycket ska du använda det och vilka webbplatser kan du skrapa?
Vissa webbplatser är stränga med webbsökare eller skärmskrapor och blockerar dem helt. Så det är uppenbart att du inte ska skrapa sådana webbplatser. Men människor gör det fortfarande.
Tyvärr finns det knappast något annat sådana webbplatser kan göra för att stoppa det förutom att lappa sina kryphål.
Innan du skrapar en webbplats bör du helst kontrollera om den tillåter genomsökning eller inte. Vanligtvis kan du ta reda på det genom att kontrollera webbplatsens robots.txt-fil. Du kan göra detta genom att skriva in "[webbplatsens URL] /robots.txt".
En robots.txt anger vanligtvis regler för olika sökrobotar eller användaragenter. Dessa regler varierar dock beroende på vilken webbplats som är inblandad. Medan vissa webbplatser tillåter genomsökning på alla sidor, specificerar vissa de sidor som en bot kan genomsöka, och vissa blockerar genomsökare direkt.
En webbplats som blockerar alla användaragenter från att genomsöka alla sidor anger vanligtvis följande regler:
användaragent: *
Tillåt: /
En robots.txt-fil som blockerar alla bots från att genomsöka vissa kataloger eller sidor ser vanligtvis ut så här:
användaragent: *
Tillåt: / URL till sida 1
Tillåt: / URL till sida 2
Om robots.txt inte tillåter sidan du vill genomsöka, kan du förmodligen skrapa den. Annars bör du backa eller söka administratörens samtycke. De kan ge dig tillgång.
Dessutom anger vissa webbplatser uttryckligen om de tillåter genomsökning eller inte i sina användarvillkor. Vissa säger även detta högst upp på sina robots.txt också. Kontrollera alltid det också för att vara säker på att du gör rätt.
Hur webbskrapning missbrukas
Så om du har fått skräppostmeddelanden eller SMS från webbplatser eller personer som du aldrig lämnat med din personliga information, så har du förmodligen skrapats någonstans, på något sätt. Och mestadels är det via en av dina sociala mediahandtag.
Med det sagt är webbskrapning ibland mer än bara att samla in data som görs till fronten. Om det används skadligt kan det leda till läckage av personlig och sekretessbelagd information.
Medan de flesta sociala medieplattformar rynkar pannan på det, kryper bots fortfarande till människors profiler, och deras kontaktinformation läcker ut och skrapas.
Facebook har till exempel rapporterats ha sårbarheter som läckt ut användarnas kontaktinformation tidigare, även om användarna håller dem privata.
På liknande sätt led LinkedIn nyligen ett säkerhetsbrott som resulterade i läckage av personuppgifter tillhörande över 500 miljoner konton. Följaktligen resulterade denna sårbarhet i att många e-postadresser och telefonnummer delades utan profilägarnas medgivande.
Är det olagligt att skrapa en webbplats?
Det har aldrig kommit någon slutsats om lagligheten med webbskrapning. I stället är fokus på hur en sökrobot fungerar från fall till fall och vad de använder de insamlade uppgifterna för att uppnå.
Så snarare än att dra slutsatsen om lagligheten är det olagligt att skrapa när det görs skadligt. Men om det görs klokt är det inte olagligt.
Men som förväntat verkar det finnas en strängare policy för skrapning och användning av sociala mediedata eftersom användarnas integritet är så viktig. Men allt går fortfarande ner på hur människor skrapar data.
De Internet & Social Media Law Blog analyserade fallet med hiQ Labs, ett dataskrapningsföretag som vann en rättegång mot LinkedIn 2019 efter att ha försökt blockera hiQ Labs från att skrapa offentligt tillgängliga LinkedIn-användares data.
Med hiQ Labs som hävdar att lagen om datorbedrägeri och missbruk (CFAA) endast förbjuder obehörig åtkomst, dom bekräftade att LinkedIn uppgifter var offentligt tillgängliga, så alla som skrapade dem gjorde det för att de är tillgänglig.
Dessutom använde hiQ Labs endast skrapad data för att tillhandahålla analyslösningar till företag - så att de kan fatta bättre rekryteringsbeslut.
Tvärtom, Facebook stämde nyligen Chrome-tilläggsutvecklare som skrapade Facebook-användares profiler utan deras samtycke.
På samma sätt har en copycat-webbplats stämdes av Facebook för att skrapa flera Instagram-användares profilinformation och sedan använda dessa för att skapa kloner. Enligt den rapporten gick Facebook sedan längre för att få ett permanent domstolsförbud mot gärningsmannen.
Det här är några fall där människor kan ha använt webbskrapning olagligt. De nämnda företagen samlade in Facebook-användares data bedrägligt, utan dess användares samtycke. Så det bryter mot sekretesspolicyn.
Så medan webbskrapning kan frustrera webbplatsen som den får data från, hindrar ingen allmän regel för närvarande människor från att få vad de vill, så länge de inte bryter mot internetlagarna direkt.
Är webbskrapning synonymt med hacking?
Det finns några myter kring webbskrapning. En av dessa är tron att skrapning av en webbplats betyder att du har hackat den. Även om hackning så småningom kan leda till skrapning av data är påståendet att termen i sig betyder hacking av en webbplats inte sant.
Webbskrapning kan innebära användning av dedikerade krypnings- eller skrapverktyg, Applikationsprogrammeringsgränssnitt (API) eller webbskrapningsskript för att få renderad data från en webbplats. Till skillnad från hacking äventyrar den inte webbplatsen som den skrapar eller stör användarnas upplevelse.
Relaterad: Vad är webbskrapning? Hur man samlar in data från webbplatser
Så medan hacking innebär obehörig åtkomst, vanligtvis till en webbplats databas, riktar webbskrapning endast till data som redan är synliga i fronten. Även om människor kan använda webbskrapning skadligt är det fortfarande inte synonymt med hacking.
Utöver det, till skillnad från webbskrapning, är avsiktlig och oetisk hackning olaglig.
Vad är det positiva med webbskrapning?
Webbskrapning har många positiva resultat, och även vissa tekniska företag erbjuder nu sina data gratis via API: er. Den informationen räcker vanligtvis inte för att bedöma affärstrender och fatta beslut.
Så företag får nu mer data genom att skrapa på nätet för att förbättra praxis och öka försäljningen. Dessutom matar dataforskare maskininlärningsalgoritmer med data som samlas in via skärmskrapning.
Sådan data kan vara bilder som används i bildigenkänning, vanliga texter för sentimentanalys eller direkt produktinformation för marknadsinformation och konsumentbeteendeanalys.
Relaterad: Unika sätt att få datauppsättningar för ditt maskininlärningsprojekt
Så webbskrapning är ännu mer användbart för om du har tillgång till information som din konkurrent inte kan, kan du slå dem.
Medan vissa webbplatser rynkar pannan på webbskrapor, bryr sig vissa, till och med e-handelstjänster, om du skrapar deras data eller inte. Webjättar som eBay och Salesforce startade sitt API år 2000 och gav programmerare åtkomst till allmän information för första gången.
Ska du faktiskt skrapa på nätet?
Vi har konstaterat att webbskrapning inte är olagligt när det görs på rätt sätt. Men vad du gör med de data du skrapar är också ett problem. Så snarare än att missbruka detta, använd det för att dra mer insikter som hjälper dig och andra att fatta välgrundade beslut.
Webbskrapning som färdighet ger dig dock tillgång till stora bitar av internetdata, vilket kan hjälpa dig eller ditt företag att hålla sig över affärsnischen. Som datavetare vidgar det till och med ditt omfång och förbättrar din kodning och tekniska färdigheter.
Till exempel är Python ett av programmeringsspråken som hjälper dig att enkelt skrapa en webbplats med dess vackra soppbibliotek eller Scrapy-ramverk.
Intresserad av webbskrapning? Så här skrapar du en webbplats för innehåll och mer med det vackra Soup Python-biblioteket.
Läs Nästa
- säkerhet
- Programmering
- Onlinesäkerhet
- Webbskrapning

Idowu brinner för allt smart teknik och produktivitet. På fritiden leker han med kodning och byter till schackbrädet när han är uttråkad, men han älskar också att bryta sig från rutinen då och då. Hans passion för att visa människor vägen runt modern teknik motiverar honom att skriva mer.
Prenumerera på vårt nyhetsbrev
Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e-böcker och exklusiva erbjudanden!
Ett steg till…!
Bekräfta din e-postadress i e-postmeddelandet som vi just skickade till dig.