Datautvinning är en stor del av arbetet med nya och innovativa projekt. Men hur får du tag på big data från hela internet?
Manuell datainsamling är inte aktuell. Det är för tidskrävande och ger inte korrekta eller allomfattande resultat. Men mellan specialiserad webbskrapningsprogramvara och en webbplats dedikerade API, vilken väg säkerställer bästa kvalitet på data utan att offra integritet och moral?
Vad är skörd av webbdata
Datainsamling är processen för att extrahera offentligt tillgänglig data direkt från onlinehemsidor. Istället för att bara förlita sig på officiella informationskällor, till exempel tidigare studier och undersökningar som utförts av stora företag och trovärdiga institutioner, med datainsamling kan du ta dataskörd till din egen händer.
Allt du behöver är en webbplats som offentligt erbjuder vilken typ av data du är ute efter, ett verktyg för att extrahera den och en databas för att lagra den.
De första och sista stegen är ganska enkla. Faktum är att du kan välja en slumpmässig webbplats via Google och lagra dina data i ett Excel -kalkylblad. Att extrahera data är där saker blir knepiga.
Hålla det lagligt och etiskt
När det gäller laglighet, så länge du inte använder black-hattekniker för att få tag på uppgifterna eller bryta mot webbplatsens sekretesspolicy, är du helt klar. Du bör också undvika att göra något olagligt med data som du skördar, till exempel obefogade marknadsföringskampanjer och skadliga appar.
Etisk datainsamling är en något mer komplicerad fråga. Först och främst bör du respektera webbplatsägarens rättigheter över deras data. Om de har standarder för uteslutning av robotar i vissa eller alla delar av deras webbplats, undvik det.
Det betyder att de inte vill att någon ska skrapa sina data utan uttryckligt tillstånd, även om det är offentligt tillgängligt. Dessutom bör du undvika att ladda ner för mycket data samtidigt, eftersom det kan krascha webbplatsens servrar och kan få dig att flaggas som en DDoS -attack.
Webbskrapning är så nära det tar att ta frågor om skörd av data i egna händer. De är det mest anpassningsbara alternativet och gör datahanteringsprocessen enkel och användarvänlig, samtidigt som du ger dig obegränsad tillgång till hela webbplatsens tillgängliga data.
Skrapverktyg för webb, eller webbskrapor, är programvara utvecklad för dataextraktion. De finns ofta på datavänliga programmeringsspråk som Python, Ruby, PHP och Node.js.
Webbskrapor läser in och läser hela webbplatsen automatiskt. På så sätt har de inte bara tillgång till data på ytnivå, utan de kan också läsa en webbplats HTML-kod, samt CSS- och Javascript-element.
Du kan ställa in din skrapa för att samla in en viss typ av data från flera webbplatser eller instruera den att läsa och kopiera all data som inte är krypterad eller skyddad av en Robot.txt -fil.
Webbskrapor arbetar genom proxy för att undvika att blockeras av webbplatsens säkerhet och anti-spam och anti-bot tech. De använder proxyservrar för att dölja sin identitet och maskera deras IP -adress så att den ser ut som vanlig brukartrafik.
Men observera att för att vara helt hemlig vid skrapning måste du ställa in ditt verktyg för att extrahera data med en mycket långsammare hastighet - en som matchar en mänsklig användares hastighet.
Enkel användning
Trots att de förlitar sig mycket på komplexa programmeringsspråk och bibliotek är webbskrapningsverktyg enkla att använda. De kräver inte att du är en programmerings- eller datavetenskapsexpert för att få ut det mesta av dem.
Dessutom förbereder webbskrapor data för dig. De flesta webbskrapare konverterar automatiskt data till användarvänliga format. De sammanställer det också till färdiga nedladdningsbara paket för enkel åtkomst.
API Data Extraction
API står för Application Programming Interface. Men det är inte ett datauttagsverktyg lika mycket som det är en funktion som webbplats- och programvaruägare kan välja att implementera. API: er fungerar som en mellanhand, så att webbplatser och programvara kan kommunicera och utbyta data och information.
Numera har de flesta webbplatser som hanterar massiva mängder data ett dedikerat API, till exempel Facebook, YouTube, Twitter och till och med Wikipedia. Men medan en webbskrapa är ett verktyg som låter dig bläddra och skrapa de mest avlägsna hörnen på en webbplats för data, är API: er strukturerade i deras utvinning av data.
Hur fungerar API Data Extraction?
API: er ber inte dataskördare att respektera deras integritet. De tillämpar det i sin kod. API: er består av regler som bygger struktur och sätter begränsningar för användarupplevelsen. De styr vilken typ av data du kan extrahera, vilka datakällor som är öppna för skörd och typen av frekvens på dina förfrågningar.
Du kan tänka på API: er som en webbplats eller apps skräddarsydda kommunikationsprotokoll. Det har vissa regler att följa och måste tala sitt språk innan du kommunicerar med det.
Hur man använder ett API för datautvinning
För att använda ett API behöver du en anständig kunskapsnivå på frågespråket som webbplatsen använder för att be om data med syntax. Majoriteten av webbplatserna använder JavaScript Object Notation, eller JSON, i sina API: er, så du behöver några för att skärpa dina kunskaper om du ska förlita dig på API: er.
Men det slutar inte där. På grund av de stora datamängderna och de olika mål som människor ofta har skickar API: er vanligtvis ut rådata. Även om processen inte är komplex och bara kräver en nybörjarförståelse för databaser, måste du konvertera data till CVS eller SQL innan du kan göra något med det.
Lyckligtvis är det inte allt dåligt med ett API.
Eftersom de är ett officiellt verktyg som erbjuds av webbplatsen behöver du inte oroa dig för att använda en proxyserver eller blockera din IP -adress. Och om du är orolig för att du kan korsa några etiska gränser och skrota data som du inte fick tillåta, ger API: er dig bara tillgång till den data som ägaren vill ge.
Beroende på din nuvarande kompetensnivå, dina målwebbplatser och dina mål kan du behöva använda både API: er och verktyg för webbskrapning. Om en webbplats inte har ett dedikerat API är det enda alternativet att använda en webbskrapa. Men webbplatser med ett API-särskilt om de tar betalt för datatillgång-gör det ofta omöjligt att skrapa med hjälp av tredjepartsverktyg.
Bildkredit: Joshua Sortino/Unsplash
Funderar du på att köpa en Android -surfplatta? Här är skäl att överväga alternativa tabletter, plus några tablettrekommendationer.
Läs Nästa
- Teknik förklaras
- Programmering
- Big Data
- Dataskörd
- Webbutveckling
Anina är frilansande teknik- och internetsäkerhetsförfattare på MakeUseOf. Hon började skriva inom cybersäkerhet för 3 år sedan i hopp om att göra det mer tillgängligt för den genomsnittliga personen. Sugen på att lära sig nya saker och en enorm astronominörd.
Prenumerera på vårt nyhetsbrev
Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e -böcker och exklusiva erbjudanden!
Klicka här för att prenumerera