Otillräcklig data är ofta en av de största motgångarna för de flesta datavetenskapsprojekt. Att veta hur man samlar in data för alla projekt som du vill påbörja är dock en viktig färdighet du behöver förvärva som datavetare.

Datavetare och maskininlärningsingenjörer använder nu moderna datainsamlingstekniker för att skaffa mer data för träningsalgoritmer. Om du planerar att starta ditt första datavetenskap eller maskininlärningsprojekt måste du också kunna få data.

Hur kan du göra processen lätt för dig själv? Låt oss ta en titt på några moderna tekniker som du kan använda för att samla in data.

Varför behöver du mer data för ditt datavetenskapsprojekt

Maskininlärningsalgoritmer är beroende av data för att bli mer exakta, exakta och förutsägbara. Dessa algoritmer tränas med hjälp av datamängder. Träningsprocessen är lite som att lära ett barn ett objekts namn för första gången och sedan låta dem identifiera det ensamma när de nästa ser det.

Människor behöver bara några få exempel för att känna igen ett nytt objekt. Det är inte så för en maskin, eftersom det behöver hundratals eller tusentals liknande exempel för att bekanta sig med ett objekt.

instagram viewer

Dessa exempel eller träningsobjekt måste komma i form av data. En dedikerad maskininlärningsalgoritm går sedan igenom den uppsättningen data som kallas en träningsuppsättning - och lär sig mer om det för att bli mer exakt.

Det betyder att om du inte levererar tillräckligt med data för att träna din algoritm kanske du inte får rätt resultat i slutet av ditt projekt eftersom maskinen inte har tillräckligt med data att lära av.

Så det är nödvändigt att få adekvat data för att förbättra noggrannheten i ditt resultat. Låt oss se några moderna strategier som du kan använda för att uppnå det nedan.

1. Skrapa data direkt från en webbsida

Webbskrapning är ett automatiserat sätt att få data från webben. I sin mest grundläggande form kan webbskrapning innebära att kopiera och klistra in elementen på en webbplats i en lokal fil.

Webbskrapning innebär dock att man skriver specialskript eller använder dedikerade verktyg för att skrapa data från en webbsida direkt. Det kan också innebära mer ingående datainsamling med Applikationsprogrammeringsgränssnitt (API) som Serpstack.

Rita användbara data från sökresultat med Serpstack API

Med serpstack API kan du enkelt hämta information från Googles resultatsidor och andra sökmotorer.

Även om vissa människor tror att webbskrapning kan leda till förlust av immateriella rättigheter kan det bara hända när människor gör det skadligt. Webbskrapning är lagligt och hjälper företag att fatta bättre beslut genom att samla in allmän information om sina kunder och konkurrenter.

Relaterad: Vad är webbskrapning? Hur man samlar in data från webbplatser

Du kan till exempel skriva ett skript för att samla in data från onlinebutiker för att jämföra priser och tillgänglighet. Även om det kan vara lite mer tekniskt kan du också samla rå media som ljudfiler och bilder via webben.

Ta en titt på exempelkoden nedan för att få en glimt av webbskrapning med Pythons vacker soppa4 HTML-parserbibliotek.

från bs4 importera BeautifulSoup
från urllib.request import urlopen
url = "Ange den fullständiga webbadressen till målwebbsidan här"
targetPage = urlopen (url)
htmlReader = targetPage.read (). avkoda ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
skriva ut (webData.get_text ())

Innan du kör exempelkoden måste du installera biblioteket. Skapa en virtuell miljö från din kommandorad och installera biblioteket genom att köra pip installera beautifulsoup4.

2. Via webbformulär

Du kan också använda onlineformulär för datainsamling. Detta är mest användbart när du har en målgrupp för personer du vill samla in data från.

En nackdel med att skicka ut webbformulär är att du kanske inte samlar in så mycket data som du vill. Det är ganska praktiskt för små datavetenskapsprojekt eller handledning, men du kan stöta på begränsningar som försöker nå ett stort antal anonyma personer.

Även om betaltjänster för datainsamling online finns, rekommenderas de inte för enskilda, eftersom de oftast är för dyra - förutom om du inte har något emot att spendera lite pengar på projektet.

Det finns olika webbformulär för att samla in data från människor. En av dem är Google Forms, som du kan komma åt genom att gå till forms.google.com. Du kan använda Google Forms för att samla in kontaktinformationdemografiska uppgifter och andra personliga uppgifter.

När du har skapat ett formulär är allt du behöver göra att skicka länken till din målgrupp via e-post, SMS eller vad som helst tillgängligt.

Google Forms är dock bara ett exempel på populära webbformulär. Det finns många alternativ där ute som också gör utmärkta datainsamlingsjobb.

Du kan också samla in data via sociala medier som Facebook, LinkedIn, Instagram och Twitter. Att få data från sociala medier är lite mer tekniskt än någon annan metod. Det är helt automatiserat och innebär användning av olika API-verktyg.

Sociala medier kan vara svåra att extrahera data från eftersom det är relativt oorganiserat och det finns en stor mängd av det. Korrekt organiserad kan denna typ av dataset vara användbart i datavetenskapsprojekt som involverar online-sentimentanalys, analys av marknadstrender och online branding.

Till exempel är Twitter ett exempel på en datakälla för sociala medier där du kan samla en stor mängd datamängder med dess tweepy Python API-paket, som du kan installera med pip install tweepy kommando.

För ett grundläggande exempel ser kodblocket för att extrahera Twitter-startsidor tweets så här:

importera tweepy
importera re
myAuth = tweepy. OAuthHandler (klistra in konsument-nyckel här, klistra in konsument-hemlig nyckel här)
auth.set_access_token (klistra in access_token här, klistra in access_token_secret här)
autentisera = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
för mål i target_tweet:
skriva ut (target.text)

Du kan besöka docs.tweepy.org webbplats för att komma åt tweepy dokumentation för mer information om hur du använder den. För att använda Twitters API måste du ansöka om ett utvecklarkonto genom att gå till developer.twitter.com hemsida.

Facebook är en annan kraftfull social medieplattform för att samla in data. Den använder en speciell API-slutpunkt som kallas Facebook Graph API. Med detta API kan utvecklare samla in data om specifika användares beteenden på Facebook-plattformen. Du kan komma åt Facebook Graph API-dokumentationen på utvecklare.facebook.com för att lära dig mer om det.

En detaljerad förklaring av insamling av sociala mediedata med API ligger utanför denna artikel. Om du är intresserad av att ta reda på mer kan du läsa mer om varje plattforms dokumentation.

Förutom att skriva skript för att ansluta till en API-slutpunkt, samlar social media-data tredjepartsverktyg som Skrapningsexpert och många andra är också tillgängliga. De flesta av dessa webbverktyg har dock ett pris.

4. Samla in befintliga datamängder från officiella källor

Du kan också samla befintliga datamängder från auktoritativa källor. Denna metod innebär att du besöker officiella databanker och laddar ner verifierade datamängder från dem. Till skillnad från webbskrapning och andra alternativ är det här alternativet snabbare och kräver liten eller ingen teknisk kunskap.

Datauppsättningarna för dessa typer av källor är vanligtvis tillgängliga i CSV-, JSON-, HTML- eller Excel-format. Några exempel på auktoritativa datakällor är Världsbanken, UNdataoch flera andra.

Vissa datakällor kan göra aktuella data privata för att förhindra att allmänheten får åtkomst till dem. Deras arkiv är dock ofta tillgängliga för nedladdning.

Fler officiella datakällkällor för ditt maskininlärningsprojekt

Den här listan ska ge dig en bra utgångspunkt för att få olika typer av data att arbeta med i dina projekt.

  • EU: s portal för öppna data
  • Kaggle-datauppsättningar
  • Google Dataset-sökning
  • Data Hub
  • Register över öppna data på AWS
  • Europeiska myndigheten - Data och kartor
  • Microsoft Research Open Data
  • Awesome Public Datasets Repository på GitHub
  • Data. Gov: Hemmet för den amerikanska regeringens öppna data

Det finns många fler källor än detta, och noggrann sökning kommer att belöna dig med data perfekt för dina egna datavetenskapsprojekt.

Kombinera dessa moderna tekniker för bättre resultat

Datainsamling kan vara tråkig när de tillgängliga verktygen för uppgiften är begränsade eller svåra att förstå. Medan äldre och konventionella metoder fortfarande fungerar bra och i vissa fall är oundvikliga, är moderna metoder snabbare och mer tillförlitliga.

I stället för att förlita sig på en enda metod har en kombination av dessa moderna sätt att samla in dina data potential att ge bättre resultat.

E-post
5 Data Analytics-programvaruverktyg du kan lära dig snabbt

Vill du komma in i dataanalys? Här är några verktyg du bör lära dig.

Relaterade ämnen
  • Programmering
  • Pytonorm
  • Big Data
  • Maskininlärning
  • Dataskörd
  • Dataanalys
Om författaren
Idowu Omisola (45 artiklar publicerade)

Idowu brinner för allt smart teknik och produktivitet. På fritiden leker han med kodning och byter till schackbrädet när han är uttråkad, men han älskar också att bryta sig från rutinen då och då. Hans passion för att visa människor vägen runt modern teknik motiverar honom att skriva mer.

Mer från Idowu Omisola

Prenumerera på vårt nyhetsbrev

Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e-böcker och exklusiva erbjudanden!

Ett steg till…!

Bekräfta din e-postadress i e-postmeddelandet som vi just skickade till dig.

.