Annons

Vad skulle du säga om jag berättade för dig att du har verktygen till ditt förfogande för att göra banbrytande, jordskrävande forskning? Det gör du, och jag ska visa dig hur.

Regeringar, akademiska institutioner och icke-vinstdrivande forskningsorganisationer publicerar tabeller full av data till allmänheten. Utan någon använder denna information kommer dess verkliga värde aldrig att kännas. Tyvärr är det få som har insikt, färdigheter eller verktyg för att ta informationen och göra intressanta korrelationer mellan till synes okopplad information.

Bakgrund

Mycket av den forskning som jag gör för min egen blogg handlar om att gräva igenom det som kallas osynlig webb De 12 bästa sökmotorerna för att utforska den osynliga webbenGoogle eller Bing kan inte söka efter allt. För att utforska den osynliga webben måste du använda dessa speciella sökmotorer. Läs mer , för att avslöja data som har släppts för allmänheten, men dolda för sökmotorer De 5 mest avancerade sökmotorerna på webben Läs mer

instagram viewer
i en online-databas. Det här är djup webb TorSearch syftar till att vara Google för den djupa webbenTor är en dold tjänst och en del av Deep Web. TorSearch är en ny anonym sökmotor som grundaren Chris MacNaughton vill göra "Google of Tor". Läs mer , och det finns många värdefulla data. Mycket ofta stöter jag på webbsidor som bara är fyllda med några av de mest värdefulla uppgifterna om ämnen som kör allt från folkräkningsdata till epidemiologiska studier om sällsynta sjukdomar. Jag har ständigt nya idéer om hur man försöker korrelera de olika datakällorna med olika verktyg - och ett av de mest värdefulla verktygen som jag hittat är webbfrågan i Microsoft Excel.

Hitta intressanta datakorrelationer

Det jag ska visa dig idag är ett exempel på hur du kan använda Excel Web Queries för att hämta in data från olika webbplatser och kartlägg dem mot varandra för att söka efter potentiella korrelationer mellan data.

Sättet att starta en övning som denna är att komma med en intressant hypotes. Till exempel - för att hålla saker intressanta här - kommer jag slumpmässigt att posulera det skyrocketing autism priser i USA orsakas av antingen vaccininokulationer eller den ökande närvaron av elektromagnetiska fält i och runt barn, till exempel cell telefoner. Det är en galen hypotes som du hittar på de flesta webbplatser för konspirationsteorier, men det är det som gör det här roligt. Så låt oss komma igång, ska vi?

Öppna först Excel, gå över till menyn i datainformationen och hitta ikonen “Från webben” i menyfliken.

web-query-excel1

Det här är vad du kommer att använda för att importera de olika datatabellerna från de många webbplatser där ute som har publicerat dem.

Importera webbdata till Excel

Så i gamla dagar måste du försöka kopiera data från tabellen på en webbsida, klistra in dem i Excel och sedan ta itu med alla galna formateringsproblem som är involverade i att göra det. Totalt krångel och många gånger är det inte värt huvudvärken. Tja, med Excel Web Queries har dessa dagar gått. Naturligtvis, innan du kan importera uppgifterna, måste du Google på väg för att hitta de data du behöver i tabellformat. I mitt fall fann jag en webbplats som hade publicerat Department of Education statistik för antalet amerikanska offentliga skolelever som identifierades ha autism. En fin tabell där gav siffror från 1994 hela 2006.

Så du klickar bara på “Från webben”, klistrar in webbsidans URL i fältet för frågeadressen och bläddrar sedan ner till sidan tills du ser den gula pilen bredvid tabellen med de data du vill importera.

web-query-excel2

Klicka på pilen så att den blir en grön bock.

web-query-excel3

Slutligen, berätta för Excel vilket fält du vill klistra in tabelldata in i ditt nya kalkylblad.

web-query-excel4

Sedan - Voila! Uppgifterna flyter automatiskt direkt in i ditt kalkylblad.

web-query-excel5
Så med en trend med offentliga skolans autismfrekvenser från 1996 - 2006 på plats är det dags att gå ut för att söka efter vaccination och användning av mobiltelefoner.

Lyckligtvis hittade jag snabbt trender för mobiltelefonabonnenter i USA från 1985 till 2012. Utmärkt data för just denna studie. Återigen använde jag Excel Web Query-verktyget för att importera den tabellen.

web-query-excel6

Jag importerade tabellen till ett rent, nytt ark. Sedan upptäckte jag vaccinationstrender för procentandel av skolbarn som är vaccinerade för olika sjukdomar. Jag importerade den tabellen med hjälp av Web Query-verktyget till ett tredje ark. Så slutligen hade jag tre ark med de tre borden fyllda med den till synes oanslutna informationen som jag hade upptäckt på webben.

web-query-excel8

Nästa steg är att använda Excel för att analysera data och försöka identifiera eventuella korrelationer. Det är där ett av mina favoritdataanalysverktyg spelar in - PivotTable.

Analysera data i Excel med pivottabellen

Det är bäst att skapa din PivotTable i ett helt nytt, tomt ark. Du vill använda guiden för det du ska göra. För att aktivera PivotTable-guiden i Excel måste du trycka på Alt-D samtidigt tills ett meddelande visas. Släpp sedan de knapparna och tryck på “P” -knappen. Sedan ser du guiden dyka upp.

web-query-excel10

I det första fönstret i guiden vill du välja "Flera konsolideringsintervall", vilket gör att du kan välja data från alla de ark du har importerat. Genom att göra detta kan du konsolidera alla dessa till synes oberoende data till en, kraftfull svängbar. I vissa fall kan du behöva massera en del av uppgifterna. Till exempel var jag tvungen att fixa fältet "År" i autismtabellen så att det visade "1994" istället för "1994-95" - vilket gör det bättre med tabellerna på de andra bladen, som också hade det första året fält.

web-query-excel11

Det gemensamma fältet mellan data är det du behöver för att försöka korrelera information, så tänk på det när du jaktar på webben efter dina data.

När PivotTable är klar och du har alla de olika datavärdena visas i en tabell är det dags att göra en visuell analys för att se om det finns någon uppenbar anslutning som hoppar ut mot dig.

Visualisering av data är nyckeln

Att ha ett antal nummer i en tabell är bra om du är en ekonom, men det snabbaste och enklaste sättet att ha att "aha!" ögonblicket när du försöker hitta anslutningar som en nål i en höstack, är via diagram och grafer. När du har din PivotChart på plats med alla de datauppsättningar du har samlat är det dags att skapa din graf. Vanligtvis kommer en linjediagram att göra bäst, men det beror på data. Det finns tillfällen då ett stapeldiagram fungerar mycket bättre. Försök att förstå vilken typ av data du tittar på och vilken form jämförelser fungerar bäst.

I det här fallet tittar jag på data över tiden, så en linjediagram är verkligen det bästa sättet att se trender under åren. Kartlägga autismfrekvenser (grönt) mot nedskalad vaccinationsgrad (mörkblå), vattkoppsvacciner (ljusblå) och användning av mobiltelefoner (lila), en plötslig korrelation visade plötsligt i den här uppsättningen data som jag spelade med.

web-query-excel12

Konstigt nog matchade trenden i användning av mobiltelefoner från 1994 till 2006 nästan perfekt den stigningen i autismfrekvenser under samma tidsperiod. Medan mönstret var helt oväntat, är det ett perfekt exempel på hur koppling av intressanta data kan avslöja fascinerande leads - ger dig större insikt och motivation att fortsätta driva framåt och söka efter mer data som kan ytterligare stärka din hypotes.

En korrelation som den ovan visar inte något. Det finns många trender som stiger över tiden - mönstret kan vara en slump, men det kan också vara en viktig ledtråd i din pågående strävan efter mer data på Internet. Tack och lov har du ett kraftfullt verktyg som heter Excel Web Queries som kommer att göra denna uppdrag bara lite enklare.

Fotokredit: Kevin Dooley via photopincc

Ryan har en kandidatexamen i elektroteknik. Han har arbetat 13 år inom automationsteknik, 5 år inom IT och är nu en applikationsingenjör. Tidigare chefredaktör för MakeUseOf, han talade på nationella konferenser om datavisualisering och har varit med på nationell TV och radio.