För att analysera en datauppsättning måste du först förstå data. Ibland kanske du inte har någon förhandskunskap om en datauppsättning, vilket hindrar dig från att få ut det mesta av det. Som dataanalytiker kan du använda Exploratory data analysis (EDA) för att få kunskap om din datamängd innan en djupgående analys.
Exploratory data analysis (EDA) undersöker en datauppsättning för att få meningsfulla insikter. Processen att utföra EDA innebär att fråga information om strukturen och innehållet i en datauppsättning.
Installerar Gota-paketet
Gota-paketet är det mest populära för dataanalys i Go; det är som Python Pandas paket men för Go. Gota-paketet innehåller många metoder för att analysera datauppsättningar och läsa JSON-, CSV- och HTML-format.
Kör detta kommando på din terminal i katalogen där du har initierat en Go-modulfil:
gå få -u github.com/gå-gota/gota
Kommandot kommer att installera Gota i den lokala katalogen, redo för dig att importera paketet för att använda det.
Precis som Pandas stöder Gota serie- och dataramoperationer. Det finns två underpaket i Gota-paketet: serien och datarampaketet. Du kan importera antingen en eller båda, beroende på dina behov.
importera (
"github.com/gå-gota/gota/series"
"github.com/gå-gota/gota/dataframe"
)
Läsa en datauppsättning med hjälp av Gota-paketet
Du kan använda vilken CSV-fil du vill, men följande exempel visar resultat från en Kaggle-datauppsättning, som innehåller prisuppgifter för bärbara datorer.
Gota låter dig läsa CSV-, JSON- och HTML-filformat för att skapa dataramar med hjälp av LäsCSV, LäsJSON, och Läs HTML metoder. Så här laddar du in en CSV-fil i ett dataramobjekt:
fil, fel := os. Öppna("/sökväg/till/csv-fil.csv")
om fel!= noll {
fmt. Println("filöppningsfel")
}
dataram := dataram. LäsCSV(fil)
fmt. Println (dataFrame)
Du kan använda Öppna metod för os paket för att öppna en CSV-fil. ReadCSV-metoden läser filobjektet och returnerar ett dataframe-objekt.
När du skriver ut det här objektet är resultatet i tabellformat. Du kan manipulera dataramobjektet ytterligare med de olika metoderna som Gota tillhandahåller.
Objektet kommer bara att skriva ut några av kolumnerna om en datauppsättning har mer än ett inställt värde.
Hämta datauppsättningens dimension
Dimensionerna för en dataram är antalet rader och kolumner som den innehåller. Du kan hämta dessa dimensioner med hjälp av Dims metod för dataramobjektet.
var rader, kolumner = dataFrame. Dims()
Ersätt en av variablerna med ett understreck för att bara hämta den andra dimensionen. Du kan också fråga antalet rader och kolumner individuellt med hjälp av Now och Ncol metoder.
var rader = dataFrame. Now()
var kolumner = dataFrame. Ncol()
Hämta datatyperna för kolumner
Du måste känna till de sammansatta datatyperna i en datauppsättnings kolumner för att analysera den. Du kan hämta dessa med hjälp av Typer metod för ditt dataramobjekt:
var typer = dataFrame. Typer()
fmt. Println (typer)
Metoden Typer returnerar ett segment som innehåller kolumnens datatyper:
Hämta kolumnnamnen
Du behöver kolumnnamnen för att välja specifika kolumner för operationer. Du kan använda Namn sätt att hämta dem.
var kolumnnamn := dataFrame. Namn()
fmt. Println (kolumnnamn)
Namnmetoden returnerar en del av kolumnnamnen.
Söker efter saknade värden
Du kan ha en datauppsättning som innehåller null eller icke-numeriska värden. Du kan kontrollera sådana värden med hjälp av HasNaN och IsNaN metoder för ett serieobjekt:
aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()
HasNan kontrollerar om en kolumn innehåller null-element. IsNaN returnerar en del av booleaner som representerar om varje värde i kolumnen är ett tal.
Utföra beskrivande statistisk analys
Beskrivande statistisk analys hjälper dig att förstå fördelningen av numeriska kolumner. Använda Beskriva metod kan du generera en beskrivande statistisk analys av din datauppsättning:
beskrivning := dataFrame. Beskriva()
fmt. Println (beskrivning)
Metoden Beskriv returnerar mätvärden som medelvärde, standardavvikelse och maximala värden för kolumner i en datauppsättning. Den sammanfattar dessa i tabellformat.
Du kan också vara specifik och fokusera på kolumner och mätvärden genom att välja en viss kolumn och sedan fråga efter måtten du vill ha. Du bör först hämta serien som representerar en specifik kolumn och sedan använda dess metoder så här:
aCol := dataFrame. Col("display_size")
var medel = aKol. Betyda()
var median = aCol. Median()
var minimum = aCol. min()
var standardavvikelse = aCol. StdDev()
var maximum = aCol. Max()
var quantiles25 = aCol. Kvantil(25.0)
Dessa metoder speglar resultaten från den beskrivande statistiska analys som Describe utför.
Hämta elementen i en kolumn
En av de sista uppgifterna du vill utföra är att kontrollera värdena i en kolumn för en allmän översikt. Du kan använda Uppgifter metod för att visa värdena för en kolumn.
aCol := dataFrame. Col("varumärke")
fmt. Println (aCol. Uppgifter())
Den här metoden returnerar en del av strängar som innehåller värdena i den valda kolumnen:
Exportera en Gota-dataram till en fil
Om du väljer att gå längre och använda Gota-paketet för fullständig dataanalys, måste du spara data i filer. Du kan använda Skriv CSV och WriteJSON metoder för dataram för att exportera filer. Metoderna tar in en fil som du skapar med hjälp av os paketets Skapa metod.
Så här kan du exportera en dataram med Gota-paketet.
dataram := dataram. LäsCSV(fil)
outputFile, err := os. Create("output.csv")om fel!= noll {
logga. Dödlig (fel)
}err = dataFrame. SkrivCSV(utdatafil)
om fel!= noll {
logga. Fatalln("Det uppstod ett fel när dataramens innehåll skulle skrivas till filen")
}
De dataram variabel är en representation av dataramen. När du använder Skapa metod för os paketet, skapar den en ny, tom fil med det angivna namnet och returnerar filen. WriteCSV-metoden tar in filinstansen och returnerar ett fel eller noll om det inte är något fel.
Undersökande dataanalys är viktigt
En förståelse för data och datamängder är avgörande för dataanalytiker och maskininlärningsspecialister. Det är en kritisk operation i deras arbetscykel, och utforskande dataanalys är en av de tekniker de använder för att uppnå det.
Det finns mer i Gota-paketet. Du kan använda det för olika funktioner för databråk på samma sätt som du använder Python Pandas-biblioteket för dataanalys. Gota stöder dock inte lika mycket funktionalitet som Pandas.