Pandabiblioteket gör pythonbaserad datavetenskap till en enkel resa. Det är ett populärt Python-bibliotek för att läsa, slå samman, sortera, rensa data och mer. Även om pandor är lätta att använda och applicera på datamängder, har den många datamanipulerande funktioner att lära sig.
Du kanske använder pandor, men det finns en god chans att du underutnyttjar den för att lösa datarelaterade problem. Här är vår lista över värdefulla data som manipulerar pandorfunktioner som alla dataforskare borde känna till.
Installera pandor i din virtuella miljö
Innan vi fortsätter, se till att du installerar pandor i din virtuella miljö med hjälp av pip:
pip installera pandor
När du har installerat det, importera pandor överst i ditt manus, och låt oss fortsätta.
1. pandor. DataFrame
Du använder pandor. DataFrame() för att skapa en DataFrame i pandor. Det finns två sätt att använda den här funktionen.
Du kan skapa en DataFrame kolumnvis genom att skicka en ordbok till pandor. DataFrame() fungera. Här är varje nyckel en kolumn, medan värdena är raderna:
importera pandor
DataFrame = pandor. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)
Den andra metoden är att bilda DataFrame över rader. Men här ska du separera värdena (radobjekt) från kolumnerna. Antalet data i varje lista (raddata) måste också överensstämma med antalet kolumner.
importera pandor
DataFrame = pandor. DataFrame([[1, 4, 5], [7, 19, 13]], kolumner= ["J", "K", "L"])
print (DataFrame)
2. Läs från och skriv till Excel eller CSV i pandor
Du kan läsa eller skriva till Excel- eller CSV-filer med pandor.
Läser Excel- eller CSV-filer
För att läsa en Excel-fil:
#Ersätt exempel.xlsx med sökvägen till din Excel-fil
DataFrame = DataFrame.read_excel("example.xlsx")
Så här läser du en CSV-fil:
#Ersätt exempel.csv med sökvägen till din CSV-fil
DataFrame = DataFrame.read_csv("example.csv")
Skriver till Excel eller CSV
Att skriva till Excel eller CSV är en välkänd pandaoperation. Och det är praktiskt för att spara nyligen beräknade tabeller i separata datablad.
Så här skriver du till ett Excel-ark:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Om du vill skriva till CSV:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Du kan också beräkna de centrala tendenserna för varje kolumn i en DataFrame med hjälp av pandor.
Så här får du medelvärdet för varje kolumn:
DataFrame.mean()
För median- eller lägesvärde, ersätt betyda() med median() eller läge().
4. DataFrame.transform
pandor DataFrame.transform() ändrar värdena för en DataFrame. Den accepterar en funktion som ett argument.
Till exempel multiplicerar koden nedan varje värde i en DataFrame med tre med hjälp av Pythons lambdafunktion:
DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)
5. DataFrame.isnull
Denna funktion returnerar ett booleskt värde och flaggar alla rader som innehåller nollvärden som Sann:
DataFrame.isnull()
Resultatet av ovanstående kod kan vara svårt att läsa för större datamängder. Så du kan använda isnull().sum() funktion istället. Detta returnerar en sammanfattning av alla saknade värden för varje kolumn:
DataFrame.isnull().sum()
6. Dataframe.info
De info() funktion är en nödvändig pandaoperation. Den returnerar en sammanfattning av värden som inte saknas för varje kolumn istället:
DataFrame.info()
7. DataFrame.describe
De beskriva() funktionen ger dig sammanfattande statistik för en DataFrame:
DataFrame.describe()
8. DataFrame.replace
Använda DataFrame.replace() metod i pandor kan du ersätta valda rader med andra värden.
Till exempel att byta ogiltiga rader med Nan:
# Se till att du installerar numpy för att detta ska fungera
importera numpy
importera pandor
# Om du lägger till ett inplace-sökord och ställer in det till True blir ändringarna permanenta:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
print (DataFrame)
9. DataFrame.fillna
Denna funktion låter dig fylla tomma rader med ett visst värde. Du kan fylla alla Nan rader i en datauppsättning med medelvärdet, till exempel:
DataFrame.fillna (df.mean(), inplace = True)
print (DataFrame)
Du kan också vara kolumnspecifik:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
print (DataFrame)
10. DataFrame.dropna
De dropna() metod tar bort alla rader som innehåller nollvärden:
DataFrame.dropna (inplace = True)
print (DataFrame)
11. DataFrame.insert
Du kan använda pandor Föra in() funktion för att lägga till en ny kolumn i en DataFrame. Den accepterar tre nyckelord, den kolumnnamn, en lista över dess data och dess plats, som är ett kolumnindex.
Så här fungerar det:
DataFrame.insert (kolumn = 'C', värde = [3, 4, 6, 7], loc=0)
print (DataFrame)
Ovanstående kod infogar den nya kolumnen vid nollkolumnindex (det blir den första kolumnen).
12. DataFrame.loc
Du kan använda loc för att hitta elementen i ett visst index. För att se alla objekt på den tredje raden, till exempel:
DataFrame.loc[2]
13. DataFrame.pop
Denna funktion låter dig ta bort en specificerad kolumn från en pandas DataFrame.
Den accepterar en Artikel nyckelord, returnerar den poppade kolumnen och separerar den från resten av DataFrame:
DataFrame.pop (item= 'column_name')
print (DataFrame)
14. DataFrame.max, min
Att få maximala och lägsta värden med pandor är enkelt:
DataFrame.min()
Ovanstående kod returnerar minimivärdet för varje kolumn. För att få maximalt, byt ut min med max.
15. DataFrame.join
De Ansluta sig() funktion av pandas låter dig slå samman DataFrames med olika kolumnnamn. Du kan använda vänster, höger, inre eller yttre sammanfogning. För att gå med i en DataFrame med två andra:
# Vänsterfoga längre kolumner med kortare
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
print (newDataFrame)
För att ansluta DataFrames med liknande kolumnnamn kan du skilja dem åt genom att inkludera ett suffix till vänster eller höger. Gör detta genom att inkludera lsuffix eller rsuffix nyckelord:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
print (newDataFrame)
16. DataFrame.combine
De kombinera() funktionen är praktisk för att slå samman två DataFrames som innehåller liknande kolumnnamn baserat på angivna kriterier. Den accepterar en fungera nyckelord.
Till exempel, för att slå samman två DataFrames med liknande kolumnnamn endast baserat på de maximala värdena:
newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)
Notera: Du kan också definiera en anpassad valfunktion och infoga numpy.minimum.
17. DataFrame.astype
De astype() funktionen ändrar datatypen för en viss kolumn eller DataFrame.
För att ändra alla värden i en DataFrame till sträng, till exempel:
DataFrame.astype (str)
18. DataFrame.sum
De belopp() funktion i pandor returnerar summan av värdena i varje kolumn:
DataFrame.sum()
Du kan också hitta den ackumulerade summan av alla föremål som använder cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandor släppa() funktionen tar bort specifika rader eller kolumner i en DataFrame. Du måste ange kolumnnamn eller radindex och en axel för att använda det.
Så här tar du bort specifika kolumner, till exempel:
df.drop (kolumner=['kolumn1', 'kolumn2'], axel=0)
Så här släpper du rader på index 1, 3 och 4, till exempel:
df.drop([1, 3, 4], axel=0)
20. DataFrame.corr
Vill du hitta korrelationen mellan heltals- eller flytande kolumner? pandor kan hjälpa dig att uppnå det med hjälp av corr() fungera:
DataFrame.corr()
Ovanstående kod returnerar en ny DataFrame som innehåller korrelationssekvensen mellan alla heltals- eller flytande kolumner.
21. DataFrame.add
De Lägg till() funktionen låter dig lägga till ett specifikt nummer till varje värde i DataFrame. Det fungerar genom att iterera genom en DataFrame och arbeta på varje objekt.
Relaterad:Hur man använder för loopar i Python
För att lägga till 20 till vart och ett av värdena i en specifik kolumn som innehåller heltal eller flytande, till exempel:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Precis som additionsfunktionen kan du också subtrahera ett tal från varje värde i en DataFrame eller specifik kolumn:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Detta är en multiplikationsversion av additionsfunktionen för pandor:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
På samma sätt kan du dividera varje datapunkt i en kolumn eller DataFrame med ett specifikt nummer:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Använda std() funktion låter pandas dig också beräkna standardavvikelsen för varje kolumn i en DataFrame. Det fungerar genom att iterera genom varje kolumn i en datauppsättning och beräkna standardavvikelsen för varje:
DataFrame.std()
26. DataFrame.sort_values
Du kan också sortera värden stigande eller fallande baserat på en viss kolumn. Så här sorterar du en DataFrame i fallande ordning, till exempel:
newDataFrame = DataFrame.sort_values (by = "colmun_name", fallande = True)
27. DataFrame.melt
De smälta() funktion i pandor vänder kolumnerna i en DataFrame till enskilda rader. Det är som att exponera anatomin i en DataFrame. Så det låter dig visa värdet som tilldelats varje kolumn explicit.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Denna funktion returnerar det totala antalet objekt i varje kolumn:
DataFrame.count()
29. DataFrame.query
pandor fråga() låter dig ringa objekt med deras indexnummer. För att få objekten i den tredje raden, till exempel:
DataFrame.query('4') # Anropa frågan på det fjärde indexet
30. DataFrame.where
De var() funktion är en pandafråga som accepterar ett villkor för att få specifika värden i en kolumn. Till exempel att få alla åldrar under 30 från en Ålder kolumn:
DataFrame.where (DataFrame['Age'] < 30)
Ovanstående kod matar ut en DataFrame som innehåller alla åldrar under 30 men tilldelar Nan till rader som inte uppfyller villkoret.
Hantera data som ett proffs med pandor
pandas är en skattkammare av funktioner och metoder för att hantera små till storskaliga datamängder med Python. Biblioteket är också praktiskt för att rengöra, validera och förbereda data för analys eller maskininlärning.
Att ta sig tid att bemästra det gör definitivt ditt liv enklare som dataforskare, och det är väl värt ansträngningen. Så plocka gärna upp alla funktioner du kan hantera.
Python Standard Library innehåller många funktioner som hjälper dig med dina programmeringsuppgifter. Lär dig mer om det mest användbara och skapa mer robust kod.
Läs Nästa
- Programmering
- Pytonorm
- Programmering
- databas
Idowu brinner för allt smart teknik och produktivitet. På fritiden leker han med kodning och byter till schackbrädet när han har tråkigt, men han älskar också att bryta sig loss från rutinen då och då. Hans passion för att visa människor vägen runt modern teknik motiverar honom att skriva mer.
Prenumerera på vårt nyhetsbrev
Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e-böcker och exklusiva erbjudanden!
Klicka här för att prenumerera