Pandabiblioteket gör pythonbaserad datavetenskap till en enkel resa. Det är ett populärt Python-bibliotek för att läsa, slå samman, sortera, rensa data och mer. Även om pandor är lätta att använda och applicera på datamängder, har den många datamanipulerande funktioner att lära sig.

Du kanske använder pandor, men det finns en god chans att du underutnyttjar den för att lösa datarelaterade problem. Här är vår lista över värdefulla data som manipulerar pandorfunktioner som alla dataforskare borde känna till.

Installera pandor i din virtuella miljö

Innan vi fortsätter, se till att du installerar pandor i din virtuella miljö med hjälp av pip:

pip installera pandor

När du har installerat det, importera pandor överst i ditt manus, och låt oss fortsätta.

1. pandor. DataFrame

Du använder pandor. DataFrame() för att skapa en DataFrame i pandor. Det finns två sätt att använda den här funktionen.

Du kan skapa en DataFrame kolumnvis genom att skicka en ordbok till pandor. DataFrame() fungera. Här är varje nyckel en kolumn, medan värdena är raderna:

instagram viewer
importera pandor
DataFrame = pandor. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)

Den andra metoden är att bilda DataFrame över rader. Men här ska du separera värdena (radobjekt) från kolumnerna. Antalet data i varje lista (raddata) måste också överensstämma med antalet kolumner.

importera pandor
DataFrame = pandor. DataFrame([[1, 4, 5], [7, 19, 13]], kolumner= ["J", "K", "L"])
print (DataFrame)

2. Läs från och skriv till Excel eller CSV i pandor

Du kan läsa eller skriva till Excel- eller CSV-filer med pandor.

Läser Excel- eller CSV-filer

För att läsa en Excel-fil:

#Ersätt exempel.xlsx med sökvägen till din Excel-fil
DataFrame = DataFrame.read_excel("example.xlsx")

Så här läser du en CSV-fil:

#Ersätt exempel.csv med sökvägen till din CSV-fil
DataFrame = DataFrame.read_csv("example.csv")

Skriver till Excel eller CSV

Att skriva till Excel eller CSV är en välkänd pandaoperation. Och det är praktiskt för att spara nyligen beräknade tabeller i separata datablad.

Så här skriver du till ett Excel-ark:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Om du vill skriva till CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Du kan också beräkna de centrala tendenserna för varje kolumn i en DataFrame med hjälp av pandor.

Så här får du medelvärdet för varje kolumn:

DataFrame.mean()

För median- eller lägesvärde, ersätt betyda() med median() eller läge().

4. DataFrame.transform

pandor DataFrame.transform() ändrar värdena för en DataFrame. Den accepterar en funktion som ett argument.

Till exempel multiplicerar koden nedan varje värde i en DataFrame med tre med hjälp av Pythons lambdafunktion:

DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)

5. DataFrame.isnull

Denna funktion returnerar ett booleskt värde och flaggar alla rader som innehåller nollvärden som Sann:

DataFrame.isnull()

Resultatet av ovanstående kod kan vara svårt att läsa för större datamängder. Så du kan använda isnull().sum() funktion istället. Detta returnerar en sammanfattning av alla saknade värden för varje kolumn:

DataFrame.isnull().sum()

6. Dataframe.info

De info() funktion är en nödvändig pandaoperation. Den returnerar en sammanfattning av värden som inte saknas för varje kolumn istället:

DataFrame.info()

7. DataFrame.describe

De beskriva() funktionen ger dig sammanfattande statistik för en DataFrame:

DataFrame.describe()

8. DataFrame.replace

Använda DataFrame.replace() metod i pandor kan du ersätta valda rader med andra värden.

Till exempel att byta ogiltiga rader med Nan:

# Se till att du installerar numpy för att detta ska fungera
importera numpy
importera pandor
# Om du lägger till ett inplace-sökord och ställer in det till True blir ändringarna permanenta:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
print (DataFrame)

9. DataFrame.fillna

Denna funktion låter dig fylla tomma rader med ett visst värde. Du kan fylla alla Nan rader i en datauppsättning med medelvärdet, till exempel:

DataFrame.fillna (df.mean(), inplace = True)
print (DataFrame)

Du kan också vara kolumnspecifik:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
print (DataFrame)

10. DataFrame.dropna

De dropna() metod tar bort alla rader som innehåller nollvärden:

DataFrame.dropna (inplace = True)
print (DataFrame)

11. DataFrame.insert

Du kan använda pandor Föra in() funktion för att lägga till en ny kolumn i en DataFrame. Den accepterar tre nyckelord, den kolumnnamn, en lista över dess data och dess plats, som är ett kolumnindex.

Så här fungerar det:

DataFrame.insert (kolumn = 'C', värde = [3, 4, 6, 7], loc=0)
print (DataFrame)

Ovanstående kod infogar den nya kolumnen vid nollkolumnindex (det blir den första kolumnen).

12. DataFrame.loc

Du kan använda loc för att hitta elementen i ett visst index. För att se alla objekt på den tredje raden, till exempel:

DataFrame.loc[2]

13. DataFrame.pop

Denna funktion låter dig ta bort en specificerad kolumn från en pandas DataFrame.

Den accepterar en Artikel nyckelord, returnerar den poppade kolumnen och separerar den från resten av DataFrame:

DataFrame.pop (item= 'column_name')
print (DataFrame)

14. DataFrame.max, min

Att få maximala och lägsta värden med pandor är enkelt:

DataFrame.min()

Ovanstående kod returnerar minimivärdet för varje kolumn. För att få maximalt, byt ut min med max.

15. DataFrame.join

De Ansluta sig() funktion av pandas låter dig slå samman DataFrames med olika kolumnnamn. Du kan använda vänster, höger, inre eller yttre sammanfogning. För att gå med i en DataFrame med två andra:

# Vänsterfoga längre kolumner med kortare
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
print (newDataFrame)

För att ansluta DataFrames med liknande kolumnnamn kan du skilja dem åt genom att inkludera ett suffix till vänster eller höger. Gör detta genom att inkludera lsuffix eller rsuffix nyckelord:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
print (newDataFrame)

16. DataFrame.combine

De kombinera() funktionen är praktisk för att slå samman två DataFrames som innehåller liknande kolumnnamn baserat på angivna kriterier. Den accepterar en fungera nyckelord.

Till exempel, för att slå samman två DataFrames med liknande kolumnnamn endast baserat på de maximala värdena:

newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)

Notera: Du kan också definiera en anpassad valfunktion och infoga numpy.minimum.

17. DataFrame.astype

De astype() funktionen ändrar datatypen för en viss kolumn eller DataFrame.

För att ändra alla värden i en DataFrame till sträng, till exempel:

DataFrame.astype (str)

18. DataFrame.sum

De belopp() funktion i pandor returnerar summan av värdena i varje kolumn:

DataFrame.sum()

Du kan också hitta den ackumulerade summan av alla föremål som använder cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandor släppa() funktionen tar bort specifika rader eller kolumner i en DataFrame. Du måste ange kolumnnamn eller radindex och en axel för att använda det.

Så här tar du bort specifika kolumner, till exempel:

df.drop (kolumner=['kolumn1', 'kolumn2'], axel=0)

Så här släpper du rader på index 1, 3 och 4, till exempel:

df.drop([1, 3, 4], axel=0)

20. DataFrame.corr

Vill du hitta korrelationen mellan heltals- eller flytande kolumner? pandor kan hjälpa dig att uppnå det med hjälp av corr() fungera:

DataFrame.corr()

Ovanstående kod returnerar en ny DataFrame som innehåller korrelationssekvensen mellan alla heltals- eller flytande kolumner.

21. DataFrame.add

De Lägg till() funktionen låter dig lägga till ett specifikt nummer till varje värde i DataFrame. Det fungerar genom att iterera genom en DataFrame och arbeta på varje objekt.

Relaterad:Hur man använder för loopar i Python

För att lägga till 20 till vart och ett av värdena i en specifik kolumn som innehåller heltal eller flytande, till exempel:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Precis som additionsfunktionen kan du också subtrahera ett tal från varje värde i en DataFrame eller specifik kolumn:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Detta är en multiplikationsversion av additionsfunktionen för pandor:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

På samma sätt kan du dividera varje datapunkt i en kolumn eller DataFrame med ett specifikt nummer:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Använda std() funktion låter pandas dig också beräkna standardavvikelsen för varje kolumn i en DataFrame. Det fungerar genom att iterera genom varje kolumn i en datauppsättning och beräkna standardavvikelsen för varje:

DataFrame.std()

26. DataFrame.sort_values

Du kan också sortera värden stigande eller fallande baserat på en viss kolumn. Så här sorterar du en DataFrame i fallande ordning, till exempel:

newDataFrame = DataFrame.sort_values ​​(by = "colmun_name", fallande = True)

27. DataFrame.melt

De smälta() funktion i pandor vänder kolumnerna i en DataFrame till enskilda rader. Det är som att exponera anatomin i en DataFrame. Så det låter dig visa värdet som tilldelats varje kolumn explicit.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Denna funktion returnerar det totala antalet objekt i varje kolumn:

DataFrame.count()

29. DataFrame.query

pandor fråga() låter dig ringa objekt med deras indexnummer. För att få objekten i den tredje raden, till exempel:

DataFrame.query('4') # Anropa frågan på det fjärde indexet

30. DataFrame.where

De var() funktion är en pandafråga som accepterar ett villkor för att få specifika värden i en kolumn. Till exempel att få alla åldrar under 30 från en Ålder kolumn:

DataFrame.where (DataFrame['Age'] < 30)

Ovanstående kod matar ut en DataFrame som innehåller alla åldrar under 30 men tilldelar Nan till rader som inte uppfyller villkoret.

Hantera data som ett proffs med pandor

pandas är en skattkammare av funktioner och metoder för att hantera små till storskaliga datamängder med Python. Biblioteket är också praktiskt för att rengöra, validera och förbereda data för analys eller maskininlärning.

Att ta sig tid att bemästra det gör definitivt ditt liv enklare som dataforskare, och det är väl värt ansträngningen. Så plocka gärna upp alla funktioner du kan hantera.

20 Python-funktioner du bör känna till

Python Standard Library innehåller många funktioner som hjälper dig med dina programmeringsuppgifter. Lär dig mer om det mest användbara och skapa mer robust kod.

Läs Nästa

Dela med sigTweetE-post
Relaterade ämnen
  • Programmering
  • Pytonorm
  • Programmering
  • databas
Om författaren
Idowu Omisola (123 artiklar publicerade)

Idowu brinner för allt smart teknik och produktivitet. På fritiden leker han med kodning och byter till schackbrädet när han har tråkigt, men han älskar också att bryta sig loss från rutinen då och då. Hans passion för att visa människor vägen runt modern teknik motiverar honom att skriva mer.

Mer från Idowu Omisola

Prenumerera på vårt nyhetsbrev

Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e-böcker och exklusiva erbjudanden!

Klicka här för att prenumerera