Internet Movie Database (IMDb) är den största onlinedatabasen som innehåller information relaterad till filmer, tv-serier, hemmavideor, videospel och strömmande innehåll. Onlinedatabasen innehåller miljontals korrekta register som du kan använda för att utföra dataanalys.

Cinemagoer (tidigare känt som IMDbPY) är ett Python-bibliotek för att hantera och hämta data från IMDb-filmdatabasen. Du kan komma åt data om filmer, människor och företag, som kan användas vidare för analys.

Installera nödvändiga bibliotek

Du måste installera biobesökare Python-biblioteket för att komma åt IMDb databas. Kör följande kommando i kommandotolken för att installera biblioteket:

pip Installera biobesökare

Du måste ha pip installerad på ditt system för att installera externa Python-bibliotek.

Koden som används i detta projekt är tillgänglig i en GitHub-förråd och är gratis för dig att använda under MIT-licensen.

Extrahera IMDb-data med Python

Du måste importera biobesökarbiblioteket innan du använder det i din kod.

instagram viewer
från imdb importera Biograf
ia = Biograf()

Ovanstående kod importerar biobesökarbiblioteket och skapar en instans av biobesökarklassen.

Söker filmer

Du kan söka efter filmer med en given (eller liknande) titel med hjälp av search_movie() metod. Om du till exempel vill söka efter filmer med titeln "rock", måste du köra följande kod:

från imdb importera Biograf

# Skapa en instans av Cinemagoer-klassen
ia = Biograf()

# Söker efter filmer som har rock i sitt namn
filmer = ia.search_movie('sten')
skriva ut(filmer[0])

Detta bör skriva ut den första filmen den hittar, till exempel:

Du kan få en film med dess IMDb-ID. Du kan sedan extrahera ytterligare information som regissörsnamn och genrer. Du behöver gå igenom listan för att få individuell information.

från imdb importera Biograf

# Skapa en instans av Cinemagoer-klassen
ia = Biograf()

# Skaffa film med IMDb ID
film = ia.get_movie('0468569')
skriva ut(film)

# Skriver ut namnen på regissörerna för filmen
skriva ut('Regissörer:')

för regissör i film['direktörer']:
print (direktör['namn'])

# skriva ut filmens genrer
skriva ut('Genrer:')

för genre i film['genrer']:
skriva ut(genre)

I utgången bör du se namnet på den givna filmen, dess regissör(er) och dess genre(r):

Söker efter en person

Du kan söka efter personer med hjälp av sök_person() metod. Om du till exempel vill söka efter "Heath", måste du köra följande kod:

från imdb importera Biograf

# Skapa en instans av Cinemagoer-klassen
ia = Biograf()

# Söker efter personer som har Heath i sina namn
personer = ia.search_person('Hed')
skriva ut(personer[0])

Du kommer att se namnet på den första matchande personen som sökningen hittar:

Söker efter företag

Du kan söka efter företag med hjälp av sökföretag() metod. Om du till exempel vill söka efter "Universal", måste du köra följande kod:

från imdb importera Biograf

# Skapa en instans av Cinemagoer-klassen
ia = Biograf()

# Söker efter företag som har Universal i sina namn
företag = ia.search_company('Universell')
skriva ut(företag)

Du får listan över alla företag som har Universal i sitt namn.

Du kan också hämta en person- och företagsdata med hjälp av dess ID.

från imdb importera Biograf

# Skapa en instans av Cinemagoer-klassen
ia = Biograf()

# Hämta personuppgifter via ID
person = ia.get_person('0005132')
print (person['namn'])
print (person['födelsedatum'])

# Hämta företagsdata via ID
företag = ia.get_company('0005073')
print (företag['namn'])

Utdata kommer att visa information om personen och namnet på ett företag:

Hitta topp- och bottenfilmer

Du kan hämta data för topp 250 och lägsta 100 filmer med hjälp av get_top250_movies() och get_bottom100_movies() metoder, respektive:

från imdb importera Biograf

# Skapa en instans av Cinemagoer-klassen
ia = Biograf()

# Hitta de 250 bästa filmerna
top = ia.get_top250_movies()
skriva ut(topp[0])

# Hitta de 100 bästa filmerna
bottom = ia.get_bottom100_movies()
skriva ut(botten[0])

Som svar får du se namnet på den bästa filmen och namnet på den sämsta:

Biobesökarbiblioteket tillhandahåller även några andra metoder som get_top250_tv(), get_popular100_movies(), och get_top250_indian_movies().

Dataanalys är utvärdering av data med hjälp av analytiska eller statistiska verktyg för att extrahera information. Populariteten för dataanalys växer för varje dag. Det används nu av företag, marknadsföringsföretag och idrottslag. Den kompletta processen för dataanalys inkluderar att definiera mål, ställa frågor, datainsamling, dataskrubbning, dataanalys och avslutande resultat.

Du kan få datauppsättningar för dina projekt med Python-bibliotek som Cinemagoer eller via onlineplattformar som Kaggle. Vid sidan av fullständiga språk som Python och R kan du använda andra verktyg som Microsoft Excel, Tableau och Stata för att utföra dataanalys.