Informationen von (Kino-)Filmen auslesen (wirklich dringend)

CPU

Lieutenant
Registriert
Jan. 2006
Beiträge
704
Hallo,

ich arbeite gerade an einem Projekt, dass sich mit Kinofilmen beschäftigt, mit denen bestimmte Operationen durchgeführt werden sollen bzw. wozu ein Programm geschrieben werden soll.

Unser Lehrer hat uns also eine Liste mit ca. 600 Filmtiteln gegeben. Damit mein späteres Programm auch funktioniert, muss ich jedoch zunächst die Filme in einer Datenbank haben. Doch das ist nicht das Problem; das Problem ist, dass ich nicht weiß, woher ich Informationen über den jeweiligen Film bekomme.

Ich hatte mir überlegt, dass man sich soetwas ähnliches wie einen Bot bauen könnte, der dann z.B. auf Wikipedia oder der Imdb die Informationen wie Länge, Altersfreigabe, Regie etc. ausließt. Das habe ich auch gemacht, doch nach mehreren Stunden aufgegben, da ich es nicht hinbekommen habe.

Nun frage ich hier mal nach und hoffe, dass mir jemand helfen kann: Woher bekomme ich also Filminformationen, die ich maschinell verarbeiten kann? Ich kann ja nicht 600 Filme per Hand einfügen!

Vielen Dank schon mal vorab,
CPU :(
 
Naja das mit wikipedia ist doch schonmal ne ganz interessante sache ;)
Lies einfach die dazugehörigen Wikipedia Seite für den Filmtitel aus, und parse den HTML code nach ein paar Regulären Ausdrücken, und schon hast du deine Informationen ;)

Für sowas gibts aber sicher auch bessere Webseiten, aber die kenne ich nicht, da ich mir alle infos immer über wikipedia hole.

Das beste wär natürlich eine Webseite, die RSS feeds für filme anbietet.
 
http://www.imdb.com/interfaces das (insbesondere die Textfiles zum Download) dürfte für dich interessant sein. Die IMDB-Seiten mit einem Bot parsen ist aber bei der relativ geringen Menge an Filmen durchaus einfacher (und vor Allem braucht es nicht so viel Traffic) und eigtl. kein großes Problem (PHP und Regular Expressions würde ich mal sagen). Das gilt allerdings nur solange du die Informationen nicht kommerziell verwendest (ist bei den Textfiles genauso!), denn ansonsten hättest du ein lizenzrechtliches Problem.
 
Hallo,

wie gesagt, mit regex habe ich das schon ausprobiert ... ich finde, das ist so eine Sache ... :(! Außerdem ist das ganze nicht komerziell gedacht (Unterricht!) und wird auch niemals so verwendet werden.

Diese Text- bzw. List-Dateien verwirren mich. Es gibt hierzu ja JMDB (Java Movie Database), um diese Dateien (ftp://ftp.fu-berlin.de/pub/misc/movies/database/) zu parsen - doch das dauert zu lange.

Nun bin ich hierauf: http://www.imdb.com/Licensing/structure.html gestoßen. Das ist ja praktisch ein Datenbankaufbau - kann man hier irgendwie Informationen auslesen?
 
Ich bekomme das mit den RegEx nicht hin!!!

Hillllfeee! :(
 
Die Datenbankstruktur gehört dazu: http://www.imdb.com/help/licensing/contact
To help us better understand how IMDb content licensing solutions can best meet your needs, please complete the form below. We offer licensing packages that start at US$15,000 per year.
Ich glaube kaum, dass das für dich relevant ist :D

Die Textdateien sind halt unsortierte Rohdateien. Man muss diese eben einlesen und in eine Datenbank speichern - dann gehts auch schneller als mit dem Ad-hoc-Java-Programm.

Eine fertige Lösung wird dir hier sicher keiner geben. Das ist schließlich deine Hausaufgabe/Projektaufgabe und soll damit auch deine Fähigkeiten schärfen. Der Lehrer stellt das ja nicht aus Schikane sondern damit du was lernst. Da musst du dich halt mal bisschen reinbeißen. Bei konkreten Fragen kann man aber sicherlich helfen.
 
Um eins klarzustellen, es geht hier nicht darum, dass jemand mir meine Aufgaben macht - das will ich schon selber machen! Doch das eigendliche Projekt erfordert halt diese Datenbank und da habe ich mich wohl ein bisschen überschätzt ... :D ... vllt. hat sich deswegen keiner gemeldet?? :)

Ich bin auf folgendes gestoßen: http://www.phpclasses.org/browse/package/1253.html. Funktioniert leider bei mir nicht!!

CPU
 
Bin da nicht registriert aber vermutlich wird das halt etwas älter sein und daher nicht mehr funktionieren. Ich habe mal gerade das geladen: http://sourceforge.net/projects/imdbphp/ . Das funktioniert und scheint dank dem objektorientiertem Aufbau und Doku auch sehr einfach in eigenen Projekten verwendbar zu sein.

Um eins klarzustellen, es geht hier nicht darum, dass jemand mir meine Aufgaben macht - das will ich schon selber machen!
Dazu musst du aber auch konkrete Fragen stellen. Aussagen wie
Ich bekomme das mit den RegEx nicht hin!!!

Hillllfeee!
oder
Ich bin auf folgendes gestoßen: http://www.phpclasses.org/browse/package/1253.html. Funktioniert leider bei mir nicht!!
sind aber keine konkreten Fragen sondern hören sich eher nach Betteln für fertigen Code an.
 
Zuletzt bearbeitet:
Ich gebe ja zu, dass ich ein bisschen hilflos war und nach Code gebettelt habe :)! Ich finde solche Parser-Geschichten nicht sehr toll, da ich eine art Perfektionist bin und immer eine Garantie dafür haben möchte, dass die Daten stimmen ... und hier kann ich ja nicht 600 Filme prüfen ... :D

Naja, aber ich habe den "imdb_parser-2008-06-03" gefunden. Bis jetzt ist dieser funktionstüchtig. Einziges Problem ist, dass das ganze nur für die englische Version funktioniert. Da ich jedoch dem Englischen mächtig bin und auf der englischsprachigen IMDB vllt. mehr Filme verfügbar sind und zusätzlich ich ja keinen Inhalt abfrage, ist mir das egal.
 
Ich wollt mich nochmal bedanken für die Hilfe ... es hat einigermaßen funktioniert (es bleiben zwar ein Paar Filme übrig, die ich per Hand ergänzen muss ...) :freaky:
 
Notfalls hätte ich dir auch einen Codeschnipsel geben können, welchen ich mal vor 1 Jahr programmiert habe. Dieser holt sich die Informationen von www.kino.de. Dort findet man auch sogut wie alle Filme.

Falls du noch Interesse hast, einfach PN an mich oder ICQ. 112402029
 
Zurück
Oben