Datenbank für PDFs

Joshua · 9. Mai 2009

Folgendes Szenario: ich möchte für unser Institut auf dem institutseigenen Webserver (Windows Server 2003, Apache) eine Datenbank für PDFs einrichten, in der Diplomarbeiten und Dissertationen gespeichert und abgerufen werden können. Folglich sind folgende Punkte wichtig:

1. Ein Interface für die Speicherung der PDFs und Möglichkeit, Schlüsselwörter für die Suche einzugeben & später auch Suchen zu können. Die Lösung, alles "von Hand" hochzuladen und zu verlinken scheidet angesichts der Menge aus.
2. Als Konsequenz eine Datenbank. Ein SQL-Server läuft bereits, so dass eine SQL-Lösung bevorzugt wäre.
3. Eine Möglichkeit, die hochgeladenen PDFs entweder in einem Ordner oder aber in der Datenbank abzulegen, wobei letzteres wegen des erheblichen Platzbedarfs vermutlich keine optimale Lösung wäre.

Eine Perl-Lösung würde ich bevorzugen, leider reichen meine Programmierkenntnisse dafür leider nicht aus; mir fehlt die Erfahrung und das Wissen, wie man so etwas für eine Datei-Datenbank aufziehen würde. Für viele Forensoftwares exisiteren entsprechende Hacks, allerdings möchte ich keinen entsprechenden Foren-Unterbau auf dem Webserver installieren müssen. Google war bislang leider sehr unergiebig, aber vielleicht hat hier jemand eine Idee oder kennt eine entsprechende Software/Hack, mit dem ein solches Projekt zu realisieren ist. Vielen Dank schon an dieser Stelle!

CedBE · 9. Mai 2009

Werden die Diplomarbeiten und Dissertationen ihres Instituts mit (La)Tex formatiert bevor sie später in pdf Dateien umgewandelt werden?

bibTex - HTML Converter

Dieses Script könnte ich Ihnen empfehlen, falls dies der Fall sein sollte, sehr ressourcen schonend, wenig Aufwand - natürlich muss im Vorfeld alles konfiguriert werden, aber danach sollte es laufen.

Einlesen, und kurze (steile) Lernkurve ist Pflicht.

Joshua · 9. Mai 2009

Nicht unbedingt - es ist eher die Ausnahme als die Regel. Zur Zeit muss vor allem der vorhandene Bestand an PDFs in eine Datenbank eingepfegt werden.
Ich versuche mein Glück gerade mit Fileman, das nur leider ohne Schlüsselworte ist.

Yuri_Orlov · 11. Mai 2009

hi,

ganz genau in diesem Augenblick entwickle ich sowas!

Zur Technik:

1.) nach dem PDF upload wird das PDF in einzelne Seiten zerteilt.
--> pdftk.exe macht das.

PHP:

$copyoutputfile = "komplettes_pdf.pdf";
$cutpdf = session_id()."_%03d.pdf"; // %03d ist Platzhalter für den Seitenzähler 
passthru('pdftk processing/'.$copyoutputfile.' burst output processing/'. $cutpdf);

2.) jetzt aus den PDF's Thumb's für die Keywordzuordnung erzeugen
--> ImageMagick+GhostScript 8.xx macht das

PHP:

## $pdfnames enthählt alle aus Punkt 1 enstandenen Dateien.

foreach($pdfnames AS $key => $value) {
$thumbname = $sessid."_".$value[seite].".jpg";
passthru('convert -density 110 ./processing/'.$value[filename].' ./processing/'.$thumbname);
$_SESSION['finalarray'][] = array("file" => $value[filename], "thumb" => $thumbname, "seite" => $value[seite]); 
createcut($thumbname, "processing");
}

## die Funktion ceatecut() erzeugt aus dem kompletten JPG dann das Thumb.

das ist keine fertige Anleitung sondern nur der Core für die Lösung der Aufgabe, das ganze drum herum musst du natürlich noch entwickeln.

P.S.:
1.) das erzeugen der Thumbs benötigt ein gewisses Maß ein Rechenpower, am besten die Thumbs nicht löschen sonder mit zum PDF nach dbdata (oder wo auch immer) kopieren/Verschieben.

2.) Alle dokumente die exakt die selben Keywords vom User zugewiesen bekommen haben, sollten in 1 PDF gemerged werden:

PHP:

$filestomerge = "dok1.pdf dok2.pdf dok3.pdf";
passthru('pdftk '.$filestomerge.' cat output dbdata/mein_pdf_name.pdf');

Fragen? Frag!

Joshua · 11. Mai 2009

Vielen Dank schonmal so weit, ich sehe mir die Sache mal an - auch wenn mich jetzt schon deucht, dass ich mich da noch "etwas" einarbeiten muss. Danke!

BerniG · 11. Mai 2009

Normal müsste man mit GSview den Text auch komplett extrahieren können und somit eine Volltextsuche ermöglichen können (ich weiß aber nicht ob das überhaupt benötigt wird?). Müsstest dir mal anschauen. Den Text könnte man dann ine ne MySQL-Datenbank mit Fulltext-Index legen oder in spezielle Textdatenbanken wie Solr (Lucene) packen (wohl die bessere und performantere Lösung wenns große Mengen an Text sind).

Darii · 11. Mai 2009

Wäre vielleicht das was für dich? http://www.escidoc.org/

Destruction · 11. Mai 2009

Moin,
ich glaube das was ihr da macht ist viel zu umständlich.

Kann sein dass ich das falsch verstanden habe, aber für mich klingt das so als würdest du einfach eine DL Base haben wollen.

Falls du extra eine Programmiert haben willst für dich, dann schreib mich an und wir vereinbaren einen Preis.
Ansonsten kann ich dir

SMF ( www.simplemachines.org ) + Download Modification ( http://custom.simplemachines.org/mods/index.php?mod=992 ) empfehlen.

Joshua · 11. Mai 2009

Also erst einmal vielen Dank für die Vorschläge.

Escidoc bzw. pubman klingt sehr vielversprechend, die vielen Abhängigkeiten sind aber gelinde gesagt abschreckend und müssen erst auf einem zweiten Rechner getestet werden, bevor ich es auf den Institutsserver loslassen kann. Ich werde mir die Sache trotzdem mal genauer ansehen.

SMF wäre auch eine Lösung, gerne hätte ich aber einen Foren-Unterbau und die damit einhergehende Installation von PHP vermieden. Ich behalte es mal im Kopf. Besser als die aktuelle fileman-Lösung wäre es auf jeden Fall.

Zur Eigenprogrammierung: viele Features wie Volltextsuche etc. wären natürlich eine super Sache, objektiv betrachtet fehlen mir dafür sowohl die notwendigen Kenntnisse als auch die Zeit. Die Datenbank ist nur ein Nebenprojekt das parallel zu meiner normalen Arbeit laufen muss. Entsprechend wenig Zeit habe ich für die Realisierung - leider.

eulekerwe · 11. Mai 2009

Hallo,

Du bietest Dich als Programmierer an !

Folgendes Problem:

Ich habe mir in einer Excel-Tabelle eine Art Termin und Aufgabenplanung und -übersicht zusammengestellt. daraus oder mit diesen Funktionen würde ich gerne ein alltagstaugliches Programm entwickeln / entwickeln lassen !

Kanst Du Dir grob vorstellen, um was es geht, und wärst Du daran interessiert, so etwas zu programmieren oder mir zu helfen, es zu programmieren, falls Du das kannst ?

Destruction · 12. Mai 2009

Ich kann aber nur PHP programmieren

Suche

Datenbank für PDFs

Joshua

Captain Pro

CedBE

Lieutenant

Joshua

Captain Pro

Yuri_Orlov

Cadet 3rd Year

Joshua

Captain Pro

BerniG

Lieutenant

Darii

Lt. Junior Grade

Destruction

Ensign

Joshua

Captain Pro

eulekerwe

Banned

Destruction

Ensign

Ähnliche Themen