PDF Dokumente durchsuchbar machen

  • Hallo,


    ich speichere meine eingescannten PDF Dateien auf der QNAP TS-253B. Gibt es eine Möglichkeit, diese dort durchsuchbar zu machen, so dass ich diese dann auf dem Mac mit Spotlight nutzen kann?

  • Hallo,

    die erste Frage wäre ja, ob Deine Dokumente bereits per OCR durchsuchbar gemacht wurden. Das hängt letztlich von Deiner eingesetzten Software ab. Ich würde auf jeden Fall empfehlen, das auf dem PC zu machen. Es gibt zwar eine OCR App von QNAP, aber ich würde da die Erwartungen nicht zu hoch setzen. Meines Wissen ist die eingesetzte Engine dort Tesseract, die zwar ganz ok ist, aber weit entfernt von den kommerziellen Kanditaten wie bspw. Abbyy Finereader.


    Ansonsten müsste Du dann lediglich QSirch installieren. Dieses indiziert von selbst auch PDF Dokumente. Allerdings sind meine Erfahrungen damit durchwachsen. Z.b. hat es auf einem Xeon NAS Reaktionszeiten von bis zu 30 Sekunden. Auch die Steuerung der Indizierung ist für meinen Geschmack ziemlich schlecht gelöst. Man kann nämlich nur ausschliessen, anstelle ähnlich wie bei der Medienbibliothek explizit Medien/Dokumentenordner anzugeben. Und die Kombination von Suchoperatoren ist ebenfalls eher rudimentär.


    Spotlight sagt mir zunächst nichts. Das müsste dann vmtl. einen Indexer auf dem NAS ausführen. Oder Du bindest die Dokumentenfreigabe als Netzlaufwerk ein, womöglich wäre dein Tool dann in der Lage, die Dokumente in den Index aufzunehmen.

  • Möchte einfach meine Unterlagen in den Scanner legen, alles OHNE PC / MAC scannen, soll auf NAS gespeichert werden und bitte OCR verarbeitet werden.


    Welche Software meinst du denn von QNAP? QSirch? weil dies macht aus einer PDF leider keine durchsuchbare Datei...


    Habe nun mal OCR Converter auf dem NAS getestet. Muss da allerdings als JPEG Einscannen und dann leider nur jeweils Seite :(

    Einmal editiert, zuletzt von columbo1979 ()

  • Bei unserem günstigen Canon Lide Scanner war eine Software dabei, damit werden PDF erstellt und der Text dank OCR lesbar. Was du aktuell haben möchtest, gibt es nicht von QNAP.


    Sicherlich gibt es dafür die passende Software für deinen PC/Mac.

  • Für den PC gibt es z.B. Agent Ransack. Das bietet umfangreiche Suchmöglichkeiten, u.a. nach Dateinamen oder -inhalten.


    Gruss

  • Möchte einfach meine Unterlagen in den Scanner legen, alles OHNE PC / MAC scannen, soll auf NAS gespeichert werden und bitte OCR verarbeitet werden.

    Es ginge wahrscheinlich, wenn Du einen Netzwerkfähigen Scanner hast, der direkt auf eine SMB Freigabe Scannen kann. Dann könnstest Du mit dem OCR Converter und ggf. QFiling einen entsprechenden Task anlegen, der automatisch die in die Freigabe gescannten Dokumente nach PDF umwandelt. Die Qualität wird aber höchstwahrscheinlich mittelmäßig sein, wenn man professionelle Programme wie bspw. Finereader zugrundelegt.


    QSirch dient nur der Indizierung auf dem NAS.


    Ich habs mal eben ausprobiert: soweit ich sehen kann unterstützt QOCR jpg, png, tiff. Bei Multipage TIFF wird auch ein mehrseitiges PDF erzeugt. Die Erkennungsrate ist mittelmäßig. Wenn man es nur zum indizieren braucht wird es reichen. Ansonsten muss man eben doch Geld in die Hand nehmen.


    Eine Variante wäre übrigens Scannen mit dem Handy. Wenn man sich einen einfachen Stand bastelt und mit einer passenden App dürfte man wesentlich schneller sein, als mit einem ganz simplen Flachbettscanner.

    Einmal editiert, zuletzt von nasferatu ()

  • Vor einer Weile hatte ich dazu mal ein Video gemacht, aber ist vermutlich auch das was du bereits getestet hast.


    Externer Inhalt www.youtube.com
    Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.
    Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.

  • Also ich nutze dazu die oben schon genannte App »OCR Converter«. Ich habe einen Ordner in den alle Scans abgelegt werden. Dann lege ich so ein Schedule-Dingsbums an für den Ordner, zum Beispiel das täglich um 12 Uhr alle Dokumente da drin die Texterkennung durchlaufen. Dann kann ich den ganzen Vormittag scannen (der Scanner ist so eingestellt, dass er alle Scans in den definierten Ordner ablegt), gehe Mittag essen, um 12 fängt das NAS dann an Texterkennung zu machen und ich pieke mit der Gabel in ein Schnitzel. Dann kaue ich das und schlucke unter. Wenn ich nach dem Essen wieder an den Rechner gehe, mir die fettigen Finger am Hemd abwische, damit Maus und Tastatur nicht schmutzig werden, dann habe ich die fertigen PDFs im Ordner.


    Der Nachteil ist, dass »täglich« das kleinste Intervall ist. Mann könnte das aber auch nachts machen lassen, scannt den ganzen Tag und hat die fertigen PDFs am nächsten Tag. Kommt immer darauf an, wie schnell man das braucht. So eine permanente Kontrolle, ob neue Dateien da sind, wäre eine schöne Sache. Mal dem Hersteller einen förmlichen Brief schreiben.

  • Seit Version QTS 4.3.5 unterstützen QNAP NAS Spotlight. Dazu ist allerdings QSirch zu installieren. D.h. QSirch installieren, PDFs von QSirch indizieren lassen, Shared Folder mounten und voila, Spotlight findet Texte in allen von QSirch indizierten PDFs. Wie oben beschrieben müssen die PDFs dazu aber Texte und nicht Bilder von Texten enthalten.

  • Horst: So plane ich dies auch. Geht allerdings nur mit einzelne Dokumenten. Habe ich ein Dokument mit mehreren Seiten, macht er beim Einscannen immer nur einzelne Seiten und speichert diese einzeln. Scanne diese als JPG ein. Kann auch als PDF drucken und dann auf dem NAS speichern, aber der Converter kann ja leider nur mit Bildern umgehen,. Wie machst es mit mehrseitigen Dokumenten?

  • Ich hatte bis jetzt nur Einzelseiten. Meine Beschreibung klingt dummerweise auch so, als wäre meine Scannerei umfangreicher, als sie tatsächlich ist.

  • columbo1979 ähnliche Anforderungen habe ich auch und deshalb komme ich um einen Scan am PC nicht drum herum. Die OCR Erkennung auf Bildern ist ok aber bei Dokumenten mir mehr als nur 1 Seite stößt man an die Grenzen. Denn wer möchte schon 1 Dokument was aus beispielsweise 5 Seiten besteht in 5 einzelnen PDF Dateien öffnen?!


    tuxflo leider gibt es bis heute keine preislich attraktiven Dokumentenscanner. Vor Jahren wollte ich einen Fujitsu ScanSnap haben, aber letztendlich ist der mir für die Anwendungen dann doch zu teuer.


    Grüße

    Christian

  • Horst Girtew

    Wie schon gesagt: wenn man einen Scanner hat, der Multipage TIFF Files erzeugen kann, dann kann man mit dem OCR Converter auch mehrseitige PDFs erzeugen.


    ider gibt es bis heute keine preislich attraktiven Dokumentenscanner. Vor Jahren wollte ich einen Fujitsu ScanSnap haben, aber letztendlich ist der mir für die Anwendungen dann doch zu teuer.

    Ja, um den ( oder etwas ähnliches von Epson bspw.) schleiche ich auch schon seit Jahren herum. Irgendwann werde ich mir sowas auch ins Haus stellen, denn wenn man wirklich mal einen Aktenordner etc. einscannen will, dann ist alles andere Spielzeug. Aber wenn man nur alle paar Tage ein einzelne Seite scannt, kommt man mittlerweile wahrscheinlich schon einfacher hin, wenn man es mit einer Handy App und ggf. einem kleinen Selbstbau Reproständer macht.


    Ansonsten wünsche ich jetzt schonmal allen ruhige und friedvolle Feiertage und ein schönes Weihnachtsfest!

  • Ich habe mir einen gebrauchten Fujitsu S500 für ca. 50€ geholt und es bisher nicht bereut. Schon allein wegen der Möglichkeit "unkompliziert" einen Duplexscan durchführen zu können, hat sich die Anschaffung gelohnt.

  • wobei ich unbedingt einen netzwerkfähigen haben wollte.

    Geht mir auch so.

    Mit gebrauchten Scannern bin ich vorsichtig, wenn ich nicht weiß, wie viele Seiten schon gescannt wurden. Ist ja viel Mechanik darin.

    Ich für meinen Teil nutze einen Allinone Brother MFC-2700DW mit LAN. Leider hat er keine zuweisbaren Tasten, aber für den Heimgebrauch reicht er.

    Wenn man seine Aktenordner einscannen will, gibt es auch Geräte zu mieten.

  • Ich hab den CanoScan 9000F Mark II, Flachbett und ohne Netzwerk, aber als Scanner schon ein schönes Teilchen. Aber einer gewissen Größenordnung, also ordnerweise Dokumente einscannen, würde ich mir schon einen speziellen Dokumentenscanner kaufen. Ist jetzt nur spekulativ, aber da sollten doch eigentlich OCR und mehrseitiges Scannen zur Grundausstattung gehören.


    Aber wie gesagt: Aufwand–Nutzen, also die Größenordnung der Scanarbeit wäre da maßgeblich.

  • Ist jetzt nur spekulativ, aber da sollten doch eigentlich OCR und mehrseitiges Scannen zur Grundausstattung gehören.

    Duplex-Scan ja, OCR ist Software, also Augen auf beim Scanner-Kauf.

    Aufwand–Nutzen, also die Größenordnung der Scanarbeit wäre da maßgeblich.

    Sehe ich auch so. Für das Homeoffice reicht ein Allinone.

    Wenn man ganze Ordner scannen will, sollte man sich ein Gerät mieten.

    Das ganze für Homeoffice.


    Edit: Beim Kauf des MFC-2700DW gab es PaperPort 12 se dazu, eine überaus nützliche Software kann u.a. auch durchsuchbare PDFs erzeugen.

    2 Mal editiert, zuletzt von frosch2 ()