PDF Inhalte dursuchen

  • Hallo,


    gibt es eine Möglichkeit Inhalte von pdf Dateien zu durchsuchen oder sogar die Inhalte von Bilder ?


    Über den Windowsexplorer kann ich in Inhalten über die erweiterte suche suchen.


    Geht das auch irgendwie über qfile ?


    Gruß

  • Für den Zweck gibt es QSirch. Allerdings setzt das mind. 2GB Speicher (mehr ist allerdings sinnvoll) und (meine ich) ein x86 basiertes NAS vorraus. Leider sieht man bei Dir nicht, was Du bei Dir zu Hause stehen hast.


    Wichtig ist allerdings: QSirch ist ein ziemliches Schwergewicht, man sollte auf jeden Fall alle Orte ausschliessen, die man nicht unbedingt indiziert haben möchte. Sonst treibt man damit die CPU Last in ungeahnte Höhen. Mit QTS 4.3.3 bzw. Qsirch 3.x scheint es auch noch nicht so rund zu laufen, bei mir läuft noch die 2er Version rel. unaufällig. Davon abgesehen ist das aber ein wirklich nützliches Feature. Es gibt wohl auch Browser Addons, die habe ich aber noch nicht getestet.

  • hmmm, dass ist jetzt eine ziemlich magere Fehlerbeschreibung. Welche QSirch Version, welches QTS, was für ein NAS ? Bei mir mit QSirch 2.x funktioniert es an sich recht ordentlich, das indizieren dauert natürlich. Ich habe aber sicherlich 100000+ Dateien indiziert ( alles mögliche, nicht nur PDF).

  • Also, ich habs gestern mal getestet: bei mir sind ca. 800000 Dateien indiziert. Ich hab mal nach "QNAP" in PDF Dokumenten bei mir gesucht, und er hat brav z.B. die c't PDF Ausgaben ausgespuckt, in denen das Schlagwort stand. Leider markiert er nicht direkt die Fundstellen in der Vorschau, allerdings habe ich den Google Clouddienst abgeschaltet, weil ich meine Dokumente natürlich nicht für die Vorschau zu Google hochladen möchte...weiß nicht, ob QSirch3 da weiter ist...

    Einmal editiert, zuletzt von nasferatu ()

  • So jetzt hat die Indizierung mit Qsirch 3.01 auch geklappt nur leider stimmen die Ergebnisse nicht mit der suche im Windowsexplorer überein.
    Eine Datei fehlt leider über die Suche mit Qsirch.


    One Drive Online findet sogar den gesuchten Text in einem png Bild.


    Hat einer eine Idee ?

  • So jetzt hat die Indizierung mit Qsirch 3.01 auch geklappt nur leider stimmen die Ergebnisse nicht mit der suche im Windowsexplorer überein.
    Eine Datei fehlt leider über die Suche mit Qsirch.

    Hör mal, Deine Fehlerbeschreibungen sind wirklich ziemlich rudimentär. Was für eine Datei ? Text ? Bild ? Word Dokument ? Wo steht der Suchbegriff ? In der Datei, im Dateinamen, in Metainformationen ? Da kann keiner eine sinnvolle Antwort drauf geben.


    Davon abgesehen ist die Windows Suche bisweilen auch sehr zickig, mal findet sie alles, dann "übersieht" sie offensichtliche Dateien, man versteht es bisweilen nicht. Da können Kollegen von mir ein Lied drüber singen.


    QSirch basiert glaube ich auf ElasticSearch, insofern ist es an dessen Grenzen gebunden (und an die installierten Module, die Metadaten auswerten können, also PDFs z.B.). Das Onedrive OCR von PNG Dateien macht glaube ich gern(kann man auch irgendwo nachlesen meine ich), dass wäre aber von einem NAS schon etwas viel verlangt. Oder man integriert wirklich einen Webdienst, nur will man alle seine Bilder / Dokumente erstmal irgendwohin hochladen um sie zu verschlagworten ? Eigentlich doch eher das Gegenteil.

  • Hallo,


    Es handel sich um pdf Datein, die ich per Handy Scanne und ablege.
    Bis jetzt mache ich das auf One Drive um auch nach Wörtern innerhalb des pdf Dokuments suchen zu können.
    Das wollte ich gerne ablösen, aber mit meinem Nas bekomme ich das so nicht hin, weil ich auch das Problem habe, das die Suche dann per Handy nicht klappt.

  • Bis jetzt mache ich das auf One Drive um auch nach Wörtern innerhalb des pdf Dokuments suchen zu können.

    Die spannende Frage ist, ob deine Handy Scan App wirklich durchsuchbare PDFs erzeugt. Oder ob es sich bloss um PDFs mit Bildern handelt. Ich vermute mal, OneDrive wird im Zweifel einfach im Hintergrund die OCR anschmeissen, dass kann das NAS natürlich nicht. Natürlich kann auch das PDF Indizierungsmodul irgendein Problem mit dem PDF haben. Ist es denn ein eigenständiges Suchwort oder ein Teilstring ? Kann auch sein, dass QSirch hier ein Problem hat. Nutzt Du "Office Lens" von Microsoft? Die müsste m.E. auch durchsuchbare PDFs generieren. Habs aber bisher nicht wirklich getestet.

  • Falls dein Hauptanwendungszweck wirklich die Suche in gescannten PDF Dateien ist, könntest du dir auch mal ecoDMS anschauen. Ist nicht kostenlos, aber erfüllt bei mir einen wirklich guten Zweck (der Server kann per Container Station auf dem NAS laufen, die Clients gibt es für viele Betriebsysteme). Nach dem Scannen wird hier per tesseract ein OCR durchgeführt was zumindest bei mir auch ganz gute Ergebnisse liefert.