TagSpaces mittels ownCloud in Dockerumgebung installieren

  • Hallo zusammen,


    ich versuche gerade, die Software TagSpaces auf meinem QNAP in einer Dockerumgebung zu installieren. TagSpaces möchte ich dazu verwenden, PDF Dateien in meinem privaten papierlosen Büro zu taggen. Nach 4 Jahren papierlosen Büro mittels NAS komme ich mit dem klassischen Dateisystem-Ansatz an meine Grenzen. Es gibt PDFs, die passen beispielsweise sowohl in den Ordner "Versicherungen" als auch in "Auto". Weiterhin ist es mühsam, ein gutes Bennenungsschema der Dateien manuell zu unterhalten. Ich erhoffe mir mit Tagspaces etwas Abhilfe.


    Es gibt eine Installationsanleitung, welche einen ownCloud-Server vorsieht. Ich habe mit Hilfe dieses QNAP-Club Blogeintrags erfolgreich eine Dockerumgebung zum Laufen gebracht, auf deren Instanzen eine MariaDB und ownCloud laufen. Die Ausgangssituation ist also exakt wie im Blogeintrag beschrieben.


    Aber wie geht es jetzt weiter? Wie binde ich TagSpaces richtig ein?

    Was ich bisher erfolglos, nach dem Verständnis der TagSpaces Dokumentation, versucht habe:

    Ich habe einen weiteres Volume für den ownCloud-Docker in der docker-compose.yml angelegt. Die Volumes sehen nun so aus:

    Code
    1. volumes:
    2. - "/share/Container/owncloud/data:/var/www/html/data"
    3. - "/share/Container/owncloud/config:/var/www/html/config"
    4. - "/share/Container/owncloud/tagspaces:/var/www/tagspaces"

    Wobei in /share/Container/owncloud/tagspaces die Installationsdateien von TagSpaces liegen, welche übrigens hier heruntergeladen werden können.

    Mit dieser Methode schlug allerdings das Aufrufen der Webapplikation fehl. Wie sollte ich denn nun von meinen Clients darauf zugreifen?


    Ich habe daraufhin die docker-compose.yml etwas angepasst und das letzte Volume sieht nun so aus:

    Code
    1. - "/share/Container/owncloud/tagspaces:/var/www/html/tagspaces"

    So kann ich über http://<QNAP-IP>:4490/tagspaces die Applikation aufrufen. Für einen Bruchteil der Sekunde flackert das UI auf, dann bleibt die Seite weiß. So richtig startet sie also noch nicht.

    Ich bin hier dann auch nicht mehr weitergekommen.



    Parallel habe ich es mal mit einem fertigen TagSpaces-Docker probiert. Mit dem konnte ich zwar ohne Probleme die Web-Applikation von meinem Client aufrufen. Doch es gelang mir nicht, auf Dateien des Host-Systems zuzugreifen, die ich gerne mit TagSpaces taggen möchte. Ich habe zwar ein Volume in den Docker erstellt, welches auf dem Host auf eine Ordnerstruktur zeigt, wo meine Dateien sind. Aber ich weiß nicht, wo ich den Ordner im Docker mounten muss, denn in der TagSpaces Applikation wurden nie irgendwelche Dateien gefunden.


    Mein Wissen über Webserver, Docker und Linux ist äußerst rudimentär. Ich kann mich durch Tutorials klicken, aber mir fehlt eben das Transferwissen. Könnt ihr mir helfen?


    Grüße

    bridge_gap

  • Warum noch TagSpaces nutzen wenn man Tags bereits in Owncloud nutzen kann? Verstehe denn Sinn dahinter nicht ganz

  • Hi Azrael,


    ganz einfach, ich wusste nicht, dass ownCloud das auch unterstützt. In dem Fall umso besser!

    Was mir allerdings noch nicht gelingt: Wie kann ich auf Dateien auf dem Host liegend innerhalb von ownCloud zugreifen? Geht das?


    Ich will meine ganzen PDFs etc. nicht in den Container "umziehen", sondern am liebsten die Dateien dort liegen lassen, wo sie momentan sind: /share/CACHEDEV1_DATA/Ordner/Unterordner

  • Dann musst du den "Ordner" als "Data" Ordner angeben. Dann sollte das Funktionieren. Ich würde es aber erstmal ausprobieren, bevor ich du es am Live-System ausprobierst. Für sowas nehme ich gerne mal eine VirtualBox her.

  • Hi, danke für den Tipp. Habe jetzt mal folgendes gemacht. Angenommen, meine Dokumente liegen zur Zeit bei

    /share/CACHEDEV1_DATA/meineDoks/* --> Hier sind 10 Unterordner mit Versicherung, Auto, Bank etc.


    Ich habe dann ein Bind gemacht von dem Ordner, auf den der Container zugreifen kann.

    Code
    1. mount --bin /share/CACHEDEV1_DATA/Container/owncloud/data/admin/files /share/CACHEDEV1_DATA/meine Doks/owncloud

    Ziehe ich nun Dateien in die ownCloud per Browser, landen sie im files Ordner, sind aber auch noch bequem über den ursprünglichen Pfad zugreifbar.

    Nach meinen Recherchen ist das der am wenigsten umständliche Weg. Allerdings frage ich mich, wie sich hierbei möglichst einfach ein Backup erstellen lässt, sodass ich im Fall einer Wiederherstellung möglichst einfach wieder die Ordnerstruktur in ownCloud sehe.


    Der Weg in die andere Richtung hat nicht geklappt. Meine ursprüngliche Idee war, im .../data/admin/files Ordner einen symbolischen Link abzulegen, der auf .../meineDoks zeigt.

    Man hätte dann im Container durch einen Cronjob folgenden Task regelmäßig ausführen lassen müssen, damit durch mich hinzugefügte Dateien automatisch in der ownCloud auftauchen:

    Code
    1. sudo -u www-data php /var/www/owncloud/occ files:scan --all

    Das wäre sogar noch akzeptabel gewesen.

    Allerdings findet ownCloud die Dateien dann trotzdem nicht, weil sie dem Datenbank-Benutzer, meinem Fall "www-data", gehören müssten.

    Ab hier wäre es schon sehr hakelig gewesen, weil ich nicht weiß, wie ich auf dem Host den Benutzer des Containers, also "www-data" hätte bekannt machen können. Im Host wird er als "33 33" gelistet:

    Code
    1. [/share/CACHEDEV1_DATA/Container/owncloud/data/admin/files/Documents] # ls -l
    2. total 256
    3. -rwxrwx--- 1 33 33 36227 2020-05-30 20:47 Example.odt*
    4. -rwxrwx--- 1 33 33 216071 2020-05-30 20:47 San Francisco_2.jpg*


    Na ja, bin mir noch nicht sicher, ob ich mit dieser Lösung nun zufrieden bin.

    Jetzt ist zwar meine Anforderung erfüllt, Dateien taggen zu können und sie wiederzufinden. Aber jetzt besteht die Anforderung, im Fehlerfall ein Backup einzuspielen, dass mir am besten skriptbasiert meine aktuelle Umgebung wieder einspielt, ohne dafür viel tun zu müssen. Ich habe noch zu wenig Erfahrung, um das realisieren zu können. :/

  • Ich nutze owncloud selbst auch nicht, von daher bin ich dir wahrscheinlich keine große Hilfe. Ich frage mich gerade nur warum du beim erstellen des Containers nicht direkt "dein" Verzeichnis in den Container gemapped hast? Sprich diese Zeile:


    volumes:
    - "/share/Container/owncloud/data:/var/www/html/data"

    Geändert in:


    Code
    1. volumes:
    2. - "/Ordner-wo-deine-Daten-liegen:/var/www/html/data"


    Dann dürfte es wieder relativ einfach sein davon ein Backup zu machen.

  • Guter Gedanke. Das ist wirklich eine gute Idee. Ich probiere das mal aus!


    Edit: Jawohl, funktioniert. Aktuell nutze ich nur einen Account für ownCloud. Daher mappe ich das Volume direkt auf

    /Container/owncloud/data/admin/files


    Das funktioniert ganz gut. Hätte ich mehrere Accounts, dann würde das nicht mehr gehen, weil ich in Docker nicht mehrere Volumes auf das selbe Ziel mappen kann. Aber das brauche ich aktuell nicht und daher ist meine Anforderung bestens erfüllt. :-)


    Vielen Dank für die Hilfe!

    Einmal editiert, zuletzt von bridge_gap ()

  • PDF Dateien in meinem privaten papierlosen Büro zu taggen. Nach 4 Jahren papierlosen Büro mittels NAS komme ich mit dem klassischen Dateisystem-Ansatz an meine Grenzen.

    Habe noch keine Erfahrung mit papierlosem Büro, wohl aber erste Kenntnisse von Produkten für solche Zwecke. Weiß aber auch nicht, was Du mit klassischem Dateisystem-Ansatz meinst. Gibt es nicht inzwischen Dateisysteme, die Tagging unterstützen? Und sind Datenbanken nicht ein angemessenerer Ansatz als Dateisysteme?


    Soweit ich Dich verstanden habe, ist papierloses Büro Dein Ziel, und welchen Ansatz Du dazu bislang wählst. Den jetzt beschrittenen Wechsel halte ich immer noch für unzureichend, obwohl er derzeit Deine Anforderungen erfüllt. Wenn es Dich interessiert, solltest Du Dich einmal tiefer einlesen zu Konzepten von papierlosem Büro. Kann es sein, dass Dein Kenntnisstand zur Materie veraltet ist?


    Wenn Du Dich mit Konzepten beschäftigen willst, so sind Dokumentenmanagementsystem (DMS) und Enterprise Content Management Systems (ECM) gute Stichworte. Je nach Hersteller gibt es unterschiedliche Ansätze, Konzepte und Schwerpunkte, aber auch Gemeinsamkeiten. Es gibt auch Lösungen für QNAP NAS, teilweise auch Open Source. Ich meine, ich habe wenigstens von drei Lösungen für QNAP NAS gelesen. Ich will diese auch ausprobieren, bin aber noch nicht dazu gekommen. Mir fällt da Alfresco auf Anhieb ein. Das war der Lösungsansatz, den der Kundenkonzern meines letzten Zeitarbeitseinsatzes anpacken wollte. ecoDMS, PaperOffice, SeedDMS, agorum, LogicalDOC und OpenKM sind weitere Optionen. Ich kenne das letztgenannte noch nicht. Aber die Historie des Begriffs zeigt die Nähe zu Wissensmanagement, das sich als Ergänzung zu DMS und ECM anbietet, falls nicht enthalten, um mit größeren Informationsmengen leichter umgehen zu können.


    DMS und ECM sind aber keine Lösungen out-of-the-box. Da steckt auch einiges an Konzepten und Konfiguration darin. Es ist nicht unüblich, beispielsweise Abläufe mit Dokumenten zu verknüpfen, z.B. mit Stati, wie Entwurf, Redaktion, Freigabe, ... Das geht über Tagging und den Möglichkeiten von Dateisystemen hinaus, insbesondere wenn Stati nicht nur linear gereiht werden sondern auch Verzweigungen und Bedingungen kennen. Du kannst auch Aufbewahrungsfristen damit verknüpfen, und damit weitere Voraussetzungen für Archivierung schaffen. Und da die Aufbewahrungsfristen einiger Dokumente selbst aus dem Privatbereich (z.B. Familienbuch, Abschlusszeugnisse von Bildungseinrichtungen, [bislang] Führerschein, Immobilienkaufvertrag, u.a.m.) über die übliche Lebensdauer von einem NAS hinaus geht, wird deutlich, wie wichtig entsprechende Konzepte sind, und solche Software und NAS lediglich technische Hilfsmittel.


    Dann gibt es auch rechtliche Randbedingungen, die für ein papierloses Büro erforderlich sind, von denen ein Großteil eher für Organisationen wie Firmen relevant sind, lediglich ein kleiner Teil auch für Privatpersonen und -haushalte. So gibt es aus dem Steuerrecht Auflagen für ordentliche Buchführung und für ersetzendes Scannen. Dann gibt es Vorgaben aus der EU zur Digitalisierung, unter Beachtung von Barrierefreiheit und Datenschutz. Auch aus dem Verfahrensrecht diverser Gerichte gibt es Vorgaben in Deutschland. Dann gibt es auf der Ebene des Deutschen Bundestags Beschlüsse zur Digitalisierung, die sich z.B. mit der Konkretisierung von (ursprünglichen Schrift-) Formerfordernissen beschäftigen. Die Vorgaben überlappen sich. M.W. gibt es auch psychische und soziale Aspekte, die für den Erfolg von papierlosem Büro hilfreich sind, aber nicht vorgeschrieben, und die sich in technischen Anforderungen niederschlagen können. Wegen der Vorgaben findest Du auch Anleitungen, Demos, Beispiele u.a.m. für papierloses oder papierarmes Büro oder für Übergänge dazu. Solch eine Idee lässt sich stufenweise umsetzen.


    Vor weit mehr als einem Jahrzehnt fragte ich Archivbetreiber in einem Konzern, was sie damit meinen, dass sie PDF für die Archivierung akzeptieren. Dies führte zu einem interessanten Gespräch. Sie berichteten mir, dass PDF ihnen viele Probleme bei der Archivierung bereite, und sie lernten von mir, dass ihr Kenntnisstand zu PDF veraltet war. Bereits damals war der erste Standard von PDF/A zur Archivierung verabschiedet, während sie noch davon ausgingen, dass dieser noch im Entwurfsstatus sei. Inzwichen handelt es sich um eine Gruppe von Standards und es gibt auch Werkzeuge zur Validierung. Inzwischen untersützt bereits einige Open Source Software und Freeware bereits die Erstellung von PDF/A.


    Die vielen aufgeführten Themen machen deutlich, dass der Begriff des papierlosen Büros weit über Dokumentenmanagement im engeren Sinne hinaus geht, und sich mit Deinen bisherigen Ansätzen nicht verfolgen lässt.

  • Auch auf die Gefahr hin das Thema noch weiter ins OffTopic zu katapultieren, möchte ich auch ein paar Worte zum "papierlosen Büro" verlieren. Ich kann mich chef1 im Vorpost nur anschließen: wiklich papierlos geht nicht "einfach mal so". Besonders die Thematik OCR spielt hierbei eine entscheidende Rolle. Soll es möglich sein Dokumente "einfach" durchsuchen zu können, steht und fällt das Ganze mit der Qualität der Texterkennung. Und hier muss ich leider bisher von Open Source Lösungen abraten. Ich habe selbst ecoDMS im Einsatz aber als "Vorverarbeitung" noch Abby Finereader, weil die Open Source OCR "tesseract" die bei ecoDMS mit dabei ist nur mäßig gute Ergebnisse liefert. Auch mit anderen freien Lösungen wie OCRmyPDF (welches auch mit Owncloud/Nextcloud kombiniert werden kann) war ich nie wirklich zufrieden. Ich denke auch nicht, dass Tags alleine ausreichend sind, um eine "ordentliche" Verwaltung hinzubekommen, es sei denn man macht sich die Mühe die Tags wirklich akribisch zu vergeben und dann wäre es für mich schon wieder zu viel Arbeit. Oder zumindest nicht weniger Arbeit als alles ordentlich abzuheften.