QuTS Hero - Deduplikation: Volumenweit oder Poolweit?

  • Hi zusammen,


    ich hoffe jemand weiß es. Wie im Betreff erwähnt möchte ich wissen ob QNAP/ZFS nur innerhalb von einer Volume dedupliziert, oder auch Poolweit (solange Dedup in jeweilige Volumen aktiviert ist).


    D.h. wenn ich 2 identische Daten in Volume A und Volume B (beide auf selben Pool) ablege, werden sie dedupliziert oder nicht?


    Wäre mir wichtig für die Planung wie ich die Datenstruktur aufbauen soll und die Speicherkapazität möglichst effizient umsetze.


    Viele Grüße

    Floh

  • Ich würde sagen "Volumeweit".


    Aber willst du das wirklich verwenden? Ich habe in letzter Zeit viel über ZFS gelesen und wirklich KEINEN gefunden, der die Deduplikation für sinnvoll hält. :/

  • Dann feiern wir halt Premiere dass Du jemanden gefunden hast, der das für sinnvoll hält. :P


    Die Sache ist halt, man darf nicht immer pauschalisieren ob eine Feature sinnvoll ist oder nicht.


    Grüße

    Floh

  • Die Sache ist halt, man darf nicht immer pauschalisieren ob eine Feature sinnvoll ist oder nicht.

    Naja, für mich ist es schon wegen dem Speicherbedarf aus den Überlegungen raus.


    Häufig wird ein Minimum von 1 GB RAM pro TB Festplatte genannt. Andere gehen von realistischeren 3-5 GB aus. So viel RAM wie da nötig wäre unterstützt das TVS-h1688X ja gar nicht. ;)

  • Deduplikation, also QuDedup?


    Nein, nutze ich nicht.

    Der Plattenplatz reicht.

    Ich habe lieber Dateien als ein Datenarchiv, aus dem ich erst mit einem Tool auf dem PC die gesuchten Daten extrahieren kann.


    Ich weiß, ein schlichtes Argument, aber ohne QuDedup fühlt Datensicherung sich besser an.

    (Welch ein Satz!)


    Gruß Markus

  • Deduplikation, also QuDedup?

    Nein, hier geht es um die Deduplikation als Funktion des Dateisystems ZFS von QuTS Hero. Ganz andere Baustelle...

  • binam , ok, hatte Deduplikation auch bei der Erläuterung von QuDedup gesehen und bin daher "auf diesen fahrenden Bus aufgesprungen"


    floh79 , ja danke, das habe ich auch mal installiert, aber gemerkt, dass ich lieber konventionell sichere.
    Ich sage mal, ich will die Dateien im FileManager "sehen" können. (Mir ist schon klar, dass das etwas schräg ist)

    Und, da ich keine Platzprobleme auf den HDs habe, habe ich die Sicherungsstrategie dann wieder geändert auf "mit ohne" QuDedup.

  • Ich habe mal etwas recherchiert was den Speicherbedarf der Deduplizierung angeht:


    - pro Block werden 320 Bytes benötigt

    - wegen der variablen Blockgröße kann man den realen Bedarf nur schätzen

    - bei 128K als maximaler Blockgröße und einer angenommen durchschnittlich Blockgröße von 64K ergibt sich ein Speicherbedarf von 5GB RAM pro TB Pool

    - bei kleineren Blöcken vervielfacht sich der Speicherbedarf entsprechend

  • Grad eine interessante Abschnitt gelesen:

    Fortunately, ZFS allows the use of SSDs as a second level cache for its RAM-based ARC cache. Such SSDs are then called "L2ARC". If the RAM capacity of the system is not big enough to hold all of the data that ZFS would like to keep cached (including metadata and hence the dedup table), then it will spill over some of this data to the L2ARC device. This is a good alternative: When writing new data, it's still much faster to consult the SSD based L2ARC for determining if a block is a duplicate, than having to go to slow, rotating disks.

    Klar sollte ich nicht am RAM sparen und das habe ich nicht vor (ich werde 128GB RAM besorgen), aber eine Kombination von RAM und NVMe fände ich nicht schlecht.


    Nun versuche ich jetzt rauszufinden, wo man nachschauen kann ob und wie L2ARC genutzt wird (vor allem mit welchen SDD? SATA oder NVMe?).

  • Klar sollte ich nicht am RAM sparen und das habe ich nicht vor (ich werde 128GB RAM besorgen), aber eine Kombination von RAM und NVMe fände ich nicht schlecht.

    Was willst du denn mit dem bisschen RAM deduplizieren? Nach der von dir verlinkten Quelle reichen 128GB RAM alles in allem gerade mal für 6 TB Pool... Das macht ja nur Sinn, wenn man eine ganz bestimmte Anwendung im Auge hat und die Datenmenge überschaubar ist.


    Naja, eigentlich macht es bei heutigen SSD-Preisen gar keinen Sinn.

  • Wie schon geschrieben, bitte nicht pauschalisieren. ;) Ich habe da meine Gründen (und Konstellation was die Setup betrifft). Es gibt kein richtig oder falsch. Nur je mehr ich darüber weiß, desto besser kann ich die Konfigurationen durchführen. Nichts für ungut.

  • Probiers doch einfach aus, 2 SSDs kosten nicht die Welt... Ich hatte auch zum Test eine zeitlang 2 NVME SSDs als Cache im NAS. Mich hat das Ergebnis nicht überzeugt und die SSDs haben jetzt eine andere Verwendung gefunden.


    Und Dedup kann man einfach ein- und auschalten, kostet erstmal gar nichts.

  • Ich habe da meine Gründen (und Konstellation was die Setup betrifft).

    die da wären?

  • binam:

    Genau das hab ich vor, testen und dann optimieren. Mit der Einsatz von NVMe in QNAP bin ich noch nicht zu 100% überzeugt, das muß ich offen gestehen und werde da noch experimentieren (wenn nicht gut hinhaut, kann ich NVMe wieder ausbauen und für andere Zwecke einsetzen, daher kein Problem).


    frosch2:

    Ich habe weder "gar kein Deduplikation" noch "alles deduplizieren". Ich weiß nicht wo ich anfangen soll zu erklären und wollte eigentlich nur Antwort auf die initiale Frage "Volumenweit oder Poolweit?". Aber wenn ich für meine Fragen begründen muß (whatever): Ich werde gezielt einige Volumes die Deduplikation aktivieren wo es Sinn macht. Daher habe ich nicht vor, komplette Storage in der QNAP zu deduplizieren und somit brauche ich hierfür auch nicht so viel RAM wie man hier glaubt. Es gibt halt Situationen wo man redundanten Daten hat auch wenn man dies so gut es geht vermeiden möchte.

    Nur mal als Beispiel (der mit dieses hier übrigens nichts zu tun hat, wie gesagt Beispiel!): Du hostet und 500 Kunden haben Wordpress auf seinen Webspace installiert, andere 300 haben Joomla installiert...

  • Aber wenn ich für meine Fragen begründen muß (whatever): Ich werde gezielt einige Volumes die Deduplikation aktivieren wo es Sinn macht.

    Interessant wäre es schon...ich habe hier eine TS-673A, die noch einzurichten ist. Die könnte auch QuTS und damit DeDup.


    Ich fänds schon praktisch, weil man einfach mal schnell identische Photos an 3 verschiedenen Stellen hat. Wenn dann das System freundlicherweise depdupliziert ist das schon praktisch. Aber ich will auch keine Unsummen da versenken, der ganze Spass ist ohnehin schon teuer genug, vor allem die HDDs durch den Kryptoschwachsinn. Und RAM ist auch gerade nicht billig. Deswegen hab ich es auch erstmal klassisch eingerichtet, vor allem weil auch die Meldungen über die ziemlich schlechte Performance mich nicht wirklich im Vergleich zu den Vorteilen überzeugt hat. Etwas mehr schmerzt mich da, dass Ext4 nicht wirklich was gegen Bitrot in Stellung hat.

  • Deshalb immer gut abwägen und schauen welche Volumen hat gute Kandidaten für Deduplikation und welche nicht und dann dementsprechend einstellen.


    Ich war positiv überrascht, als ich gesehen habe daß man Volume einzeln auswählen kann, ich dachte Deduplikation gilt immer pro Pool.


    Was ich hier versucht habe zu erklären: Nicht Schwarz oder Weiß denken, irgendwo dazwischen könnte sich ideale Setting liegen.

    Keine Frage, es ist auch eine Kostenfrage.

  • Die Beweggründe sind dahingehend interessant, da ansonsten schwierig nachzuvollziehen ist, was denn eigentlich das Resultat sein soll. Oft gibt es komplett andere Ansätze um das Gleiche zu erreichen. Wir hier können das ja nur schwer einschätzen, ob es wirklich nur diese Lösung gibt oder eine andere die bessere wäre. Wenn es nur ums Ausprobieren der Funktion geht, klar.


    Jetzt muss ich aber mal ganz dumm fragen: Bis jetzt sah ich den Vorteil von Dedublizierung immer daran Festplattenplatz und somit Kosten zu sparen. Bei den Anforderung an den Arbeitsspeicher, kann dies hier wohl kein Vorteil sein. Wird die Performance denn erhöht? Oder wo liegen die Vorteil hier genau?