Performanceprobleme: Mit 19x SSD bestücktes TES-3085U (QES) / mit 10x SSD bestücktes TS-1279U (QTS)

  • Hallo zusammen,


    wir haben seit einiger Zeit das Qnap TES-3085U mit dem Betriebssystem QES im Einsatz. Eingebaut sind für das System 2x SSD 450GB und für die Daten 19x SSD 1,75TB (Raid5).

    Angebunden ist das Qnap mit iSCSI über 10GBit mit Jumboframes.


    Zum Testen haben wir diverse Server auf VMware-Basis auf das Qnap geschoben und Performancetests durchgeführt: Es war wunderbar schnell. Dann wurden viele weitere Server auf das System gelegt und nach einem Tag ist die Performance dermaßen in denn Keller gegangen, dass das Arbeiten auf den Systemen annähernd nicht mehr möglich ist. Aktuell werden ca. 30MB/s auf dem System gemessen. Zum Testzeitpunkt waren es ca. 300MB/s.

    Ein 2. Gerät mit gleichen Eigenschaften ist per NFS angebunden, bringt aber die gleiche Performance.


    Wir gingen davon aus, dass es am fehlenden Trim liegen könnte. Wir haben deshalb ein "altes" TS-1279U genommen und mit 10x 1,75TB SSD (Raid5) und QTS installiert. Auch dieses haben wir per iSCSI über 10GBit angebunden. Wir haben vorher das SSD Over-Provisioning--Tool laufen lassen, was uns mitteilte, das ein OP von 10% ausreichen sollte, die Leistung der SSDs auf annähernd 100% zu halten. Wir haben 12% eingestellt, um sicher zu gehen. Auch waren die Tests erfolgreich, nachdem wir 10 TB von den verfügbaren 13TB genutzt haben: Kopieren von Daten innerhalb einer VM lief mit 300 bis 500MB/s.

    Nach dieser Nacht allerdings sind die Performancewerte auch bei diesem System wieder unterirdisch: maximal 30MB/s auf der gleichen Maschine, die am Tag davor noch >300MB/s geschafft hat.


    Aktuell sind wir hier mit unserem Latein am Ende: Wir finden einfach keine Möglichkeit, das System schnell zu bekommen. Der Qnap-Support arbeitet bereits seit fast einem Monat an einer Lösung, hat aber bisher auch noch keine hilfreiche Information zu dem Problem.


    Wenn jemand noch eine Idee hat, wie wir die doch schnellen SSDs in einem leistungsfähigen Qnap dazu bringen können, dauerhaft schnell zu sein: Wir sind für alle Vorschläge offen.


    Anbei noch ein paar technische Details:

    SSDs: 19x Samsung MZ7LM1T9HMJP-00005 1,75TB

    Anbindung: 2x 10GBit/s Active/Backup mit MTU 9000

    RAM: 2x 32GB

    OS-Version: 2.0.0.0570

    2x 450GB SSD

    Samsung MZ7LM480HMHQ-00005


    Alle Dienste sind deaktiviert, die nicht benötigt werden


    Vielen Dank für Vorschläge.


    Dieter

  • Hmmm, auch wenn ich mit Systemen dieser Größenordnung so gar nichts zu tun habe, manchmal helfen ja auch "dumme" Fragen. Offenbar scheint es ja nicht mit QES oder QTS zusammenzuhängen. Bei ersterem kommt ja wohl ZFS zum Einsatz. Ist denn das Altsystem zuvor schon in dieser Konfiguration bzw. in einem ähnlichen Anwendungsszenario gelaufen? Und wenn ja, dann würde ich ja davon ausgehen ohne die jetztigen Performanceprobleme. Mir scheint, man müsste wohl erstmal rausfinden, ab welcher QTS Version solche Probleme auftreten, wenn es denn schonmal funktioniert haben sollte.


    Aus dem Bauch raus würde man ja denken, dass intern ein einzelner Dienst der Flaschenhals ist. Also ggf. der Cache, QTier o.ä. wo sich alles durchquälen muss. Aber da eh schon alles SSDs sind wird das ja wohl kaum zum Einsatz kommen. Vielleicht müsste man mal alle SSDs als statische Volumes behandeln und sehen, ob vielleicht der Volumemanager da Probleme macht.

    Einmal editiert, zuletzt von nasferatu ()

  • Wie ist das Volumen aufgebaut, static, thin oder thick? Mit QTIER oder ohne? Cache?

    Diese Daten fehlen leider, es steht nur was von RAID5 mehr nicht …


    So richtig schnell wäre wohl ein static Volumen. Wenn ein Cache zum Einsatz kommen soll, dann nur mit schnellen M.2 NVMe SSD, ansonsten macht es keinen Sinn.


    QTIER kann hier nichts mehr bringen, wenn das "Cold Storage" schon aus SSD besteht, müsste das "Warm Storage" schneller sein und das "Hot Storage" viel schneller …


    Wobei mich etwas verwirrt, dass 3D NAND TLC SSD's zum Einsatz kommen, sind die wirklich die erste Wahl?



    TLC

    The least expensive of the bunch, Triple-Level Cell NAND flash stores three bits per cell and is typically used in consumer-grade electronics with comparatively low performance and endurance requirements.


    In diesem Artikel werden die TLC als billigste Technologie für "low performance" beschrieben. Und die sollen das Enterprise NAS auf touren bringen?


    Ich lass' mich gerne vom Gegenteil überzeugen, aber wenn ich was "sauschnelles" will, sollten da nicht SLC's die erste (und teuerste) Wahl sein?

    2 Mal editiert, zuletzt von RedDiabolo ()

  • Hallo zusammen,


    @nasferatu:

    Bisher waren die Systeme auf einem SAS-Storage mit SSD-Cach (Dell PowerVault). Da war alles ausreichend schnell.

    Da das System nach dem Vollschreiben für einige Zeit auch schnell war, dürfte der Cache (das Gerät hat 64GB RAM) weniger die Rolle spielen, da der RAM auch weiterhin noch Reserven hat.

    Um ZFS auszuschließen, wurden mit den gleichen Platten das TS-1279 mit QTS genutzt. Aber auch hier wurde nach einiger Zeit die Performance extrem langsam, wie oben beschrieben.


    @RedDiabolo:

    QTier ist nicht aktiv. Die Volumes sind folgendermaßen aufgebaut:

    - TS-1279: Blockbasiertes Thick-LUN auf Speicherpool

    - TES-3085 mit iSCSI: Blockbasiertes Thick-LUN (Instant Allocation)

    - TES-3085 mit NFS: Thick auf Speicherpool


    Laut Herstellerseite sind das Enterprise-SSDs mit V-NAND, was wohl ein modifiziertes TLC-NAND ist. Die SSDs sind ausgelegt auf 520/480 MB/s, solltesn demnach eigentlich mehr als 30MB/s schaffen, noch dazu, wenn 12% Over-Provisioning aktiv ist (bei uns nur bei TS-1279 zum Test, QES kann kein Over-Provisioning).

    Bei statischen Storages geht anscheinend keine blockbasierten Volumes, was wir aber aufgrund unseres Backups mit CBT bevorzugen würden.


    Wenn noch weitere technische Details benötigt werden, um hier eine Lösung zu bekommen: bitte nachfragen.


    Danke schon mal für die Antworten.

  • Wenn noch weitere technische Details benötigt werden, um hier eine Lösung zu bekommen: bitte nachfragen.

    Und wenn es vielleicht ein Overprovisioning Problem ist ? Vielleicht mal die Volumes versuchsweise deutlich kleiner machen.

  • Hallo nasferatu,


    genau das wollten wir ja mit dem TS-1279 feststellen: Da haben wir ein OP von 12% eingestellt, auch wenn das SSD-OP-Tool nur 10% empfohlen hat.

    Beim BSD-basierenden OS (QES) kann kein Over-Provisioning eingestellt werden: Da wird immer alles genutzt.

  • genau das wollten wir ja mit dem TS-1279 feststellen: Da haben wir ein OP von 12% eingestellt, auch wenn das SSD-OP-Tool nur 10% empfohlen hat.

    Hmm, dann fällt mir nur noch eines ein:

    Zunächst mal so viel Komplexität wie möglich rausnehmen.

    Vielleicht nochmal auf dem 1279 nur RAID1 einrichten und wirklich statische Volumes benutzen, auch wenn das andere Nachteile hat. Nur um mal auszuschliessen, dass es irgendein komischer Effekt des Volumemanagers ist. Und vielleicht mal QCenter mitlaufen lassen, da bekommt man ja zumindest einen Haufen an Kennzahlen. Vielleicht kann man daran was erkennen. Und als Ultima Ratio wenn möglich mal einen anderen SSD Typ testweise einsetzen, zur Not im verkleinerten Maßstab wenn der Effekt unabhängig von der Volumegröße auftreten sollte.


    Ist halt alles raten auf hohem Niveau...

  • Wie sieht es mit dem Temperaturverlauf der SSD's aus?

    Möglich, dass ich auf der falschen Fährte bin, allerdings würde ich gerne den "DTG" ausschließen können.


    Habe etwas auf der Samsung Homepage herumsuchen müssen, um die Arbeitsweise des DTG herauslesen zu können. Den Arbeitspunkt für das Einsetzen des TGD beschreibt SAMSUNG leider nicht im Datenblatt zur SSD.


    Nicht, dass letztendlich der DTG die Performance drosselt, damit sie nicht zu warm werden...

    Einmal editiert, zuletzt von dr_mike () aus folgendem Grund: Nicht deklariertes Zitat ohne Quellenangabe gelöscht

  • Nicht, dass letztendlich der DTG die Performance drosselt, damit sie nicht zu warm werden...

    Wobei das wahrscheinlich unter Vollast erheblich schneller als nach 24h eintreten würde, aber ausschließen kann man natürlich nichts...

  • Wie sieht es mit dem Temperaturverlauf der SSD's aus?

    Die Temperatur der SSDs liegt bei maximal 40 Grad, also sollte da keine Drosselung stattfinden.

    Und vielleicht mal QCenter mitlaufen lassen, da bekommt man ja zumindest einen Haufen an Kennzahlen.

    Dazu muss ich das Gerät erst mal "umformatieren", da QES nicht im Qcenter unterstützt wird.

  • Hallo,


    hier mal der aktuelle Stand:

    - Beide Qnaps sind nun mit QTS eingerichtet

    - Bei QTS funktioniert der Trim-Befehl, wenn man keinen Speicherpool nutzt

    - Trim wird jeden morgen vor Arbeitsbeginn durchgeführt

    - Es wurde Over-Provisioning mit 25% eingerichtet :(

    - Das Betriebssystem wurde auf 2 separate Platten installiert

    - Die Daten liegen auf einen Raid5-Verbund aus 19x 1,75TB SSD

    - Genutzt wird dateibasierendes iSCSI (geht wegen fehlendem Speicherpool nicht anders)

    - Anbindung: 2x separates 10GBit mit MTU9000


    Wenn noch jemand eine Idee hat, wie man das besser machen könnte, wäre es echt super, da wir aktuell fast 17TB SSD-Speicher verschwenden.

    Leider hat der Support bisher nur die Vermutung geäußert, dass es an der (Standard-) Blockgröße von 64k liegt, dass VMware hier nicht performant ist. Eine empfohlene Blockgröße haben sie aber nicht mitgeteilt.

  • CIS : heißt dass denn, dass in dieser Konfiguration jetzt eine konstante Performance möglich ist?


    Edit:

    Was ja verwundert: QNAP schreibt ja groß "VMWare zertifiziert" drauf. Da fragt man sich ja, welche Bedingungen dem zugrunde liegen bzw. wie das getestet wird. Man sollte ja meinen, da müsste es empfohlene Setups geben um die optimale Performance zu erreichen. Da wundere ich mich schon ein wenig, dass der Support da so gar nicht hilfreich zu sein scheint. Immerhin gehts ja hier schon um eine ziemlich große Installation im satt 5-stelligen Bereich...

    Einmal editiert, zuletzt von nasferatu ()

  • Hallo noch einmal.


    Hier der (abschließende) Stand seitens Qnap:


    Zitat von QNAP Support

    After checked with our team,

    they suggest, in QES system to use 8K block size will have better performance than 64K in default,

    But compare with SSD over-provisioning in QTS, the SSD over-provisioning will have better performance than QES with 8K block size.

    To set up 8K lun in QES,

    When creating iSCSI lun, please select "customize" in Performance Profiling, and choose for "8K" in Record Size.


    Bedeutet: SSD-Overprovisioning mit x Prozent Verlust ist performanter als das "bessere" Betriebssystem QES.

    Schade, dass wir die Geräte mit 64GB RAM ausgestattet haben, um die Features des Enterprise-Betriebssystems nutzen zu können. QTS nutzt davon maximal 4GB, QES nutzt den gesamten RAM.


    Ich werde noch einen Versuch starten und das eine Gerät mit QES neu installieren und testen.

    Sobald ich Ergebnisse habe, werde ich diese hier vorstellen.


    Frohe Weihnachten

  • da das Qnap den Speicher wohl nicht will

    Ich möchte an der Stelle mal einhaken - ich betreibe eine TS-453Be mit 16 GB (ja, ich weiß, außerhalb der Spec), diese nimmt sich aber, das kann man in der Resourcenansicht schön sehen, den gesamten verfügbaren Speicher für Cache und ähnliche Mechanismen. Ich kann an der Stelle nicht erkennen, dass Speicher oberhalb 4 GB "brach" liegen würde. Bei laufenden VM sieht man das selbe Verhalten - alles was nicht QTS selbst bzw. die VM braucht, wird für die genannten Mechanismen (Cache etc.) genutzt.


    Gruß,


    Lauri


    PS: Auch auf Deinem Bild sieht man doch schön, dass der Großteil Deines Speichers (58,94 GB) für Cache genutzt werden (ich gehe stark davon aus, dass bei Transfers von/zur NAS dieser dann weniger wird und dafür dann der Puffer nach oben geht - so ist das zumindest bei mir). Was würdest Du denn eher erwarten, als dass der Speicher für Cache und/oder Puffermechanismen genutzt wird?

  • Da hast Du recht: Ich habe mich verguckt.

    Ich hab eben nur mal schnell drauf geguckt und da steht bei Verfügbar rund 61GB. Ist natürlich Quatsch, dass er den Rest nicht nutzt.

    Sorry :saint:

  • Du, kein Ding, da ich das QES nicht kenne, hätte es ja durchaus sein können, dass dieses noch irgendwas anderes mit dem Ram anstellt - daher die Nachfrage, was Du erwartet/gewünscht hättest :)

    Unabhängig davon, hat der Tip von QNAP denn zum Erfolg geführt? Ich kann auf meiner NAS nämlich auch einen deutlichen Performance-Unterschied zwischen "normalen" SMB bzw. NFS Freigaben und ISCSI feststellen - das ISCSI ist ~60% langsamer als die anderen Freigaben. Sollte der Tip helfen, würde ich das bei meinen ISCSI-Lun nämlich direkt auch mal ausprobieren... (Da ich eine 10GB-Karte in der NAS habe, ist an der Stelle dann doch wieder die NAS und nicht das Netz der Flaschenhals - von daher würde ich eine Performancesteigerung bei ISCSI durchaus zu schätzen wissen ...)


    Gruß,


    Lauri

  • Ich bin leider noch nicht dazu gekommen, wieder das QES aufzuspielen und das System mit der anderen Blocksize zu testen. Sobald ich das gemacht habe, poste ich hier die Ergebnisse, auch wenn QTS laut Support ja schneller sein soll :(