Was ist da mit den IOPS los?

  • TS-653D mit 4.5.3.1652 build 20210428


    durch Zufall stoße ich auf den Leistungstest.

    Die IOPS von 3 SSDs sind im Keller.


    Es geht um die Crucial und Samsung.

    Plextor und SATA hab ich eben nur zum Test hinzugefügt um zu schauen was da los ist und um zu kontrollieren, dass es nicht an den Slots liegt.


    Die EVO860 ist okay. Die anderen haben nur 1/10 der üblichen IOPS.


    Auch wenn die SSDs in den Slots tausche, dann wandern die Ergebnisse mit der SSD mit.
    Also die EVO860 hat dann immer noch die knapp 100k.

    Die restlichen nur um 10k.

    Die 2 Crucial und 2 EVOs sind im Raid 5 (Speicherpool).


    Ich habe auch schon die 870 gezogen. Unter Windows Partitionen gelöscht, einen Leistungstest unterzogen. Wieder Partionen gelöscht und wieder rein in die NAS.

    Resync abgewartet und wieder die gleichen unterirdischen IOPS.


    Ist da die Messung der QNAP falsch?


    Oder was ist da kaputt?


    pasted-from-clipboard.png

    Einmal editiert, zuletzt von Qnatsch ()

  • Kann ein Problem in Verbindung mit dem Controller der SSD, sowie der Firmware vom NAS und dem Controller geben.


    Für die hohen IOs muss die Waeteschlangentiefe 32 betrsgen, wenn der Treiber es bei dem Modell nicht voll ausnutzt, hast halt schlechte Werte.


    Dann ist noch die Frage, nur im Test oder auch im Betrieb?


    Ticket bei QNAP schon auf?

  • Ich denke, dass es nicht immer so war, das wäre mir aufgefallen.

    Aber ich schaue ja nicht jeden Tag auf den Leistungstest.


    Ist halt die Frage, wie es im Betrieb auffallen würde.

    Das SSD Raid 5 ist auf jeden Fall schneller als HDD Raid 1 mit zwei Platten.

    VMs habe ich nicht.


    Ticket ist noch nicht erstellt.

  • Irgendwelche Dienste die im Hintergrund laufen und die SSD beschäftigt?

    Füllstand?

  • DLNA, Webserver, mysql.


    Speicherpool ist zu 25% gefüllt.


    Snapshots sind eingeschaltet.

    Einmal editiert, zuletzt von Qnatsch ()

  • Wenn ich solche Testfahre versichere ich mich vorher, dass möglichst keine Dienste im Hintergrund aktiv sind. Ein Blick auf den Ressourcen-Manager kann da helfen. Ist die CPU stark belastet, wird es auch nichts mit guten Werten. Werden Snapshots aufgeräumt ist die Festplatte damit schon ausgelastet. Will heißen: Test nochmals bei möglichst geringer Auslastung durchführen. Wie sieht es dann aus?

  • Wie sieht es dann aus?

    genau so wie auf dem ersten Bild.

    3 SSDs haben 1/10 die EVo860 knapp 90000.

    Und die Werte wandern mit wenn ich die SSDs in andere slots setzte.

  • Unter Windows waren die Werte Ok.


    TS-653D mit 4.5.3.1652 build 20210428


    Jetzt hab ich alle Platten raus (im ausgeschalteten Zustand) und das System mit einer der betroffenen SSDs (Crucial) neu aufgesetzt. (Partitionen vorher entfernt)


    pasted-from-clipboard.png


    An der SSD selbst liegt es wohl nicht.


    Jetzt werd ich die Platten mal wieder reinschieben und das rebuild abwarten.

  • Das würde dann aber doch eher nach Konfigurationsproblemen klingen, bzw. dass etwas im Hintergrund bremst.

  • Support bemängelt, dass 2 von 4 SSDs nicht in der Kompatibilitätsliste aufgeführt sind.

    Sonst keine Aussage.

  • Wieder mal das Support-Schlupfloch. Mit dem kann jedes Problem erklärt werden. ;)

    Zeigt aber wieder mal wie wichtig es ist die Komponenten nach Kompatibilitätsliste auszuwählen.

  • Ja,

    aber jetzt wird es interessant werden, was für eine Antwort kommt.

    Unter Crucial ist die MX500 tatsächlich nicht drin, aber unter Micron mit der indentischen Bezeichnung.


    Edit: gerade gesehen, dass es keine MX500 von Micron gibt. Qnap hat die falsch unter Micron einsortiert.

    Einmal editiert, zuletzt von Qnatsch ()

  • noch immer keine Reaktion vom Support.


    Ich hab etwas ausprobiert.

    betroffene SSD ziehen, platt machen und Rebuild hilft nicht.


    Dann alle SSDs bis auf eine betroffene gezogen und neu gestartet.

    System ist natürlich ausser sich :D weil kein System Speicherpool mehr da.

    Also Speicherpool, bzw. was davon übrig ist entfernt.

    IOPS Unter Datenträger Leistungstest immer noch bei um die 10000. Zu wenig.

    Dann mal SSD Profiling Tool gestartet.

    Da sind es schon mehr, aber auch noch zu wenig.

    IOPS-01.png


    Dann neu start:

    immer noch zu wenig.

    IOPS-02.png


    Danach Neuinstallation mit Einzellaufwerk:


    IOPS-03.png

    Es hat also irgendwas mit der Installation zu tun.

    Aber was?

    Die Installation ist gerade mal 2 Monate alt.

  • scheinbar hat die Entwicklung meine Konfig nachgestellt mit gleicher QNAP und Festplatten und konnten mein Problem nicht nachstellen.


    Ja, ich bin sicher, dass bei einer Neuinstallation das Problem nicht mehr vorhanden ist.


    Was mach ich nun?
    Neuinstallieren? Dann sind meine Snapshots weg.


    Neuinstallieren? Vorher vielleicht meine Daten löschen und QNAP Remotezugriff erlauben um zu schauen ob die Entwicklung per Remote bessere Erkenntnisse hat?

    Aber Remote mag ich nicht. Danach muss ich ja auch DOM recovery machen, weil ich ja nicht weis ob sich während die NAS offen im Net ist sich was eingefangen hat......

  • Dann würde ich erst nachlesen, ob ein DOM Recovery wirklich notwendig ist.


    Gruss

  • es verläuft sich im nix.

    Mit den Helpdesk Logs hat QNAP Support keine Fehler gefunden.


    Da bleibt wohl nur Neuinstallation.

  • ich hab jetzt mehrere Neuinstallationen gemacht.

    Es hat irgendwas mit Slot 3&4 zu tun. Aber auch nicht immer.


    Wenn ich nach der Installation, wenn noch keine Speicherpool/Volume da ist, den Speicherpool anlege und das erste = Systemvolume anlege und dann die Synchronisation vom RAID 5 abwarte ohne die NAS weiter einzurichten, dann ist alles okay.

    Danach die Einrichtung, auch alles okay.


    Wenn ich direkt nach dem Anlegen vom Systemvolume gleich mit dem Rest loslegen, also DLNA, Webserver, SQLserver einschalten und mit Daten füllen, Ordner anlegen usw.


    Dann sind die IOPS schlecht.

  • nach noch ein paar mal Neuinstallation auch mit neuer Konfig:

    2X120GB SSD RAID1 für System und

    4x1TB SSD RAID5 für Daten


    und einem Thread im Forum habe ich den Grund gefunden.


    NCQ disabled. Timeout error


    Ganz fies war, dass NCQ disabled der Festplatte auf dem System zusammen mit der UUID gespeichert wird.

    Also hilft nur System neu zu installieren.


    Bei hoher Belastung des RAID5, z.b. Rebuild oder grosse Datenmengen, kommt es zu einem Timeout error und NCQ wird ausgeschaltet.


    Aber der Fehler ist immer noch sporadisch. Nicht bei jedem Rebuild oder bei jeden Datenkopieren passiert es.


    So wie es aber aussieht, ist es am wahrscheinlichsten in Slot 3&4.


    mit

    # echo 31 > /sys/block/sdX/device/queue_depth


    kann man NCQ wieder einschalten :D


    oder


    # echo 1 > /sys/block/sdX/device/queue_depth


    bei anderen Platten ausschalten.


    Ich habe jetzt den Support darauf hingewiesen und gefragt ob es ein Hardwaredefekt ist.

    Mal sehn was kommt.