Probleme bei der Erstellung von Snapshot-Replika

  • Moin zusammen,


    seit QTS 5.0.1 habe ich vermehrt Probleme bei der Erstellung von Snapshot-Replika, die sich darin äußern, dass die Übertragung extrem lange dauert und das System / die CPU dauerhaft zu 80% und mehr ausgelastet wird.

    Bislang scheint das ein Einzelfall zu sein, ein Ticket ist bereits erstellt. Ich möchte mit diesem Thread im Wesentlichen über den Verlauf und eine etwaige Problemlösung informieren, nicht zuletzt, damit ich das Durcheinander selbst etwas besser durchblicken kann :)


    Quellsystem: TVS-473, Zielsystem: TVS-463 ; ausschließlich Thin-Volumes


    Das Problem begann bereits mit der ersten 5.0.1 Beta, wobei ich QTS 5.0.0 und 4.5.4 gar nicht in Betrieb hatte. Es äußerte sich darin, dass bei der Erstellung von Replika die CPU Auslastung enorm angestiegen ist und die Übertragung gelegentlich derart lange dauerte, dass das Zielsystem noch vor Fertigstellung heruntergefahren wurde. Dadurch bedingt kam das Quellsystem dann überhaupt nicht mehr zurecht, die Erstellung lokaler Snapshots war teilweise nicht mehr möglich und auch HBS3 konnte keine Jobs mehr ausführen (solche bei denen Snapshots erstellt werden). Bei der Übertragung konnte ich irgendwann feststellen, dass diese nur "schubweise" erfolgte, es wurde also immer für kurze Zeit mit ca. 100MB/s übertragen und dann einige Zeit lang nichts mehr.


    Mit der aktuellen 5.0.1 2194 ist es derart ausgeufert, dass manche Übertragung den 3% Fortschritt nicht überschreitet, seither gab es auch keine Benachrichtigung über fehlgeschlagene Replika mehr.

    Zuvor waren immer unterschiedliche Volumes betroffen, zuletzt aber Volume 0 (hier liegen meine VM) und Volume 2 (Mediathek). Beide liegen auf unterschiedlichen Pools/ Datenträgern und werden auch am Zielsystem auf unterschiedlichen Pools/ Datenträgern gespeichert. Während Volume 0 mit knapp 500GB ständig Änderungen erfährt, passiert bei den 1,8TB von Volume 2 eigentlich nur sehr selten etwas.


    Nachdem das Ticket kürzlich erst an die Entwicklung eskaliert wurde, habe ich mich nun mal selbst rangemacht und einfach mal sämtliche Snapshots von Volume 0 im Vault gelöscht, um zu sehen ob es mit der anschließenden Übertragung besser funktioniert.

    Ich lösche also das Volume 0 im Pool 2 auf dem Zielsystem und will die Übertragung vom Quellsystem starten, zuvor aktualisiere ich die Anzeige, denn hier müsste mir nun ausgewiesen werden, dass für dieses Volume keine Replika im Vault vorhanden sind.

    Mir werden allerdings weiterhin 30 vorhandene Replika ausgewiesen... etwas verwirrt wechsle ich zum Pool 1 und sehe, dass das Volume 2 in Pool 1 plötzlich keine Replika mehr haben soll. Hier scheint irgendwas verwechselt zu sein, also lösche ich auch Volume 2 in Pool 1 und erwarte eigentlich, dass mir nun auch für das andere Volume keine Replika mehr ausgewiesen werden. Hier tut sich aber nichts. Erst als ich die vorhandenen Replika vom Quellsystem aus einsehen will, erscheint ein Howto zu Replikas und es wird angezeigt, dass keine Replika vorhanden sind.


    Im nächsten Step startete ich die Übertragung von Volume 0 komplett von Grundauf neu, das lief bis zu etwa 70% auch mit ca. 100MB/s durch, dann schlich sich wieder diese "schubweise" Übertragung ein, aber die CPU Last hielt sich in Grenzen, auch wenn sie zwischendurch mal Peaks hatte:

    pasted-from-clipboard.png


    Insgesamt 350 GB in 1,5h ist im Gegensatz zu den letzten Malen tatsächlich schon recht schnell gewesen.


    Im nächsten Step gilt es also, das Volume 2 komplett neu zu übertragen, dabei fällt mir auf, dass die GUI in storage und Snapshots plötzlich nicht mehr Ewigkeiten zum Laden braucht.

    Kurz nach Beginn dann schon die Ernüchterung:

    Vornehmlich >>80% CPU Last, GUI zwischenzeitlich nicht erreichbar, dafür aber zunächst auch eine konstante Übertragung um die 100 MB/s. Das dürfte bei den zu übertragenden 1,4TB (mindestens) insgesamt 6h dauern, damit werde ich heute um 12 Uhr nicht erleben, ob es nun besser läuft und die Probleme endlich behoben sind.


    Morgen werde ich mehr wissen...


    Hat leider nichts gebracht, obwohl das Volume 2 diesmal problemlos lief, das hatte zuletzt ja immer Ärger gemacht. Dafür sind nun andere Volumes kurz nach Start fehlgeschlagen, manche Replika werden scheinbar nichtmal mehr gefunden.

    Im nächsten Step werde ich alle Replika sowie lokale Snapshots löschen und die Replika von Grundauf neu einrichten. Support hat sich erneut gemeldet, und verlangt erneut Dumplogs und Fernzugriff. Ersteres bekommen sie noch, dann sehen wir weiter.

    Einmal editiert, zuletzt von tiermutter () aus folgendem Grund: Ein Beitrag von tiermutter mit diesem Beitrag zusammengefügt.

  • Nachdem ich alle lokalen Snapshots sowie die Replika gelöscht und neu eingerichtet habe, sah es erstmal ganz schick aus... leider nur für zwei Tage, mittlerweile ist es so, dass die Replika oft bei 3% hängen bleiben und manuell gestoppt werden müssen, eine Benachrichtigung erfolgt aber nicht. :thumbdown:

    Gestern waren es drei Jobs, die bei 3% stehengeblieben sind, diesmal habe ich aber nichts gestoppt sondern gewartet. Der heutige Durchlauf hat daran auch nichts geändert, es gab nichtmal die Meldung, dass der Job nicht gestartet werden konnte weil der vorherige noch läuft. :thumbdown:

    Dafür ist nun aber auch der 4. Job bei 3% stehen geblieben. :thumbdown:


    Wenigstens ist jetzt nicht mehr die lokale Snapshotaufnahme und dadurch bedingt HBS3 betroffen, mir bleiben also noch funktionierende Backups erhalten.

    Den Support werde ich erst demnächst über die letzten Erkenntnisse informieren, die lesen bestimmt immer noch an den viel detailierteren Nachrichten der vergangenen Tage, in denen ich dort Bericht erstattete...

  • UPDATE:

    Bislang hatte ich alle 6 oder 7 Replikaaufträge zur selben Uhrzeit laufen lassen, die habe ich nun etwas verteilt und das Zielsystem läuft dadurch bedingt 15min länger.

    Ist erst ein paar Tage her, aber seither gibt es keine Probleme mehr mit hängenden Jobs.

    Dies hatte ich auch dem Support mitgeteilt, der zwar die gesamte Zeit den Umständen entsprechend gut erreichbar war, allerdings wurde der Fall erst heute zur Entwicklung eskaliert. Nichtmal 5 Minuten nachdem mir dies mitgeteilt wurde, gab es schon die nächste Info:

    Das Problem ist der Entwicklung bekannt und es wird an einer Lösung gearbeitet!


    Also abwarten und hoffen, dass es bis dahin weiter funktioniert :)


    Nächstes Update:

    Mit der nächsten Firmware Version wird das Problem behoben. Aber offensichtlich ist das eher ein Ausnahmeproblem von dem nicht viele betroffen sind :S

    Ich hoffe Storage und Snapshots bekommt mit der Version dann mal insgesamt einen ordentlichen Kahlschlag ...

    Einmal editiert, zuletzt von tiermutter () aus folgendem Grund: Ein Beitrag von tiermutter mit diesem Beitrag zusammengefügt.

  • Ich hab gerade mal wieder ein Blick auf den ordnungsgemäßen Ablauf der Replika geworfen und dabei ist mir der Thread hier wieder in den Sinn gekommen...

    Mit der nächsten Firmware Version wird das Problem behoben.

    Das war die 2234, hier wurden lt. Changelog zwar tatsächlich Probleme mit Replika behoben:

    Mod: Nicht deklariertes Zitat ohne Quellenangabe ... korrigiert! :handbuch::arrow: Forenregeln beachten und Die Zitat Funktion des Forums richtig nutzen

    • Fixed an issue where the source NAS of a Snapshot Replica job would generate a large number of unexpected temporary files when the destination NAS was shut down.
    • Fixed an issue where Storage & Snapshots displayed unexpected error messages when users edited a Snapshot Replica schedule.
    • Fixed an issue that prevented Storage & Snapshots from completing Snapshot Replica jobs on the ARM-based NAS models.

    Betroffen war ich nur vom ersten Problem, allerdings war das natürlich nur die Folge von den zu langsam laufenden Replika. Das Problem, dass die Replika extrem lange dauern, wurde hier nicht angegangen. Ob das gefixte Problem nun auch für mich erledigt ist, kann ich gar nicht mehr beurteilen, da ich das eigentliche Problem ja anderweitig umgehe, hier hat sich auch nichts geändert: Replika dauern weiterhin verhältnismäßig lange :(