Moin zusammen,
seit QTS 5.0.1 habe ich vermehrt Probleme bei der Erstellung von Snapshot-Replika, die sich darin äußern, dass die Übertragung extrem lange dauert und das System / die CPU dauerhaft zu 80% und mehr ausgelastet wird.
Bislang scheint das ein Einzelfall zu sein, ein Ticket ist bereits erstellt. Ich möchte mit diesem Thread im Wesentlichen über den Verlauf und eine etwaige Problemlösung informieren, nicht zuletzt, damit ich das Durcheinander selbst etwas besser durchblicken kann
Quellsystem: TVS-473, Zielsystem: TVS-463 ; ausschließlich Thin-Volumes
Das Problem begann bereits mit der ersten 5.0.1 Beta, wobei ich QTS 5.0.0 und 4.5.4 gar nicht in Betrieb hatte. Es äußerte sich darin, dass bei der Erstellung von Replika die CPU Auslastung enorm angestiegen ist und die Übertragung gelegentlich derart lange dauerte, dass das Zielsystem noch vor Fertigstellung heruntergefahren wurde. Dadurch bedingt kam das Quellsystem dann überhaupt nicht mehr zurecht, die Erstellung lokaler Snapshots war teilweise nicht mehr möglich und auch HBS3 konnte keine Jobs mehr ausführen (solche bei denen Snapshots erstellt werden). Bei der Übertragung konnte ich irgendwann feststellen, dass diese nur "schubweise" erfolgte, es wurde also immer für kurze Zeit mit ca. 100MB/s übertragen und dann einige Zeit lang nichts mehr.
Mit der aktuellen 5.0.1 2194 ist es derart ausgeufert, dass manche Übertragung den 3% Fortschritt nicht überschreitet, seither gab es auch keine Benachrichtigung über fehlgeschlagene Replika mehr.
Zuvor waren immer unterschiedliche Volumes betroffen, zuletzt aber Volume 0 (hier liegen meine VM) und Volume 2 (Mediathek). Beide liegen auf unterschiedlichen Pools/ Datenträgern und werden auch am Zielsystem auf unterschiedlichen Pools/ Datenträgern gespeichert. Während Volume 0 mit knapp 500GB ständig Änderungen erfährt, passiert bei den 1,8TB von Volume 2 eigentlich nur sehr selten etwas.
Nachdem das Ticket kürzlich erst an die Entwicklung eskaliert wurde, habe ich mich nun mal selbst rangemacht und einfach mal sämtliche Snapshots von Volume 0 im Vault gelöscht, um zu sehen ob es mit der anschließenden Übertragung besser funktioniert.
Ich lösche also das Volume 0 im Pool 2 auf dem Zielsystem und will die Übertragung vom Quellsystem starten, zuvor aktualisiere ich die Anzeige, denn hier müsste mir nun ausgewiesen werden, dass für dieses Volume keine Replika im Vault vorhanden sind.
Mir werden allerdings weiterhin 30 vorhandene Replika ausgewiesen... etwas verwirrt wechsle ich zum Pool 1 und sehe, dass das Volume 2 in Pool 1 plötzlich keine Replika mehr haben soll. Hier scheint irgendwas verwechselt zu sein, also lösche ich auch Volume 2 in Pool 1 und erwarte eigentlich, dass mir nun auch für das andere Volume keine Replika mehr ausgewiesen werden. Hier tut sich aber nichts. Erst als ich die vorhandenen Replika vom Quellsystem aus einsehen will, erscheint ein Howto zu Replikas und es wird angezeigt, dass keine Replika vorhanden sind.
Im nächsten Step startete ich die Übertragung von Volume 0 komplett von Grundauf neu, das lief bis zu etwa 70% auch mit ca. 100MB/s durch, dann schlich sich wieder diese "schubweise" Übertragung ein, aber die CPU Last hielt sich in Grenzen, auch wenn sie zwischendurch mal Peaks hatte:
Insgesamt 350 GB in 1,5h ist im Gegensatz zu den letzten Malen tatsächlich schon recht schnell gewesen.
Im nächsten Step gilt es also, das Volume 2 komplett neu zu übertragen, dabei fällt mir auf, dass die GUI in storage und Snapshots plötzlich nicht mehr Ewigkeiten zum Laden braucht.
Kurz nach Beginn dann schon die Ernüchterung:
Vornehmlich >>80% CPU Last, GUI zwischenzeitlich nicht erreichbar, dafür aber zunächst auch eine konstante Übertragung um die 100 MB/s. Das dürfte bei den zu übertragenden 1,4TB (mindestens) insgesamt 6h dauern, damit werde ich heute um 12 Uhr nicht erleben, ob es nun besser läuft und die Probleme endlich behoben sind.
Morgen werde ich mehr wissen...
Hat leider nichts gebracht, obwohl das Volume 2 diesmal problemlos lief, das hatte zuletzt ja immer Ärger gemacht. Dafür sind nun andere Volumes kurz nach Start fehlgeschlagen, manche Replika werden scheinbar nichtmal mehr gefunden.
Im nächsten Step werde ich alle Replika sowie lokale Snapshots löschen und die Replika von Grundauf neu einrichten. Support hat sich erneut gemeldet, und verlangt erneut Dumplogs und Fernzugriff. Ersteres bekommen sie noch, dann sehen wir weiter.