Warum ein Backup so wichtig ist, oder mein Wochenende mit QNAP...

  • Zugegeben, Auslöser waren ein (oder zwei) Fehler meinerseits, was aber daraus geworden ist, hat mich doch ein wenig überrascht.


    Von Vorne:


    Zwei meiner NAS laufen 24/7, beide haben für mich wichtige Daten und sichern sich auch gegenseitig per RTRR.

    NAS1 sichert ein Verzeichnis mit eher häufigen Änderungen stündlich nach NAS2 und zusätzlich täglich nach NAS2 in einen anderen Ordner.

    Nebenher gibt es natürlich noch weitere Sicherungen dieses Ordners auf ein Backup NAS3 (nur zur Info).


    Auf NAS2 war das Volume mit 85% ziemlich voll. Im Pool war aber noch ausreichend Platz das Volume zu erweitern.

    Soviel zur Vorgeschichte.


    Zum eigentlichen Geschehen:


    Im Zuge der Win7 Abkündigung, die ja ganz überraschend kam :mcup:, riefen nun aus vielen Teilen der Republik Freunde und Verwandte an, die meinen Hang zur IT kennen, und baten händeringend um Hilfe.

    Wer könnte da nein sagen?

    Gutmütig wie ich bin, landeten also ca. 1/2 Dutzend Laptops bei mir, und da die meisten natürlich kein Backup hatten (wieso auch, braucht man doch nicht ;) ), habe ich die Rechner alle immer mit Clonezilla gesichert und auf NAS1 abgelegt.

    Nach der erfolgreichen Umstellung auf Win10 wurden die Sicherungen dann immer gelöscht. Die Laptops wurden mit dem Hinweis zurückgegeben, man solle sich doch bitte um eine entsprechende Lösung kümmern.


    Nun ja, bei einer Umstellung kam ich aber in das Zeitfenster, in dem auch die tägliche Sicherung läuft. Da das Win10 Update weitgehend unbeaufsichtigt laufen kann, hatte ich das angeworfen und hatte mich schlafen gelegt. -> Fehler Nr. 1

    Dadurch bekam ich natürlich auch nicht mit, das NAS2 brav seine Meldungen verschickte

    Code
    "Warnung: Volume hat Schwellwert erreicht"

    und etwas später

    Code
    "Warnung: Volume voll".

    Am nächsten Morgen dann die Überraschung, eine Menge Mails,

    Code
    "RTRR Sicherung fehlgeschlagen"

    Ursache gesucht und schnell gefunden.

    Was macht man? Riiiichtig, das Volume erweitern (Platz war im Pool noch vorhanden, siehe oben!) -> Fehler Nr. 2


    Anmeldung im NAS ok, Volume Kapazität von 7TB auf 9TB eingetragen und auf OK geklickt -> Ende des NAS :(


    Eine Volume Erweiterung habe ich schon mehrfach auf verschiedenen NAS durchgeführt, dauert 5, vielleicht auch mal 10 bis 15 Minuten, länger habe ich es nie erlebt.

    Nichts hat sich dann noch geändert, auch nach über einer Stunde war das NAS im gleichen Zustand.

    Die GUI werkelte munter vor sich hin mit "Resizing", Ping war noch möglich, auch Zugriff auf die Shares, aber nichts sonst. Eine Anmeldung über GUI oder SSH war nicht mehr möglich, offenbar hat es das NAS übel genommen, das ich das volle Volume erweitern wollte.

    Man hätte auch zunächst erst Daten löschen können, fraglich ob das anderes bewirkt hätte, aber jetzt war es sowieso zu spät.


    Jetzt erst mal die Sicherungsjobs auf NAS1 alle anhalten, damit nicht laufend neue Mails kommen.


    Dann nach einer weiteren Gedenkviertelstunde zaghaft den Powerschalter gedrückt -> Power off im Display, aber NAS bleibt an, offenbar ist QTS nicht mehr in der Lage zu reagieren.

    Nochmals 10 Minuten gewartet, dann den Poweroff Schalter länger gedrückt, NAS geht aus.

    Nun ja, auf den Filesystemcheck war ich vorbereitet, aber nicht auf das, was jetzt kam!


    NAS eingeschaltet -> im Display "Booting System" und Ende, mehr ging nicht. Nach einigen Minuten 3x ein langer Piep, das war es, keine Plattenaktivität, keine Änderung im Display, nichts!

    Nochmals das Ganze, Poweroff, Poweron -> gleiches Ergebnis.


    WTF...? Was soll das, QTS macht nicht mal mehr einen Versuch zu starten???


    Ruhig werden, überlegen, Ärger runterschlucken.

    Alle Daten sind mehrfach gesichert, da kann nix passieren, aber alles neu aufsetzen!?


    Neuer Versuch: alle Platten entfernt, NAS eingeschaltet, Qfinder findet dann das NAS und man kommt wieder auf die GUI.

    Die fordert einen jetzt auf, eine Platte zu stecken. Also nacheinander wieder alle Platten gesteckt, diese werden erkannt, auch als solche, die schon einmal in einem NAS waren und es werden 2 Optionen angeboten:

    "Factory Reset" ohne Datenverlust oder "Intialize" mit Datenverlust.


    Natürlich "Factory Reset" gewählt, danach war das NAS wieder erreichbar, hatte natürlich eine vollkommen andere Konfiguration und meldete auch gleich wieder "Volume voll".

    Als erste Aktion habe ich den geforderten Filesystemcheck durchgeführt, danach erneuter Versuch das Volume zu erweitern, was diesmal auch reibungslos klappte (war mir den Versuch Wert ;) ).

    Die NAS Konfiguration zurückgespielt, reboot, und das NAS2 lief wieder wie zuvor, die Sicherungsjobs auf NAS1 wieder fortgesetzt, als ob nichts gewesen wäre.


    Das Einzige, was rumzickte, war der QSync-Client auf einem PC, der hat die Verbindung zum NAS nicht mehr akzeptiert "Ungültiges Kennwort", hier musste ich das NAS entfernen und neu anlegen.

    Nach Einrichtung der Ordnerpaare wurden die aber auch sehr schnell als "Synchron" erkannt, eine neue Replikation war nicht notwendig.


    Fazit1: Das QTS in einer solchen Situation "Volume voll" auf eine Erweiterung derart reagiert und nicht mehr bedienbar ist, ist absolut schwach! Ja, mein Fehler, das das Volume voll lief, aber dennoch darf das nicht zu einer solchen Situation führen

    Fazit2: Diese Erfahrung stärkt meine Ansicht, das QNAP niemals in einem beruflichen/professionellem Umfeld eingesetzt werden sollte, zumindest nicht dann, wenn man nur diese eine NAS ohne Backup hat!

    Fazit3: Es ist unglaublich beruhigend, wenn man weiß, das keine Daten verloren gehen können :D. Selbst, wenn ich das NAS hätte platt machen und neu Aufsetzen müssen, die Daten waren alle mehrfach gesichert! Darüber habe ich mir zu keinem Zeitpunkt Gedanken gemacht


    Lediglich die aufgewendete Zeit hat mich geärgert, denn ich hatte am WE eigentlich etwas anderes vor.


    Ach ja, wehe, es kommt jetzt noch mal jemand mit seinem Win7 Rechner "kannst Du mal...?" DIE/DER kann mich mal :P


    Schönes WE noch.

    4 Mal editiert, zuletzt von FSC830 ()

  • Da finde ich noch nicht den ganzen Kontext:

    • War das volle Volume das einzige Volume auf diesem NAS?
    • War dieses volle Volume gleichzeitig für das System auf diesem NAS genutzt?

    Irgendwie erinnert mich dies an schlechtes (bzw. unzureichendes) Softwaredesign

    wie z.B. ursprünglich mit dem Speichermanager von Linux für die Verwaltung des Hauptspeichers. Hatte damals eine Applikation von mir testen wollen. Ging aber nicht, weil statt dessen Linux abstürzte. Bei der Vorbereitung meines Testfalles sollte das Testmanagement sich sehr viel Speicher reservieren mit einer definierten Menge an noch nicht vergebenem Speicher, also definierter Menge an freiem Restspeicher, um das Verhalten meiner Applikation bei wenig freiem Speicher zu testen. Aber meine Applikation lies sich nicht einmal starten. Der Fehler im Speichermanagement von Linux wurde daraufhin behoben. Ist besteht die Vermutung, dass damals auch ein Fehler im Prozessmanagement von Linux war. Hatte das damals (vor mehr als einem Vierteljahrhundert) nicht weiter untersucht.


    Das legt die Vermutung nahe, dass eine ähnliche Designschwäche im Speichermanagement der Storages existiere.

    Man hätte auch zunächst erst Daten löschen können, fraglich ob das anderes bewirkt hätte, aber jetzt war es sowieso zu spät.

    Wenn meine Vermutung zutreffend ist, hätte dies temporär geholfen, wenn dadurch genügend Daten freigegeben worden wären und der Sicherungsjob des anderen NAS diesen nicht vorzeitig wieder in Beschlag genommen hätte, was auch immer genügend sein möge.

    Fazit2: Diese Erfahrung stärkt meine Ansicht, das QNAP niemals in einem beruflichen/professionellem Umfeld eingesetzt werden sollte, zumindest nicht dann, wenn man nur diese eine NAS ohne Backup hat!

    Das halte ich für eine zu undifferenzierte Einschätzung.


    Das Verständnis von professionellem Umfeld, professionellem Betrieb und professioneller Arbeitsweise ist laufend im Wandel. Ein relativ neuer Ansatz für professionelle Betriebsweise heißt Zero Trust. Habe solch eine Betriebsweise noch nie erlebt und würde sie auch noch nicht als etabliert bezeichnen. Es erscheint mir als ein sinnvoller Ansatz, mit Fehlerhaftigkeit von Software und Anfälligkeit für Sicherheitsvorfälle besser umgehen zu können und höhere Zuverlässigkeiten zu erreichen, gegebenenfalls unter Hinnahme temporärer Serviceeinschränkungen statt Serviceende.