Seltsamer/unlogischer Aufbau des RAID5 nach Rebuild

  • Hallo,
    es geht um eine TS-439 Pro II+, mit FW 3.6.1 Build 0302T.


    Eine kurze Vorgeschichte zu diesem Thema. Aufgrund der Tatsache, dass die SMART-Info einer der 4 Platten im RAID5-Verbund von Gut runter zu Normal gegangen war, haben wir diese Platte durch eine andere, neue gleicher Kapazität ersetzt. Dieser Vorgang verlief soweit völlig fehlerfrei. Die Platte (Nr. 2) behielten wir als Reserve.


    Nun passierte folgendes: Einen Monat später reagierten diverse Dienste auf dem NAS nicht mehr. Admininterface war erreichbar, aber das NAS ließ sich darüber nicht neustarten. LED Nr. 1,2 und 4 leuchteten dauerhaft. Nr. 3 blinkte. Über das Menü am NAS selber war auch kein Herunterfahren möglich. Also NAS abgewürgt mit langem Druck auf Power-Button. Zu bemerken sei noch, dass der Ausfall der 3. HD überhaupt nicht vom NAS gemeldet wurde. Ich bekomme fast täglich ne Mail, dass der Timesync fehlgeschlagen ist, aber der Fehler der Disk 3 ist vom NAS überhaupt nicht bemerkt worden.
    Beim Neustart war dann zu hören, dass eine HD böööse Geräusche machte, so ein Klackern. LED Nr. 3 zeigte mir an, dass bei diesem Laufwerk der Fehler zu suchen war.
    Nun habe ich folglich die 3. Platte physisch entfernt und durch die Reserveplatte mit der Smart-Info Gut, die wir noch behalten haben, ersetzt. Ich hatte gelesen, dass beim Einsetzen einer Reserveplatte diese neu formatiert wird und die Daten darauf gelöscht werden.


    Das Ergebnis ist, dass die volle Kapazität da ist und alle normal funktioniert. ABER! Die RAID-Verwaltung zeigt mir Dinge, die mir unlogisch erscheinen:



    (btw: Warum funktioniert hier das Einbinden des Bildes über den img-Code nicht? (Bildgröße konnte nicht ermittelt werden.))


    Wie kann Laufwerk 2 gleichzeitig entladen sein und im RAID5 laufen? Laufwerk 4 taucht gar nicht auf.
    Was ist da schief gegangen? Hätte ich die Reserveplatte so nicht verwenden dürfen?


    Vielen Dank schonmal
    Klaus

  • Hallo und Willkommen im Club!


    Mir wird aus Deiner Beschreibung nicht klar, wo diese "Reserveplatte" herkommt ? Ist das die, die wegen des Smart-Zustandwechsels von "Gut" auf "Normal" ausgewechselt wurde ? Die habt Ihr behalten und nun einfach, wie sie immer noch ist, wieder in die gleiche NAS in einen anderen Slot zurückgesteckt ?


    Falls es so abgelaufen ist, wäre es eine Fehlbedienung gewesen, die die Symptome erklären würde:
    Auf dieser Platte findet sich das Betriebssystem, die Konfiguration und der Datenstand der NAS von vor ein paar Wochen, der nun mit dem aktuellen Zustand "vermixt" wurde. Festplatten, die bereits einmal in dieser NAS waren, werden beim Wiedereinstecken in die NAS nämlich eben nicht gelöscht und neu formatiert, sondern als gültige HDD erkannt und eingebunden. Passt deren Konfigurations- und Datenstand nicht zu dem aktuellen Zustand, kann es Durcheinander durch Überlagerung der "alten" und der aktuelle Konfiguration der NAS geben. Was dann hier geschehen wäre.


    Was die anderen Symptome angeht: Ja, Festplatten können trotz aller liebevollen Versuche der Früherkennung von kommenden Störungen weiterhin ohne jede Vorwarnung ausfallen und je nach Art des Ausfalls die ganze NAS oder das ganze RAID instabil bis hin zum "abschmieren" werden lassen. Das ist unschön, aber ein Ereignis, was weder selten, noch ungewöhnlich ist und auf das man daher vorbereitet sein sollte. Durch ein stets aktuelles Backup aller Daten der NAS, um nötigenfalls jederzeit Neuaufsetzen und Rücksichern zu können.


    GLG GBD

  • Zitat von "GorillaBD"

    Auf dieser Platte findet sich das Betriebssystem, die Konfiguration und der Datenstand der NAS von vor ein paar Wochen, der nun mit dem aktuellen Zustand "vermixt" wurde.

    Das ist gar nicht so sehr das Problem. Da in einem RAID1 alle Platten gleichrangig sind (sie enthalten nahezu identische Daten) wird in der Regel immer von der zeitlich aktuellsten Platte zu den anderen gespiegelt (sehr vereinfacht dargestellt). Wenn es so wäre, wie du schreibst, dann müsste das NAS eine komplett ungültige Dateistruktur aufweisen oder aber zumindest komplett einen alten gültigen Konfigurationsstand haben.
    Anders sieht das bei den redundanten RAID's aus. Dort müssen alle RAID-Teilnehmer in der richtigen logischen Reihenfolge in das RAID gruppiert werden. Um dies sicherzustellen existiert unter anderem auf jeder Platte ein RAID-Superblock, in dem die logische Zuordnung zu einem bestimmten RAID (md0, md1, md9 ... siehe Preferred Minor) und die Position in Selbigem zusammen mit einer UUID gespeichert wird. (Diesen kann man auch mit dem Kommando mdadm -E pro Platte/Partition auslesen.)

    Da sich hier auch mal nur Daten auf nur einer oder zwei Platten ändern können, kann nicht nur nach der zeitlichen Aktualität gegangen werden. Hier greifen komplexere Mechanismen. Wenn nun ein ehemaliger Member wieder eingesetzt wird (in diesem Fall wohl ehemalige Platte2 als Platte3), dann sieht das RAID (aufgrund des gültigen RAID-Superblock mit für dieses RAID gültiger UUID) zweimal den RAID-Member 2 auf Position 2 und 3 was wohl zum beschriebenen Durcheinander führt. Wichtig ist dabei zu wissen, dass die Position im RAID nicht an den Gerätenamen (sda, sdb...) gebunden ist, sondern nur, in welcher Reihenfolge die entsprechenden Gerätenamen beim Starten des RAID aufgerufen werden (die letzen Zeilen der Ausgabe zeigen nur den aktuellen Zuordnungsstatus). Diese Reihenfolge ist bei einem Soft-RAID normalerweise in den Konfigurationsdateien raidtab und mdadm.conf gespeichert.
    (Theoretisch könnte man die Platten bunt durcheinander einsetzen, wenn man vorher diese Dateien entsprechend anpasst ;) )

  • Hallo!
    Vielen Dank für Eure Beiträge. Leider habe ich keine Benachrichtigung bekommen, dass mir geantwortet worden ist. Deswegen melde ich mich erst jetzt.


    Zitat von "GorillaBD"


    Mir wird aus Deiner Beschreibung nicht klar, wo diese "Reserveplatte" herkommt ? Ist das die, die wegen des Smart-Zustandwechsels von "Gut" auf "Normal" ausgewechselt wurde ? Die habt Ihr behalten und nun einfach, wie sie immer noch ist, wieder in die gleiche NAS in einen anderen Slot zurückgesteckt ?


    Ja, so war es. Jetzt sei noch zu meiner Schande hinzugesagt, dass ich - kaum dass ich bemerkt hatte, dass das NAS dadurch 'verwirrt' ist - den Rebuild durch entnahme der HD 3 wieder unterbrochen, die HD in einem anderen Rechner von alten Partitionen befreit und eine neue, formatierte NTFS-Partition erstellt und die Platte dann wieder eingesetzt habe. Zur Zeit der Entnahme war der Rebuildprozess noch unter 2%, wenn ich mich richtig erinnere.


    Zitat von "GorillaBD"

    Falls es so abgelaufen ist, wäre es eine Fehlbedienung gewesen, die die Symptome erklären würde:
    Auf dieser Platte findet sich das Betriebssystem, die Konfiguration und der Datenstand der NAS von vor ein paar Wochen, der nun mit dem aktuellen Zustand "vermixt" wurde. Festplatten, die bereits einmal in dieser NAS waren, werden beim Wiedereinstecken in die NAS nämlich eben nicht gelöscht und neu formatiert, sondern als gültige HDD erkannt und eingebunden. Passt deren Konfigurations- und Datenstand nicht zu dem aktuellen Zustand, kann es Durcheinander durch Überlagerung der "alten" und der aktuelle Konfiguration der NAS geben. Was dann hier geschehen wäre.


    Der Datenbestand ist recht groß, so dass es gut sein kann, dass bisher nur ältere Dateien überschrieben worden sind, die für unsere derzeitigen Produktionen nicht relevant sind. Von daher könnte es lange dauern bis auffällt, dass Dateien fehlen oder eine ältere Version vorliegt. Allerdings macht mir dr_mikes Aussage


    Zitat von "dr_mike"

    Da in einem RAID1 alle Platten gleichrangig sind (sie enthalten nahezu identische Daten) wird in der Regel immer von der zeitlich aktuellsten Platte zu den anderen gespiegelt (sehr vereinfacht dargestellt).


    Mut, dass bei dem Rebuild keine älteren Versionen zurückgesichert worden sind. Das ist insofern auch wichtig für mich, da wir jede Nacht ein Remotebackup auf ein zweites NAS an einem anderen Standort durchführen und ich diese automatische Sicherung vorerst deaktiviert habe.
    Wenn ich mir also eine quasi Entwarnung aussprechen kann, könnte ich dieses Backup wieder reaktivieren.


    Inzwischen wurde diese Reserve HD 3 wieder durch ein völlig neues, blankes Laufwerk ersetzt. Nach dem Einsetzen der neuen HD zeigte das NAS dann auch für kurze Zeit die korrekte Konstellation an (RAID aus 1,2,4; 3 entfernt/ersetzt), doch schon als der Rebuildprozess begann wurde daraus wieder 1,2,3 und jetzt nach Abschluss des Rebuild sieht man in der RAID-Verwaltung das gleiche Bild wie oben schon gezeigt.


    Ich nehme an, diesen RAID-Superblock und die UUID sollte man besser nicht anfassen oder kann es sogar gar nicht?! Im Grunde stellt der derzeitige Zustand aufgrund eigentlich ja nur einen 'Schönheitsfehler' dar, da es bis jetzt zu keinem Datenverlust gekommen ist. Ich frage mich nur, ob das so stabil ist und ob ein etwaiger Nachfolger von mir sich dann veranlasst fühlen könnte zu interveniren und dann alles verschlimmbessert.


    Vielen Dank und viele Grüße
    Klaus

  • Poste doch bitte mal die Ausgaben von

    Code
    mdadm -E /dev/sda3
    mdadm -E /dev/sdb3
    mdadm -E /dev/sdc3
    mdadm -E /dev/sdd3
    cat /proc/mdstat
    cat /etc/config/raidtab
    cat /etc/config/mdadm.conf
    cat /etc/storage.conf