Platte während RAID 5 abgeraucht Rebuild

  • Moin,


    ich habe hier ein QNAP TS419P. Dort ist ein RAID5 mit 3 Platten + Ersatzlaufwerk verbaut. Platte 1+2+3 bildeten das RAID Array, Platte 4 war eine "Globale Reserve".

    Der Status der Platten 1,2 und 4 war gut, Platte 3 warf Fehler. Diese sollte nun ersetzt werden. Backups sind gemacht, Platte 3 wurde dann gestern abend gezogen. Das System erkannte die fehlende Platte, das Raid wurde auf Degraded gestuft und Platte 4 wurde eingebunden. Der Rebuild startet gegen 17:00. Die neue Platte 3 habe ich ins Tray eingebaut, aber das Tray selbst nicht gesteckt, damit der Rebuild erstmal laufen kann.


    Heute Nacht warf Platte 2 dann mehrfach I/O Fehler. Stellenweise WARNINGs mit der Bitte einen Bad Block Scan zu machen, teils als echte I/O Errors.


    /proc/mdstat wirft folgendes aus für das RAID:


    Code
    md0 : active raid5 sdd3[3] sda3[0] sdb3[1]
    1950387200 blocks level 5, 64k chunk, algorithm 2 [3/2] [UU_]
    [===================>.]  recovery = 99.9% (975193320/975193600) finish=0.0min speed=28K/sec



    Platte 2 hat im Gehäuse ein rotes Lämpchen, die Weboberfläche ist nicht erreichbar.

    Ist das RAID so in der Form jetzt verloren und wir dürfen bei Null mit neuen Platten für Tray 1 und 2 anfangen....oder kann man da noch irgendwas retten?

  • Viel Spaß auf dee grünen Wiese, Raid 5 kann einen Ausfall verkraften, bei dir sind 2 HDs tot.

    Backup ran, neue HDs rein und los gehts von neu.

  • Der Rebuild startet gegen 17:00. ...

    Heute Nacht warf Platte 2 dann mehrfach I/O Fehler


    Ist ein bekanntes Problem, dass bei einem Rebuild die restlichen Platten besonders belastet werden und genau zu diesem Zeitpunkt auch ausfallen können!

    Das ist aber kein QNAP-Problem, sondern betrifft jede NAS, jeden Herstellers.


    Vermutlich hast du alle Platten ident, gleiche Charge, gleicher Hersteller und gleiches Datum der Platten. Damit ist eigentlich schon "vorherbestimmt" dass die Platten ungefähr die selbe Lebensdauer haben. Fällt eine davon aus, kannst du mit Gewissheit davon ausgehen, dass die anderen Platten nur unwesentlich später auch Fehler werfen.


    Um das zu verhindern sollten die Platten gut "durchgemischt" sein, d.h. nicht alle Platten zum selben Zeitpunkt beim selben Händler kaufen. Damit erhöht man die Change dass die Platten nicht aus der gleichen Serie kommen und nicht zum gleichem Zeitpunkt ausfallen.

  • Ja, das waren alles Samsungs gleichen Alters.

    Wir werden das RAID jetzt als RAID6 konfigurieren und dann einen Reminder für in 5 Jahren setzen, um die Platten dann zu tauschen.

  • Reminder für in 5 Jahren setzen

    Weiß nicht welche Platten du verbaut hast?


    Bei meinen WD Red gehe ich von 3 Jahren Lebensdauer aus ... ab da melden sich die ersten SMART-Werte, noch nichts bedenkliches, aber ein erstes Anzeichen, welches wahrgenommen werden will.

  • Das waren jetzt Samsungs mit >5 Jahren Laufzeit ohne SMART Fehler. Die erste zuckte vor 4 Wochen, allerdings war die (nicht durch mich) konfigurierte Versender E-Mail offline, so dass keine Benachrichtigungen kamen, sonst hätte man eher regieren können. Ich werde auch immer erst dann gerufen, wenn es zu spät ist...


    Meine eigenen WDC Platten haben jetzt 4.7 Jahre ohne SMART Fehler, der Bad Block Scan ist auch unauffällig.

    Werden die aber Freitag ersetzen!

  • Für ein 419p (hab selber eins) würde ich RAID10 verwenden. Aus dem Grund weil die kleine ARM CPU so schon viel zu langsam ist und double Parity Berechnungen (für raid6) da ziemlich auf die Performance schlagen. (obacht .. RAID10 könnte im ungünstigsten Fall auch nach 2 defekten Platten den Geist aufgeben.... kommt auf die Platte an)


    auf meinem 951X läuft RAID6

  • Da es vor allem um Ausfallsicherheit und nicht Performance geht, wird es RAID6 werden. Die Datenmenge,die es betrifft, ist nicht sooo groß.

    Ich habe mir mal die Vor- und Nachteile zu Gemüte geführt. Und da scheint mir RAID6 bei den zu verwendenden Platten doch flexibler. Bei RAID 10 wird ja schon explizit auf *gleichen* Plattentyp des *gleichen* Herstellers hingewiesen.


    Das System synchronisert gerade auf neuen, leeren Platten. Das darf jetzt vor scih hinrödeln, danach wird das Backup zurückgespielt. Performancetest mache ich aber noch. Wenn das gar nicht geht, muss ich mit dem "Chef" sprechen.