RAID5 gecrasht - neue HDDs werden nicht angenommen

dhem · 27. August 2013

Hallo Leute!

Bei mir brennt gerade der Hut, vielleicht kann mir jemand helfen.
Habe hier eine TS-659 Pro, Firmware 3.3.2 Build 0819T mit 6x WD RE4 (2TB, WD2003FYYS). Konfig. ist RAID5 + 1 Hot Spare.
Gestern wurde eine HDD (Drive 2) defekt, Rebuild fing an, Spare-HDD (Drive 6) ist eingesprungen - so weit, so gut.

Leider wurde das Rebuild unterbrochen, da Drive 5 nachts einen Fehler gab:
[RAID5 Disk Volume: Drive 1 2 3 4 5 Hot Spare Disk: 6] Error occurred while accessing Drive 5.
Die NAS war heute früh nicht erreichbar. Web Interface lies sich nicht öffnen, Tasten am Gerät funktionieren nicht (klassisch aufgehängt, würde ich sagen).

Nach ca. 5 sekündigem Drücken des Power-Buttons waren alle Lichter aus, nach einem Reboot konnte ich wieder problemlos ins Interface einsteigen.
Drive 6 (eigentlich Hot-Spare) leuchtete nun rot.
Ich habe Drive 6 gegen eine neue, baugleiche WD RE4 getauscht, Rebuild lief aber nicht (LED grün), Fehler:
System 127.0.0.1 localhost [RAID5 Disk Volume: Drive 1 2 3 4 5 Hot Spare Disk: 6] Add drive 6 to volume 1 failed.

Nach einem sauberen Reboot leuchtet nun die eigentlich defekte HDD, Drive 2, rot.

Als ich diese tauschte (gegen eine neue RE4), wurde sie ebenfalls nicht ins RAID eingebunden (LED grün), gleiche Fehlermeldung (Add drive 2 to volume 1 failed).
Nach einem weiteren Reboot (habe auch versucht, die Platten offline einzubauen) scheint Drive 2 wieder rot und meldet
Disk Read/Write Error (trotz neuer HDD)

Beide Platten habe ich auch testweise an einen PC angeschlossen:
Ich sah die von QNAP angelegten Partitionen (kleinere EXT3, ...), habe testweise mit Acronis Disk Director alle Partionen gelöscht und bereinigt, aber die NAS bindet sich auch dann nicht ins RAID ein.

Aktueller Zustand ist - und somit höchste Eisenbahn:
RAID 5 Disk Volume: Drive 1 3 4 5 EXT4 7329.24 GB 4315.41 GB In degraded mode Read only , Failed Drive(s): 5

Somit scheint auch Drive 5 ein Problem zu haben, die Shares sind nur mehr lesend erreichbar.
Aktuell lasse ich einen Bad Block Scan über Drive 6 laufen, dauert wohl noch einige Stunden.

Letzte, interessante Fehlermeldung, kurz vor dem Bad Block Scan nach Einlegen einer neuen HD in Slot 6 (bei ausgeschaltetem Zustand)
08:22:30 System 127.0.0.1 localhost [RAID5 Disk Volume: Drive 1 2 3 4 5 Hot Spare Disk: 6] Rebuilding skipped.
08:22:27 System 127.0.0.1 localhost [RAID5 Disk Volume: Drive 1 2 3 4 5 Hot Spare Disk: 6] Start rebuilding.

SMART-Werte sind bei allen (auch bei der eigentlich defekten HD vor dem Tausch) auf "good".
Ich werd nicht schlau draus. Die NAS will die neuen HDDs nicht haben und markiert sie abwechselt als "gut", "rot leuchtet" oder nimmt sie aus anderen Gründen nicht ins RAID auf.

cat /proc/mdstat:

Code

Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active (read-only) raid5 sda3[0] sde3[4] sdd3[3] sdc3[2]
      7807782400 blocks level 5, 64k chunk, algorithm 2 [5/4] [U_UUU]


md6 : active raid1 sde2[2](S) sdd2[3](S) sdc2[4](S) sdb2[5](F) sda2[1] sdf2[0]
      530048 blocks [2/2] [UU]


md13 : active raid1 sdf4[3](S) sda4[0] sde4[4](S) sdd4[5](S) sdc4[2] sdb4[1]
      458880 blocks [3/3] [UUU]
      bitmap: 0/57 pages [0KB], 4KB chunk


md9 : active raid1 sdf1[5] sda1[0] sde1[4] sdd1[3] sdc1[2] sdb1[1]
      530048 blocks [6/6] [UUUUUU]
      bitmap: 1/65 pages [4KB], 4KB chunk


unused devices: <none>

Alles anzeigen

Jemand Tipps?

add:
Screenshot hinzugefügt.

GreyAngel · 27. August 2013

Hallo und grüß Dich...

Bevor jetzt die Non-Raid-Fraktion wieder Weisheiten loslässt: 8-)

SMART-Werte sind nicht aussagekräftig genug, was den realen Zustand einer Platte anbetrifft. Ich würde Dir empfehlen, die "defekte" Platte aus dem NAS zu nehmen, in einen PC Deiner Wahl einzubauen und mit einem geeigneten Testprogramm (z.B. von WD selbst) intensiv auf Fehler zu testen, bevor Du weitere Experimente am Degraded-Raid durchführst. :-/

Während dieser Tests (die etwas Zeit in Anspruch nehmen) würde ich - falls das noch nicht geschehen ist - die wichtigsten Daten auf dem NAS sichern, um Datenverlusten bei evtl. weiteren Systemausfällen vorzubeugen.

Ich fahre in allen Geräten WD30EFRX. Da allerdings die DOA-Rate (Dead on arrival) relativ hoch ist, geht jede Platte einmal durch einen Volltest in einer Docking-Station am PC.

Wenn die Platte den Intensivtest bestanden hat, würde ich alle eventuellen Partitionen und/oder Daten darauf entfernen und sie dann nochmal ins NAS einbauen (gilt für Neuware!).

Wenn alles wieder vernünftig läuft, würde ich über ein Firmware-Update nachdenken. Die 3.7.3 ist geeignet für alle, die den grafischen Schnickschnack nicht möchten. Ansonsten läuft z.B. bei mir die 4.0.2 tadellos und recht performant... Lediglich der Medienbibliothek sollte man die Scannerei von Anfang an abgewöhnen... Bitte nicht direkt von 3.3.2 auf 4.0.2 - ich bin nicht sicher warum, aber das geht meist schief...

Viel Erfolg! :thumb:

Apollon1975 · 29. August 2013

Hi Dhem,
irgendwie kommt mir alles recht bekannt vor;-)
schau dir mal mein Beitrag : http://forum.qnapclub.de/viewtopic.php?f=25&t=27507
an .
Solltest du mehr erfolg als ich haben , lass es mir bitte wissen
Lieben Gruß,
Chris

dhem · 29. August 2013

Hallo,

ich hatte leider keinen Erfolg.
Gott sei Dank hatten wir ein aktuelles Backup der wichtigsten Daten.
Zusätzlich konnte ich alle bisweilen nicht gesicherten Daten noch wegkopieren (RAID degraded read-only, lesender Zugriff war also noch möglich).

Die "defekte" NAS wird nun ersetzt.
Damit zeigt sich wieder: der einzige Ersatz für ein Backup ist ein zweites Backup.

Grüße

GorillaBD · 29. August 2013

Hallo und Willkommen im Club !

Zitat von "dhem"

Die "defekte" NAS wird nun ersetzt.

Was soll denn an der NAS defekt sein ? Die ganze Story hier spricht doch mit viel höherer Wahrscheinlichkeit für Plattendefekte oder einen logischen RAID-Crash ?

Ich würde die NAS mal auf einen neueren Firmwarestand bringen (meine Empfehlung: 3.7.2) und ihr "saubere" leere und getestete Platten gönnen, bevor ich sie verdächtige.
Die Notwendigkeit des Backups hast Du ja erkannt, RAID-Systeme sind nicht "sicher", ihre Aufgabe ist, Verfügbarkeit zu erhöhen.

GLG GBD

dhem · 29. August 2013

Hallo Gorilla,

deswegen "defekt" unter Anführungszeichen.
Das Gerät hatte zuletzt keinerlei Platten mehr angenommen oder wahlweise als defekt gekennzeichnet und wird somit keinesfalls mehr in den Produktiveinsatz gehen.
Dennoch werde ich versuchen, die Kiste evtl. für andere, weniger kritischere Zwecke einzusetzen.

Jetzt wird erst mal was neues bestellt. Vermutlich eine TS-879U-RP, die dann auch sauber im Schrank Platz findet.

Grüße

GorillaBD · 29. August 2013

Bis ich keine ausführlicheren Plattenteste gemacht hätte, gälte für mich für die NAS eine klare Unschuldsvermutung. Insbesondere, wenn die Platte(n) neu ist/sind.
Auch das andere RAID-Members bei einem Rebuildversuch eines grossen RAID5 ebenfalls wegsterben können, ist NORMAL.

Aber gut, wenn man eh schon immer eine x79 haben wollte... ... ... :mrgreen:
Bloss halt nicht wundern, wenn der gleiche Plattensatz da früher oder später wieder die gleichen Symptome zeigt. :-/

GLG GBD

dhem · 29. August 2013

Auch das Vertrauen in ein Gerät spielt hier eine Rolle.
Natürlich kann es sein, dass 3 neue (originalverpackte) Platten defekt waren. Auch kann es sein, dass 3 (von 6) sich im Betrieb befindliche Platten (hier: 2,5,6 in dieser Reihenfolge) defekt werden.
Aber nicht beides gleichzeitig und nicht alles an einem Tag :o

In die TS-879U-RP kommen natürlich frische Platten rein, ich denke hier wieder an WD RE4, diesmal mit 3TB das Stück.
Eventuell ein RAID6 mit Hot-Spare, aber das muss ich mir noch durch den Kopf gehen lassen.

Grüße

GorillaBD · 29. August 2013

Naja, auf diese Weise lässt sich allerdings nie rausfinden, was los war.
Ich würde neue Platten in die 659 oder die Platten, die in Ordnung sein müssen, weil ja gewisse Dinge nicht gleichzeitig an einem Tag passieren können, in die x79 stecken.

Dann klärt sich ja vielleicht was.

GLG GBD

dhem · 29. August 2013

Mal sehen, ob die Zeit dazu reicht

Grüße

RAID5 gecrasht - neue HDDs werden nicht angenommen

Vulnerability in Download Station

Vulnerability in QuLog Center

Vulnerability in Helpdesk

Vulnerability in curl

Fritzbox 7590 Webserver Port 80 Weiterleitung geht nicht

QFinder Pro - Login fehlgeschlagen

QuFirewall nur Updates und E-Mail Kommunikation erlauben

Ein standart Konto ohne Adminrechte erstellen

TS 231 P2 zurückgesetzt, wo finde ich den Cloud - Key?

Tschüss QTS --- Ich werde künftig die Firmware von QNAP verweigern

(Betriebs)- System vs. Systemvolume - Hinweise zum Verständnis

Backup vom Smartphone (Android) mit FolderSync

QuDedup: Backup Job neu verlinken - Ein Ritt ins Verderben

Qnap & Syno – USV im Master-Slave-Mode

Kodi-Headless Server als Docker-Container

Hardware Praxis – „Hör mal wer da surrt“: Ein Erfahrungsbericht aus dem IT-Alltag

Hardware Praxis – Tipps zum Einbau einer neuen Festplatte: Ergänzung

Foren Update im Juli / August geplant

IT-Geschichten – Die verrückte Tastatur