2x WD60EZRX, NAS-Absturz, anschließend RAID degradiert, Ursachenforschung

MatthiasM · 4. Oktober 2015

:tongue: TS-269 Pro, Firmware 3.8.1 Build 20121205 mit 2x WD60EFRX (Red 6TB) vom Juli 2015 (vermutlich sogar gleiches Fertigungslos) als Raid1

Folgendes Szenario:
Es laufen Dateitransfers (Videos vom Laptop per Mediathekview runterladen und auf public am NAS speichern) und gleichzeitig läuft eine zeitgesteuerte Datensicherung (Sync auf externe Festplatte am eSata). Alles wird langsamer und langsamer, plötzlich wird das NAS im LAN unansprechbar (weder Freigaben noch Admin-Oberfläche) gefühlt also abgestürzt oder eingefroren.
NAS per Powerbutton formgerecht runtergefahren, neu gestartet.. Lüfter bleibt auf Vollgas stehen, System fährt nicht hoch, beide HDD-LEDs bleiben aus. :shock:
Testhalber: Beide HDDs raus und die im Juli ausgebauten fast vollen WD Red 3TB eingebaut: Kiste fährt hoch, alles bestens, alles da, alles läuft (halt Stand Juli...).
Panik, beide 6TB-HDDs mit externem USB-Gehäuse und Diskinternals Linuxreader vom PC aus angesehen, Festplatten laufen beide soweit erkennbar einwandfrei, und alle Daten da - Uff. (Dreifach Hoch auf die 3.8.1 ohne Speicherpool...) Frei Auge der Verlust zum letzten ca. 1 Woche alten Backup per Sync auf externe Platte verschmerzbar, also weitermachen.
Einzelne HDD1 reingesteckt, NAS startet, alles da, RAID degraded (klar, zweite Festplatte ist ja "weg"). SMART-Daten unauffällig.
Uff, bevor ich IRGENDWAS mache, Datensicherung vom degradierten RAID aus vervollständigen und prüfen.... (ist mir ja abgebrochen zuvor)....
NAS aus, zweite HDD dazu, NAS an: startet nicht, Lüfter Vollgas, wie zuvor.
OK, also RAID-Rebuild erzwingen: NAS aus, zweite HDD wieder raus, NAS an, startet mit RAID degraded. HDD2 "hot" einschieben und schauen, was passiert: OK, erkennt die HDD2 und beginnt selbständig das RAID zu syncronisieren. Rebuild vom RAID läuft fast 20h, aber erfolgreich. Die HDD2 ist ABNORMAL, (siehe unten, Raw_Read_Error_Rate) und verweigert den Schnell- und Normaltest "Severe or unknown errors".

Nach einem Neustart des NAS sind die SMART-Werte für die zweite HDD auf einmal wieder schön, Schnelltest etc. laufen durch, alles bestens. :shock: :shock: :shock: Hä? Alles wieder gut, war was?

Frage: Was kann da passieren, daß a) die zweite Festplatte schlagartig erst mal dieses Fehlerbild zeigt (alle anderen SMART-Werte schauen so unverdächtig aus wie bei der ersten). Was ist da jeweils Ursache und was Wirkung (Datentransfers und gleichzeitig Sync?) <> Systemeinfrieren <> Probleme die die NAS-Hardware hat und evtl. meine zweite HDD angeschossen hat? <> Probleme, die die HDD2 selber entwickelt hatte und die zum Absturz geführt haben... b) warum heilt sich das alles wieder?

Ich trau momentan der HDD2 immer noch nicht so über den Weg und dem ganzen NAS auch nicht.

Meint Ihr, ich sollte trotzdem die Festplatte tauschen und fertig? Da das ganze im Rahmen von einem "Absturz" lief, bin ich da etwas ratlos, wo ansetzen und wo die Ursache finden....

DAs ist die gute HDD1, und so sah die zweite vorher auch aus.

Code

ID	Description	Value	Worst Value	Threshold	Raw Value	Status1	Raw_Read_Error_Rate 	200	200	051	0	OK3	Spin_Up_Time 	231	198	021	7425	OK4	Start_Stop_Count 	100	100	000	37	OK5	Reallocated_Sector_Ct 	200	200	140	0	OK7	Seek_Error_Rate 	100	253	000	0	OK9	Power_On_Hours 	098	098	000	1918	OK10	Spin_Retry_Count 	100	253	000	0	OK11	Calibration_Retry_Count 	100	253	000	0	OK12	Power_Cycle_Count 	100	100	000	37	OK192	Power-Off_Retract_Count 	200	200	000	31	OK193	Load_Cycle_Count 	198	198	000	6648	OK194	Temperature_Celsius 	116	112	000	36	OK196	Reallocated_Event_Count 	200	200	000	0	OK197	Current_Pending_Sector 	200	200	000	0	OK198	Offline_Uncorrectable 	100	253	000	0	OK199	UDMA_CRC_Error_Count 	200	200	000	0	OK200	Multi_Zone_Error_Rate 	200	200	000	0	OK

Das ist die merkwürdige HDD2 während und nach RAID-Rebuild etc. wie oben beschrieben, SMART ABNORMAL

Code

ID	Description	Value	Worst Value	Threshold	Raw Value	Status1	Raw_Read_Error_Rate 	001	001	051	12488	ABNORMAL3	Spin_Up_Time 	226	199	021	7700	OK4	Start_Stop_Count 	100	100	000	28	OK5	Reallocated_Sector_Ct 	200	200	140	0	OK7	Seek_Error_Rate 	200	200	000	0	OK9	Power_On_Hours 	098	098	000	1904	OK10	Spin_Retry_Count 	100	253	000	0	OK11	Calibration_Retry_Count 	100	253	000	0	OK12	Power_Cycle_Count 	100	100	000	28	OK192	Power-Off_Retract_Count 	200	200	000	19	OK193	Load_Cycle_Count 	198	198	000	6607	OK194	Temperature_Celsius 	117	112	000	35	OK196	Reallocated_Event_Count 	200	200	000	0	OK197	Current_Pending_Sector 	200	200	000	0	OK198	Offline_Uncorrectable 	100	253	000	0	OK199	UDMA_CRC_Error_Count 	200	200	000	0	OK200	Multi_Zone_Error_Rate 	179	179	000	10265	OKK

Nach Restart des Systems ist die HDD2 auf einmal wieder "gut". :roll:

Code

ID	Description	Value	Worst Value	Threshold	Raw Value	Status
1	Raw_Read_Error_Rate 	194	001	051	227	OK
3	Spin_Up_Time 	226	199	021	7700	OK
4	Start_Stop_Count 	100	100	000	28	OK
5	Reallocated_Sector_Ct 	200	200	140	0	OK
7	Seek_Error_Rate 	200	200	000	0	OK
9	Power_On_Hours 	098	098	000	1905	OK
10	Spin_Retry_Count 	100	253	000	0	OK
11	Calibration_Retry_Count 	100	253	000	0	OK
12	Power_Cycle_Count 	100	100	000	28	OK
192	Power-Off_Retract_Count 	200	200	000	19	OK
193	Load_Cycle_Count 	198	198	000	6607	OK
194	Temperature_Celsius 	117	112	000	35	OK
196	Reallocated_Event_Count 	200	200	000	0	OK
197	Current_Pending_Sector 	200	200	000	0	OK
198	Offline_Uncorrectable 	100	253	000	0	OK
199	UDMA_CRC_Error_Count 	200	200	000	0	OK
200	Multi_Zone_Error_Rate 	179	179	000	10265	OK

Alles anzeigen

lG Matthias

PS.: Kann mir jemand einen Tipp geben für ein gutes HDD-Testtool, das die ext4-formatierten Platten am externen USB- oder eSata-Adapter am PC gründlich aber völlig zerstörungsfrei (so, daß ich sie einzeln aus dem heruntergefahrenen NAS rausholen und testen kann und sie nachher auch wieder dort laufen) testet (wenn möglich gerne unter Windows 7)? Tools von WD? Kann mir jemand einen Tipp geben oder auf einen guten Thread dazu verlinken, wie und womit ich eine eventuelle leere, neue Austauschplatte vor Einsatz im NAS gründlich testen sollte - dann sicher auch schreibend/lesend (empfohlene SW, HDtune fand ich erwähnt.. Muß es die Pro sein?).

MatthiasM · 5. Oktober 2015

Kleiner Nachtrag: SMART-Werte bei beiden Platten frei Auge gleich und unauffällig, außer Multi_Zone_Error_Rate..
HDD1 SMART-Info ist GUT

Code

200	Multi_Zone_Error_Rate 	200	200	000	0	OK

HDD2 SMART-Info ist NORMAL

Code

200	Multi_Zone_Error_Rate 	179	179	000	10265	OK

Ist da der Multi_Zone_Error_Rate-Wert ursächlich, und kann ich das ignorieren? Woher kommen die Thresholds, nach denen trotzdem alle einzelnen SMART-werte OK sind? Warum ist, wenn alles OK ist, die Platte dann insgesamt nur NORMAL?
Wäre dann derzeit ein Garantieaustausch ratsam, und wenn ja, wie kann ich den rechtfertigen?

MatthiasM · 2. November 2015

So, selbes Fehlerbild wieder:
Nach längerer Zeit ohne Probleme wieder eine ausnahmsweise größere Sicherung der Freigaben auf externe Festplatte (WD6 green mit NTFS) in Dock am eSATA sowie zeitnah ein anderer zeitgesteuerter Job einer anderen Freigabe im Netz ("NAS" auf der Fritzbox) auf das NAS per RTRR-Jobs verenden mit Fehlermeldungen, Freigaben nicht mehr erreichbar;
Admin-Oberfläche schon noch, aber Datenträgerverwaltung lädt ewig.

Neustart: Fehlerbild wie bekannt, Lüfter bleiben auf Vollgas, Kiste startet nicht.

Neustart OHNE beide HDD: Kiste startet durch wie gewohnt und so weit wie üblich, wenn halt keine HDD drin ist.

Neustart mit HDD1: Kiste startet durch, alles wieder da, und natürlich RAID degraded.

Ich aktualisiere meine Datensicherung auf die externe Sicherungsplatte halbhändisch (über USB3-Dock am Clientrechner im LAN) auf den letzten Stand und schaue dann wieder mal, was passiert, wenn ich HDD2 dazustecke, dann ergeben sich vermutlich neue Fragen.

Ich meine, wenn im RAID1 eine Platte spinnt oder stirbt, warum wird die ganze Kiste dann unerreichbar und kann nach Neustart nicht mal mehr fertigbooten? Und warum läuft nach "Hotplug" der angeblich toten 2. Platte RAID synchronisieren anstandslos durch und nachher ist fast alles wie vorher?

Spinnt da die NAS-Hardware oder schaut alles doch ganz massiv danach aus, daß die HDD2 (und nur die allein) eine MAcke mit sich anbahnendem Schlimmeren hat? Wenn die Datensicherung durch ist, werde ich die HDD2 wieder stecken und weiter berichten. Kann es irgendwas mit der Größe/Dateianzahl bei dem RTRR-Job zu tun haben? Das ist die einzige "Kausalität", was vor dem Zwischenfall jeweils gegenüber der Normalnutzung anders wäre, die RTRR-Jobs sind normalerweise kleiner und nur eine Handvoll Dateien jeweils

lG Matthias... der grade einen Vertrauensknick sowohl ins NAS selbst als auch die Platten bekommt....
ich meine, RAID1 soll doch gerade bedeuten, daß eine einzelne zickende Platte nicht das ganze NAS stoppt, sondern daß man eben "nahtlos" durchmacht. Das, was meine Kiste hier vorführt, ist da nicht so, wie man es sich vorstellt.
#########################

<Nachtrag> nach der Datensicherung: Exakt selbes Spiel wie zuletzt: Neustart nur mit HDD1 alleine geht also, dann HDD2 hot plug, HDD2 ist da, aber "ABNORMAL" und RAID1 beginnt wieder zu synchronisieren...

Code

Raw_Read_Error_Rate 	001	001	051	17031	ABNORMAL

.. abwarten bis in 20h oder so....
Was kann an einer HDD fehlen, daß sie sogar das Booten vom NAS verhindert, aber mit Hot Plug nach dem Booten und 20h Sync wieder ganz brav im RAID1-Verbund spielt, evtl. sogar wieder zwar nicht "GUT", aber "NORMAL" wie zuvor?
Nur HDD-Defekt und/oder ein Problem mit dem Slot 2 der NAS-Hardware selbst? Oder irgendein Kausalzusammenhang mit dem in diesem Fall großen RTRR-Backupjob? Sehr komisch... Anyway, die Festplatte fliegt sehr zeitnah raus, hoffe mal auf Garantie, auch wenn die WD-Tools an der ausgebauten Platte sicher wieder nix relevantes finden.......... Kost ja alles nix....

dr_mike · 2. November 2015

Du solltest eventuell mal deine FW aktualisieren.
Unter Anderem wegen:

Zitat

[Version and Build]
3.8.3 Build0426

Change log:
....
- Improved RTRR Real-time Mode stability while uploading large amounts of files concurrently
....

Alles anzeigen

Die Updates sind in der Regel nicht nur zur Belustigung der NAS-Nutzer da.

MatthiasM · 2. November 2015

Ich weiß, das diese Version uralt ist. Hast Du einen Verdacht, daß mir diese RTRR-Geschichte wirklich das RAID so zerschießen könnte? Ich möchte superungern auf eine FW updaten, mit der ich später mal diesen Volumes, deren Sinn sich für meine Anwendung nicht erschließt, nicht mehr entkomme, und insbesondere die 4.2. scheint für ein Produktivsystem momentan noch etwas russisch Roulette zu sein. Ich meinte bisher "never change a running system", das ist eine Produktivkiste, die von außen nicht erreichbar ist (also betreffend Einbruchslöchern relativ ungefährdet "ungepatcht" herumstehen dürfte).
Kann ich mit irgendeiner stabilen 4.x (ha, welche!?) weiterhin gefahrlos auf größere oder andere Platten migrieren oder die Kiste notfalls neu aufsetzen, so daß mir mein RAID1 ohne Volumes (= mit problemlos auf einer ext4-fähigen Kiste einzeln lesbaren Platten*) bleibt? Für meine Kiste komm ich um SMB doch nicht herum....

Ich möchte einfach verstehen, was da auf meiner Kiste schiefgeht.
lG Matthias

* PS.: DAS (RAID1-Platte ohne Kopfstände an beliebiger ext4-fähiger Kiste lesbar) war mal gegenüber Synology, Thecus & Co DER Unique Selling Point für Qnap...

GorillaBD · 2. November 2015

Die HDD2 ist eindeutig defekt.
Die Fehlerarten deuten auf mechanische Probleme/Oberfächenfehler hin, möglicherweise hat auch der Controller dazu noch einen Schuss.

Mit einer solchen Platte kann man jede NAS durcheinanderbringen, bei WD austauschen lassen und danach sollte Ruhe sein.

Der QNAP ist unschuldig, der Vertrauensknick sollte sich, wenn überhaupt, nur an WD richten. Die RED sind gute Platten, wenn sie die ersten paar Monate überstanden haben. Davor sind sie für ihre hohe DOA-Rate und Frühausfallrate berühmt-berüchtigt.

Die FW 3.8. war in den ersten Versionen für ihre Bugs bekannt, wenn diese weiterverwendet werden soll, würde ich ein Update auf die 3.8.4 empfehlen, die war dann wieder ganz brauchbar. Aber bitte kein instabiles System upgraden! Erst die HDD tauschen, wenn die Kiste dann wieder einen Resync des RAID gemacht hat und danach wieder fehlerfrei neustartet, dann erst die FW updaten.

Bei einer 269pro hätte ich aber auch mit einer 4.1.x (dann der letzten Version 4.1.4) keine Vorbehalte, wem die 4.2 noch nicht geheuer ist. Meine lief mit der 4.1.3 und der 4.1.4 störungsfrei für die üblichen Standardaufgaben und auch der systemeigene Filemanager hat sich ggü. der 3.8 deutlich verbessert, was Bedienung und Zuverlässigkeit angeht.

GLG GBD

MatthiasM · 3. November 2015

Welche 4.x.y. ist denn die letzte vertrauenswürdig bombenstabile Nicht-Beta-artige OHNE diese merkwürdigen Volumes? Ich möchte auch künftig gerne auf der Kiste notfalls blank von "Null" weg mit leeren frischen Platten 2x ehrliche Einzeldisk oder 1x RAID1 ohne komische Hausformate sondern mit anderweitig lesbarem ext4 machen können.

lG Matthias

PS.: RAID sync. 31% nach gut 7h... es wird....
PPS.: Was sollte ich für WD dokumentieren? SMART-Status solang es "ABNORMAL" ist - ich ahne ja, daß die Kiste nach dem nächsten Reboot wieder "NORMAL" zeigt und mit Western Digital Data LifeGuard Diagnostics auch nix rechtfertigend übles zeigt...

WD Red im Sinne von "Frühausfall": bei Kaufdatum 1. Juli 2015 direkt vom Distributor ab Lager selbst geholt (= wenigstens einmal zweifelhafter Rumpel-Transport als DOA/Frühschadensursache vermieden - ich hatte mit Platten von dort sonst NIE Frühausfälle geschweige denn DOA), ist das in dem Sinne "Früh"? Einsatz 24/7 von 14 Tagen Downtime im August wegen Urlaub mal abgesehen. DOA und Früh ist für mich doch was anderes....
Mit welchem Tool unter Windoof in externen USB-Dock sollte ich eine jede neue Platte am besten foltern bevor sie ins NAS wandert? Ich müßte mir sowieso eine frische auf eigene Rechnung holen und einen eventuellen Garantietausch-Rückläufer dann als Reserve in die Schublade stecken....

GorillaBD · 3. November 2015

Beispiel für Festplattentest vor Verwendung in der NAS: --> http://forum.qnapclub.de/viewtopic.php?f=350&t=33927

Festplatten fallen statistisch aus, daher ist nicht die Frage, ob Dich einmal solch ein Frühausfall erwischt, sondern wann.
Ich würde Dir dahingehend rechtgeben, dass man nach ca. 2000 Betriebsstunden nicht mehr von einem Frühausfall reden kann, das wäre auch nach meinem Empfinden dann bereits ein normaler statistischer Ausfall, wenn auch ein früher.

WD würde ich beschreiben, welche SMART-Veränderungen sichtbar sind und vor allem, dass der NAS mit dieser Platte teils nicht mehr gestartet ist. Somit liegt an der HDD in jedem Fall ein ein kapitaler Schaden vor, egal, was die SMART-Werte aussagen, denn der SMART-Monitor kann nicht alle Schadensarten erfassen.

Wenn Du weiterhin bei den sogenannten "Legacy"-Volumes bleiben möchtest und nur die TS-269pro als einzige NAS hast, bleibt zur 3.8 FW keine Option. Dann würde ich, wie bereits gesagt, wenigstens auf die 3.8.4 updaten und den NAS vom Internet fernhalten (also nur im Heimnetz betreiben), weil in der QTS4-Historie auch wichtige Sicherheitslücken geschlossen wurden. Alternativ auf das QTS4 gehen und regelmässiges Datenbackup auf externe NTFS-formatierte Platte(n), auch so hast Du jederzeit Zugriff auf die Daten auch vom PC aus.

GLG GBD

MatthiasM · 5. November 2015

Gut, unter dem Aspekt, ich habe RAID1 und eine normalerweise schlimmstenfast vorvortagesaktuelle Datensicherung, sollte ich die Kiste mit der guten HDD1 und der zweifelhaften HDD2 weiterlaufen lassen können bis die Tauschplatte da ist, und dann einfach "Hot swap" alte HDD2 raus und neue rein?
Dadurch daß die HDD2 angeschlagen ist, wird die HDD1 jetzt nicht statistisch wahrscheinlicher gleich mitausfallen, denke ich?

Hmm, in dem Aufwasch gleich zwei kompatible 8TB-Platte kaufen und so den ersten Abschnitt der Kapazitätserweiterung schon mal mit der HDD2 beginnen, wäre das möglich und wenn ja, sinnvoll?

lG Matthias

GorillaBD · 5. November 2015

Dadurch, dass die HDD2 angeschlagen ist, ist sie eine ständige Bedrohung des Gesamtsystems durch Instabilität und sollte daher imho unverzüglich aus dem System entfernt werden.

Das RAID1 läuft dann halt im "Degraded Mode" weiter. Das System ist dabei funktional nicht eingeschränkt, es fehlt "nur" vorübergehend die Redundanz der Daten wg. der fehlenden zweiten Platte. Dies würde ich durch Erhöhen der Backupfrequenz ausgleichen.

Nach Eintreffen der Austauschplatte kann diese dem System wieder hinzugefügt werden und das RAID1 "rebuildet" werden.

Vor dem RAID-Rebuild würde ich das Backup nochmals aktualisieren, weil ein RAID-Rebuild immer ein kritischer Vorgang ist, der alle beteiligten Platten stresst und daher die Ausfallwahrscheinlichkeit aller Platten zu diesem Zeitpunkt erhöht ist.
--> http://forum.qnapclub.de/viewtopic.php?f=242&t=18680 , Beitrag 2.

Natürlich kann man den Vorgang auch gleich zu einer Kapazitätserhöhung durch neue Platten nutzen, wenn sowie Bedarf an mehr Speicherplatz ist. Sinnvoll ist das allerdings nur, wenn dann gleich alle RAID-Platten getauscht werden, weil auch nur dann die Kapazitätserhöhung wirksam werden kann. Auch hier gilt die vorherige "Backuppflicht", analog zum Rebuild.

In 8TB sind derzeit nur Enterprise-Platten für QNAP als kompatibel gelistet, ob Du Dir diesen Kostenfaktor leisten möchtest, musst Du selbst wissen. Von der Seagate Archive 8TB würde ich für RAID-Verbunde abraten, solange QNAP sie nicht offiziell freigibt. Angesichts der SMR-Technologie dieser Platte bezweifle ich aber stark, dass diese je von QNAP freigegeben wird.

GLG GBD

MatthiasM · 10. November 2015

Tauschplatte im RMA-Verfahren von WD ist da (ich bin schon baff, wie flott das ging :thumb: ... hab den RMA am Wochenende erst eingetütet), aber es ist (nicht völlig unerwartet) keine brandneue sondern eine recertified.
Zu realen Erfahrungen (guten/schlechten) mit "recertified" habe ich hier auf die schnelle Suche abgesehen von evtl. begründeten Vorbehalten nichts konkreteres gefunden....
Kann ich die (nach Folterung mit HDTune o.ä.) mit gutem Gefühl verwenden oder sollte ich die in die Schublade legen und schweren Herzens und erleichterten Geldbeutels vom Händler eine ganz frische gleichen Typs holen?
Ich werde von der "altneuen" jetzt erst mal alles an SMART usw. auslesen, ich nehme mal an, das wird bei WD soweit zurückgesetzt, daß sie wie "neu" ausschaut?
Unter dem Aspekt der Nachhaltigkeit (Reparieren vor Verschrotten) ist "recertified" natürlich nicht verkehrt. Ich möchte da nur kein "komisches Gefühl" haben müssen. Daß die Platte nicht ganz allein sondern zusammen mit der anderen im RAID1 laufen wird, ist natürlich ein etwas erleichterndes Argument, sich auf eine "recertified" einzulassen.

lG Matthias

Ezekiel666 · 10. November 2015

Hi,

wenn Du die Festplatte mit HDTune schon gequält hast, dann rein damit. Ob neu oder recert...Verschleissmaterial ist Verschleissmaterial :mrgreen:

IT-verfluchende Grüße

MatthiasM · 3. Januar 2016

Nur kurze abschließende Wasserstandsmeldung, mit der Tauschplatte läuft wieder alles bestens!

2x WD60EZRX, NAS-Absturz, anschließend RAID degradiert, Ursachenforschung

Vulnerability in Download Station

Vulnerability in QuLog Center

Vulnerability in Helpdesk

Vulnerability in curl

Festplatte mit Daten ins NAS einbinden

Eine meiner 4 TB NAS hat heute das klackern angefangen (LAUFZEIT nicht einmal 25 Tage!!!!)

Bios TS-x73

Welche 6TB HDDS in QNAP TS 459

TS433 - Seltsames Geräusch bei Festplatten

Tschüss QTS --- Ich werde künftig die Firmware von QNAP verweigern

(Betriebs)- System vs. Systemvolume - Hinweise zum Verständnis

Backup vom Smartphone (Android) mit FolderSync

QuDedup: Backup Job neu verlinken - Ein Ritt ins Verderben

Qnap & Syno – USV im Master-Slave-Mode

Kodi-Headless Server als Docker-Container

Hardware Praxis – „Hör mal wer da surrt“: Ein Erfahrungsbericht aus dem IT-Alltag

Hardware Praxis – Tipps zum Einbau einer neuen Festplatte: Ergänzung

Foren Update im Juli / August geplant

IT-Geschichten – Die verrückte Tastatur