Platte oder NAS defekt?

  • Moin,


    Probleme nehmen grade kein Ende ... X/


    QNAP TS-431 - QTS 4.3.6.1620

    4 Platten WD RED 4TB - WD40EFAX-68JH4N0 - RAID 5 - gekauft 04/2020


    Seit einigen Wochen fällt im laufenden Betrieb immer wieder die vierte Platte aus bzw. wird plötzlich als nicht existent angezeigt. Nach Neustart wird sie wieder erkannt und ein 1-tägiger Rebuild des Raid beginnt.

    Sobald sie wieder erkannt wurde, S.M.A.R.T-Status gecheckt ... alles ok :/

    Habe die Platte schon mal ausgebaut und wieder eingesteckt aber noch nicht außerhalb des NAS getestet.


    Nun schon wieder bei einem Backup ausgefallen. Wollte runterfahren, aber Backup-Prozess hing. Hab dann einen Kill-Befehl über SSH abgesetzt. Resultat: Neustart.

    Die Platte wurde wieder erkannt und der Rebuild ist gestartet.

    Nun möchte ich während des Rebuilds nicht runterfahren und die Platte rausholen zum Testen ... oder kann ich das gefahrlos machen?


    Was ist denn wahrscheinlicher: Dass die Platte hinüber ist oder dass das doch schon etwas ältere NAS ne Macke hat?

  • Wenn die Platte extern getestet ok ist, dann wird vermutlich die Backplane ein Problem haben.


    Teilweise war da ein Lastschalten defekt, den man Brücken oder ersetzen konnte.

    Wenn es aber bei dem Modell im Inet nix zu finden gibt, wird es schwer das ohne tiefe Elektronikkenntnisse und das nötige Messzeugs wirklich rausfinden zu können.

  • Die 4er EFAX ist eine SMR. Damit vertüdelt die sich mit ihren Operationen, antwortet nicht zeitgerecht und das RAID schmeißt die als "DEFEKT" aus.

    Ganz einfache Sache bei SMR im RAID.

  • Das ist eine extrem vereinfachte Darstellung der SMR Problematik, die nix mit der Realität zu tun hat.


    Ich habe im P3 Seagate Barracuda SMR HDs der schlimmsten Dektop Archiv Reihe laufen und da läuft das Raid 5 einfach.


    Würde die HD Reihe ein Problem sein, dann würde es nicht immer wieder nur einen Steckplatz treffen.


    Wie gesagt, HD extern testen, dann muss man nicht mehr raten und kann den Fehler exakter Eingrenzen.


    Denn was nützt es jetzt eine CMR HD zu bestellen, rein zu stecken und in ein paar Tagen dann wieder mit Ausfall HD4 da zu stehen.

  • Der externe Plattentest wird mal genau NIX in Hinblick auf SMR-Problematik im RAID erbringen, da SMART im NAS okay.

    Der Austausch einer Platte würde die SMR-Problematik nicht beheben, ein anständiges Backup die Folgen aber auf den zeitlichen Aufwand begrenzen.

    Überschreitet eine zweite Platte während eines Rebuild die Antwortzeit, dann war es das mit RAID und Daten.


    Geschrieben auf ThinkPad R60e mit XP ;-), mein Pendant zu SMR im NAS.

  • Schon komisch, das die anderen 3 HDs ohne Probleme laufen.


    Und was bringt es eine CMR HD in einen möglicherweise defekten Slot 4 zu stecken?

    Wird die dann Fehlerfrei laufen?

    Ich halte das für sehr unwahrscheinlich.


    Wie sehen den deine Erfahrungen mit SMR HDs aus?

    Hast du welche, betreibst du welche?


    Die Probleme die berichtet wurden waren lange Antwortzeiten und Rebuildzeiten, bei großen Raid Verbünden die zudem die ganze Zeit unter Last stehen.


    Ein Home NAS das auch so verwendet wird, auf dem keine Kameras aufzeichnen friss nicht den ganzen Tag Daten.

    Wenn es mal welche bekommt, dann sind das x GB und das passt meist in den CMR Cache der SMR HD.


    Deine Theorie ist ja schön, geht aber an der Praxis wirklich völlig vorbei.


    Edit:

    Da wir hier von Device controlled SMR sprechen, antwortet die HD ja die ganze Zeit, es sei denn die HD hat wirklich einen defekten Controller.

    Das würde der Test mit dem Herstellertool dann aber zeigen oder sie SMART werte 187/197.

    Einmal editiert, zuletzt von Crazyhorse ()

  • Komisch ist, daß bei RAID-Rauswurf immer Alles schuld ist, nur nie die SMR. Klar, Backplane und SMR kann auch zusammenkommen. Nur ein Test extern wird nix bringen, sonst hätte das NAS das schon angemeckert. Mir eigentlich auch egal, nicht mein NAS, nicht meine Daten, nicht mein Backup. Für den Prospektbetrug von WD am Kunden bin ich auch nicht verantwortlich.


    Ich hatte interessehalber meine Experimente mit SMR am NAS gemacht, im NAS käme mir nicht in den Sinn. Selbst am NAS waren sie bei Daten >1/10 Gesamtkapa dann unbrauchbar langsam und wurden zudem höllisch heiß. Sollte sich im Forum finden lassen ... war eine 2,5er mit 2TB.


    Und bitte, hier wird nicht von Host controlled SMR wie in RZ, sondern von Device controlled SMR geredet. Jede EFAX ist hier mit eigenem und nicht übergangenem Controller unterwegs und da greift das NAS nicht ein. Insofern ist die SMR-EFAX für das NAS eine Festplatte wie jede andere CMR-Platte auch, deren interne Krempelei nicht vom NAS beeinflusst werden kann. Fehlende Antworten/Reaktionen im Zeitfenster wie das SMR gerne mal machen, beeinflussen das NAS natürlich und es zieht den Stecker vom RAID. Punkt und Aus.

  • Öhm ... ich freu mich ja über das Interesse an meinem Problem aber ich versteh nur Bahnhof :S


    Also:

    - Was bedeutet SMR, CMR und EFAX?

    - Der Test der externen Platte steh noch aus. Frage ist: Kann/darf ich während des Raid-Rebuilds das NAS ausschalten und die Platte für die Tests ausbauen? Was könnte passieren?


    Sorry ... aber ich bin nur interessierter Laie mit gefährlichem Halbwissen.

  • Wenn du beim Rebuild abschaltest, fängt es wieder von vorn an.


    Sorry Host und Device controlled verwechselt, das richtige gemeint aber das falsche geschrieben, korrigiert.


    Lasse den Rebuild laufen und dann fahre es runter, teste die HD extern, wenn die da Ok ist, dann könnte auch bei dir die Backplane für den Defekt verantwortlich sein.

    Wäre jedenfalls nicht das erste mal.

  • SMR, das Ding mit der Dachziegelreihe.

    PMR, auch als CMR bekannt, nur ohne die Dachziegelreihe.

    Wobei PMR eigentlich nur die Art der Magnetisierung beschreibt, die anders als früher mehr in die Tiefe geht und deswegen die Datendichte auf den Plattern erhöht werden konnte.


    EFAX ist eine Baureihe von Western Digital (WD), die nach der EFRX in die WD-RED-Reihe untergeschoben wurde, die, wie bisher bekannt, in 2/3/4/6TB Größe SMR ist und den Leuten als NAS-tauglich untergejubelt wurde. Es wurde damals nicht auf die geänderte Aufzeichnungsgeometrie hingewiesen, die nicht so besonders für RAID geeignet ist. Das kam dann durch Messungen heraus nachdem einigen Leuten die RAIDs um die Ohren flogen.


    Crazyhorse Wurde verkenntnisst ;)

  • Danke für die Infos. Jetz hab ich alles verstanden.


    Habe die Platte jetzt extern im Test. Kurzer Test war ok ... langer Test läuft grade. Es sieht so aus, als wäre die Platte in Ordnung. Dann könnte es also ein Defekt am NAS sein ... oder es hängt an SMR.

    Mir ist auch schon aufgefallen, dass das Kopieren auf das NAS relativ langsam ist. Dachte das wäre normal ... hab aber auch keinen Vergleich.


    Ich könnte versuchen, alle Daten mal auf Extern zu sichern, alles platt zu machen, die Plattenreihenfolge zu ändern und alles wieder draufzuspielen. Wenn´s am gleichen Slot wieder passiert, ist die Platte zwar ok aber könnte immer noch am NAS oder an SMR liegen, oder?


    Bei QNAP gibt es nur einen Hinweis, dass die Platte bei hoher Auslastung Probleme machen kann. Kann es sein, dass ältere QNAP damit mehr Probleme haben könnten als neuere?

    Hab für einen Bekannten vor kurzem eine TVS-472XT bei AnyNas inkl. 4x2TB WD-Red gekauft. Hab geschaut: Sind tatsächlich auch EFAX! Der ARBEITET damit aber sehr intensiv! Da hängt also richtig Kohle dran wenn die ausfällt!

    Ich frage mich, warum AnyNAs nach Bekanntwerden der Probleme noch ohne Hinweis solche Konfigurationen verkauft!


    Frage: Hat jemand vielleicht Erfolg gehabt mit einem Kulanzumtausch bei WD gegen CMR-Platten? Habe Hinweise in Foren von Mitte letzten Jahres gefunden.

  • Es kann sein dass du dich dabei auf meinen Bericht beziehst. Ja, bei mir hat es geklappt - aber es war eine monatelange Odyssee, weil die Gewährleistungsfrist abgelaufen war und ich deshalb bei WD direkt eine Bestätigung der Kostenübernahme für die Rückabwicklung einfordern musste. Die bekam ich dann sogar im zweiten Anlauf. Trotzdem hat es ziemlich gedauert bis der Verkäufer dann endlich die Einsendung akzeptierte und das Geld zurück überwiesen war ...

  • SMR für ein RAID 5 ist gewagt, da kommen alle möglichen Fehler zustande. Aber in einem muss ich Crazyhorse Recht geben warum immer nur Slot 4.

    Es wäre in komischer Zufall das immer nur der eine Slot betroffen ist. Aber auch das traue ich SMR zu.

    Am einfachsten wäre es er würde es mit einer Ersatz HDD testen

  • Warum laufen dann SMR HDs der schlimmsten Sorte bei mir Problemlos zu 3-4 im Raid 5?

    Erst im Be und jetzt im P3?


    Und die bei mir laufenden habe einen deutlich längere Chunk Size als z.B. die Reds.


    Wenn das so ein mega Problem wäre, würde mir das Raid längst auseinander geflogen sein.

    Und bei den NAS Systemen die wir hier haben, ist kein Hardware Raid Controller eingebaut, das ist alles Software.


    Und nein ich finde das nicht gut, das WD REDs mit dem Scheiß verkauft hat und das heimlich.

    Ich verachte WD dafür sogar zu tiefst und finde es mega gut, dass du denen diese scheiße HDs um die Ohren gehauen hast! @kryptonite


    Ich würde es begrüßen wenn finalman das auch machen würde, einfach damit WD nen richtigen Denkzettel verpasst bekommt, die merken das nur, wenn es mehr gekostet hat als damit der Gewinn gesteigert wurde!


    Hab für einen Bekannten vor kurzem eine TVS-472XT bei AnyNas inkl. 4x2TB WD-Red gekauft. Hab geschaut: Sind tatsächlich auch EFAX! Der ARBEITET damit aber sehr intensiv! Da hängt also richtig Kohle dran wenn die ausfällt!

    Wenn du wie bei den REDs eine recht kleine Chunk Size hast, das z.B. nur 5 Spuren und nicht wie bei meinen gleich 10 Spuren zusammen hängen, dann geht das noch.

    Die Performance bricht dann im reinen SMR Modus zwar auch ein, aber nicht so stark wie bei meinen Barracudas, die dann nur noch mit einigen MB/s schreiben können.

    Zudem gibt es hier einen CMR Cache, wenn der groß genug ist, das die HDs den ich sage mal in der Arbeitszeit füllen und dann die Nacht über in den SMR Bereich weg schreiben können, wird man das nicht merken.


    Zumindest so lange, bis eine HD Ausfällt und dann unter Workload der Rebuild gefahren werden muss, dann wird alles mega lahm.

    Das wäre ein Problem.


    Bei mir hängen die jetzt im Backup NAS und da sicher ich mit 5-6MB/s per VPN hin, mit ein wenig Glück bald vielleicht mit 10-12MB/s.

    Das schaffen die 4 Gurken im Raid 5 dann aber auch im SMR Modus.


    Echt richtig scheiße wird es, wenn die zu über 98% voll sind, dann gurken die nur noch im SMR Modus mit KB/s durch die Gegend.


    Also am besten auch hier Knüppel und fest drauf auf WD den Hersteller von diesem Zeugs.

  • Moin,


    ich hab jetzt mal ein komplettes Backup gemacht und beim nächsten Mal wo es mir Platte 4 rausgehauen hat den Rebuild unterbrochen, die Platten alle untereinander getauscht, das Volume gelöscht und ein neues RAID angelegt ... mit dem Ergebnis, dass es direkt beim Aufbau des Raid wieder Platte 4 rausgehauen hat ... und wieder Rebuild.

    Es scheint also nicht die Platte zu sein ... oder doch? Die Platte wird immer nur bei längerer Beanspruchung (Backups) rausgehauen. Nach Neustart wird sie immer gleich wieder gefunden. Vielleicht doch ein Problem mit SMR?

    Falls nicht Platte, ist dann die Hardware Schrott (Backplane)? Gibt es da Ersatzteile von QNAP?

    Ich hab was gelesen von einem BIOS-Update bei einem ähnlichen Fehler bei einem anderen Modell. Aber bei der Suche nach BIOS-Updates bei QNAP finde ich nichts ... nur Firmware.

    Das NAS ist jetzt doch schon einige Jahre alt ... würde es da noch Sinn machen den Support zu kontaktieren? Was könnten die da noch machen?

    Nervt ...


    Weiss jemand Rat?


    PS: Hab die Platten mal wegen "SMR ohne Hinweis auf Probleme bei RAID bei Kauf" direkt bei WD reklamiert. Bisher nix gehört.

  • Naja wenn es immer HDD Slot 4 ist der zicken macht, egal was für eine HDD drin ist, dann wird das Backplane wohl defekt sein.

    Bei dem typischen Backplane Problem hilft aber kein Update, das sind Bauteile die technisch defekt sind.

    Ersatzteile gibt es wahrscheinlich nicht mehr, das Gerät dürfte EOL sein, musst Du mal in die EOL Liste bei QNAP schauen. Wenn es noch Ersatzteilsupport gibt wird das aber sicherlich so teuer, dass ein neues NAS rentabler ist.

    Alternativ kann man den Defekt (sollte es das typische Problem sein) mit einem Workaround beheben.

  • Ich würde mir die Latenzzeiten der Platten unter Last anschauen und auch mal Hand an TLER/ERC legen. Stellt sich an dem 4er Slot regelmäßig eine höhere Latenz vor dem Ausfall ein, dann kann das auch neben SMR mit irgendwelcher Slotprio 3/4 in der Anbindung liegen. Stellschraube findet sich unter Speicher&Snapshots > Datenträger > das Zahnrad oben rechts für Globale Einstellungen > zweite Seite bei Smart usw.

    Da würde ich mal mit einfacher Aktivierung / 10 sek arbeiten und schauen. Kenne die Standardzeit der EFAX nicht, die bei "AUS" genommen wird

    Bei Backplane ist doch eher üblich, daß ein Slot/Slotpaar nix mehr tut. Auch kann ich in der Suche auf die Schnelle x51, x53, x73, jedoch nur ein 431xeu neben wenigen 831 finden.

    Merkwürdig ist das schon und Ersatzteile wird es kaum/nicht geben, dazu dürfte es rein finanziell ein Totalschaden bei Backplane sein, da dem Ersatzteil dann auch nicht zu trauen wäre.

    Experimentierzeit ist ja mit gesichertem Backup jetzt vorhanden ;)

  • Bei Backplane ist doch eher üblich, daß ein Slot/Slotpaar nix mehr tut.

    Das hat mich auch erst hadern lassen, ob es hier eventuell zutreffend ist... Aber wenn es mal wieder ein "Vorstadium" ist?

    > Bauteil hat keinen Totalausfall, sondern fällt unter Last kurzzeitig aus = HDD geht verloren und kommt dann wieder. Nur weiß ich nicht ob die betroffenen Teile nur beim Anlauf der HDD beanspurcht werden oder auch während des Betriebs.

  • Klar kann es auch ein Vorstadium sein, keine Frage. Man kann eigentlich nur eine potentielle Fehlerquelle nach der anderen abarbeiten.

    Mit eigenen Mitteln bleibt doch nur:

    SMR in 1-2-3, RAID aufbauen.

    SMR in 1-2-4, RAID aufbauen.

    SMR in 1-2-3-4 geht ja auch mit Wechsel an 4 schief.

    CMR in 4, SMR in 1-2.

    .

    .

    .

    CMR in 1-2-3-4

    Hat das Board was, dann weg mit dem Kram.

  • Moin,


    danke für die Antworten soweit.

    Ich habe tatsächlich von WD einen neuen Satz EFRX im Austausch zu den EFAX bekommen:) Soweit die gute Nachricht.

    Nach dem Neuaufbau des RAID (2 Tage) ist während der Rücksicherung der Daten (bei ca 80%) wieder Platte 4 rausgeflogen ||

    Ergebnis diesmal: Kein Rebuild möglich. Muss das Volume neu anlegen und erneut Daten Rücksichern (wieder mehrere Tage) ... nervt gar nicht :rolleyes:


    Ich habe jetzt das Ding nochmal mit Druckluft durchgepustet und einfach prophylaktisch die Batterie getauscht. Dann mal Leistungstests gemacht. Dabei ist mir was aufgefallen: Bei "IOPS/Lesen" haben die letzten beiden Laufwerke niedrigere Werte als die vorderen beiden (Siehe Anhang). Ich nehme mal an, das weist dann wohl auf defekte HW hin, oder?

    Mod: Zitat ohne Quellenangabe ... korrigiert! :handbuch::arrow: Forenregeln und Die Zitat Funktion des Forums richtig nutzen

    Alternativ kann man den Defekt (sollte es das typische Problem sein) mit einem Workaround beheben.

    Ist das ein Hinweis auf das "typische Problem"? Was ist der Workaround?

    Ich starte jetzt jedenfalls erst nochmal einen Versuch (Neues Volume, nochmal Rücksichern) ...