Erst SMART 197/198, dann Lesefehler, dann Prüfung, dann "Entladen", abschließend Verzweiflung

  • Liebe Community,


    ich bin schon recht lange eigentlich sehr zufriedener QNAP Nutzer. Leider lässt mich mein ansonsten so geschätztes NAS gerade komplett im Stich und mir fehlt es an Skills angemessen zu reagieren bzw. zu analysieren was los ist...


    Kurz zur Situation:

    QNAP TVS 871QTS 5.0.0.1891

    HDD 8x 12TB Ironwolf (Seagate ST12000VN0007)

    RAID6? -- Setup für Dual Disk Failure (im Glauben dann für immer sicher zu sein (selbst wenn eine Platte mal eingeht)

    Statisches Volume - hier endet mein Wissen schon, Ich kenne mich leider mit den Volume Settings nicht aus (kein Poweruser. Das QNAP war immer eine tolle Fire&Forget Lösung für mich...)

    35TB Daten auf dem Volume


    Datenträger 6 schon seit Monaten mit der Monaten mit SMART 197/198 Fehlerm aber die Ironwolf Anzeige sagt "gesund"

    Ich habe, vielleicht naiv, gedacht, dass es ja egal ist. Worst Case die Platte geht ein und ich schiebe eine neuer rein und das Ding regeneriert sich.... Deshalb habe ich die Platte nicht getauscht. Dual Disk Failure Glaube...


    In letzter Zeit habe ich nun immer wieder Buffering Probleme bei PLEX (auch der Server läuft am NAS). Ich hatte erst Plex selbst im Verdacht, aber als ich die Datei direkt am PC (ohne Plex) angesehen habe, hing das Video an der selben Stelle. Beim rüberkopieren auf den PC, hat der Transfer anfangs die üblichen 100MB/sec und kollabiert dann (passend zum Timecode im Video) nach der Hälfte auf 1-2 MB/Sek bzw. hängt komplett. Ich dachte erst es liegt an der Datei, aber auch Videos die früher funktioniert haben, machen nun dieselben Probleme. Ich habe die Ressourcen in der QNAP beim Dateizugriff beobachtet. Dabei ist mir aufgefallen, dass die CPU kaum ausgelastet wird (außer wenn Plex transkodieren muss), jedoch der freie Speicher (in der QBoost Anzeige) sank immer dann rapide, wenn das NAS Probleme beim Lesen einer Datei hatte (von 5GB auf 150MB). Ich weiß nicht, ob das irgendeinen Zusammenhang darstellt....


    Ich habe als ersten Lösungversuch den Datenträger 6 vollständig prüfen lassen. Leider kam außer der selben Warnung (197/198) kein weiteres Ergebnis.

    Nächster Versuch war der Standardansatz. Runterfahren, eine halbe Stunde vom Netz trennen, wieder einschalten. Ergebnis, Hinweis, dass das Volume fehlerhaft sei und das Dateisystem eine Überprüfung braucht. Diese habe ich gestartet. Sie wurde abgebrochen (nach ca. 15 Min bei 56%) und das Volume auf Entladen gestellt...

    Mangels Idee, was zu machen sei habe ich das NAS neu gestartet. (Recherchen hier und in anderen Foren ergaben eine Menge "mount" Befehle, deren einzelne Settings ich aber nicht verstehe und daher auch nicht "planlos" einsetzen wollte (ausserdem wie komme ich am NAS zu einer Eingabeaufforderung... .again, keine Poweruser... sorry).

    Jetzt ist das Volume wieder da... Die Probleme mit dem Lesen natürlich unverändert.


    Meine Fragen wären nun:

    1. Ich habe ein 14 TB Spare HDD rumliegen (genau für diesen Fall). Soll ich Datenträger 6 in diesem Zustand einfach ersetzen und aufs Beste hoffen, oder muss ich vorher das System irgendwie wieder "in die Spur bringen"?

    2. Kann ich irgendwas an Diagnoseoutput hier ins Forum posten, dass vielleicht etwas klarere Aussagen ermöglicht, als meine diffusen Beschreibungen? Meine Bitte wäre dann, mir kurz zu schreiben, wo ich was eintippen sollte.

    3. Gibt es Hoffnung dass meine Daten überleben? ;) Runterkopieren von so großen Datenmengen wird etwas schwierig...


    Ich bin für jede Hilfe und Tips sehr dankbar!

    lg,

    Josef

  • Meine Fragen wären nun:

    1. Ich habe ein 14 TB Spare HDD rumliegen (genau für diesen Fall). Soll ich Datenträger 6 in diesem Zustand einfach ersetzen und aufs Beste hoffen, oder muss ich vorher das System irgendwie wieder "in die Spur bringen"?

    Ja

  • Sind denn alle Platten noch als OK angezeigt?

    Wie sehen die SMART-Werte der anderen Festplatten aus?

    Schon einen Schnell-Test der Festplatten durchgeführt, nicht nur der Nr.6?

    Steht im Systemlog / QuLog Center etwas?


    Sollte bei RAID6 eine Festplatte ausfallen, darf sich das Volume eigentlich nicht entladen, sofern nicht andere Festplatten auch Probleme haben. Hatte bei QNAP NAS schon oft den Fall, dass sich bei RAID6 eine Festplatte verabschiedet hat. War nie ein Problem. Das Tauschen der Platte musste des Öfteren schon mal eine Woche oder so warten. Das NAS arbeitet ganz normal weiter. Selbst bei 2 Festplatten sind die Daten noch nicht verloren. Diesen Fall hatte ich zum Glück bis jetzt noch nie.

    1. Ich habe ein 14 TB Spare HDD rumliegen (genau für diesen Fall). Soll ich Datenträger 6 in diesem Zustand einfach ersetzen und aufs Beste hoffen, oder muss ich vorher das System irgendwie wieder "in die Spur bringen"?

    Die Festplatten muss min. so groß sein wie die anderen. Größer macht nichts, bring aber im Moment auch nichts. Jetzt kommt für den Laien der harte Teil: Die vermeintlich defekte Festplatte im laufenden Betrieb herausziehen. Ich weiß, bei den meisten sträubt sich alles dies zu tun. Aber das NAS ist hot swappable, sprich ist dafür ausgelegt dies im laufenden Betrieb zu machen. Man sollte dies auch so machen. Aber bitte nur diese eine Festplatte. Also "defekte" Festplatte ziehen, aus der Halterung ausbauen, neu Festplatte in die Halterung einbauen, neue Festplatte in NAS schieben. Nach kurzem müssten die LEDs aller Festplatten zu blinken beginnen. Das ist normal und muss so sein. Der Resync des RAID mit der neuen Festplatte beginnt. Das kannst Du auch im Webinterface nachsehen.

    Ich würde den Tausch dann vornehmen, wenn das NAS nichts zu tun hat, auch keine Hintergrunddienste am Laufen sind. Auch würde ich das NAS in der Zeit des Resyncs - kann schon mal einen Tag und mehr gehen - nicht unnötig belassen, wenn möglich gar nicht. Aber man kann problemlos weiterarbeiten damit. Aber je stärker die Belastung, desto länger benötigt der Resync.

    3. Gibt es Hoffnung dass meine Daten überleben?

    Bis jetzt sieht es nach einem normalen Festplattenausfall aus. Hat man mehrerer Geräte mit RAID herumstehen passiert dies in regelmäßigen Abständen. Also nicht besonderes sondern ganz normal. Festplatten sind Verschleißteile und müssen gelegentlich gewechselt werden. Also ich habe bis jetzt noch nie mit einem RAID bei einem Festplattendefekt einen Datenverlust, egal ob RAID1, 5 oder 6, in Servern, PCs, NAS oder Storages.


    Aber ganz klar: Eine gute Backup-Strategie gehört eigentlich dazu und lässt den (Hobby-)Admin einen Festplattenwechsel viel entspannter durchführen.

  • Ich habe auf allen Drives den "umfassenden Test" laufen lassen. Bis auf Datenträger 6 sind alle fehlerfrei. Danke für die Erklärungen. Ich werde mich jetzt mal an die "Operation" der Datenträgertauschs wagen :thumbup:


    Eine letzte Frage noch: Wäre die defekte Platte auch auch die Erklärung für die Leseperformance Probleme und Einbrüche?

  • Wie hoch sind die Werte bei SMART ID 198 bzw. 197? Aber ich denke doch, dass dies durchaus so sein könnte, denn Fehler bei 198 / 197 sind Zeichen für eine sterbende Festplatte. Ob es noch andere Fehler gibt, das wird sich dann zeigen.

  • Ich habe die Platte schon ausgetauscht, daher kann ich leider nicht mehr nachsehen. Seit dem Austausch funktioniert aber alles wieder. Zeitlich war es auch überschaubar. nach 20h war die Platte alles wieder gesynced.