SMART-Werte löschen?

  • Hallo zusammen,


    seit dem Upgrade auf die 4.1 RC bekomme ich bei einer meiner 4 Platten einen "abnormalen" Festplattenstatus angezeigt.
    Es liegt nahe, dass dies ein Fehler ist, denn ich habe vor kurzem alle Platten gründlich geprüft. Mit der einen Fehlerhaften Platte habe ich die Prüfung ebenfalls wiederholt.
    Irgendwo habe ich mal gelesen, dass man den SMART-Fehlerspeicher zurücksetzen kann.
    KAnn mir hier jemand helfen?
    Betroffen sind die Werte von
    - Retired_Block_Count
    - Reallocated_Event_Count


    Ich habe ein TS-469 Pro mit 4 Hitachi HDS723030ALA640 und wie oben beschrieben, FW 4.1 RC.


    Grüße
    LR

  • Zitat von "LuidgiRanitzki"

    Irgendwo habe ich mal gelesen, dass man den SMART-Fehlerspeicher zurücksetzen kann.


    Zurücksetzen nicht, aber du kannst ja unter Festplatten-SMART -> Test einen neuen Kurztest oder Langtest machen. Dann werden die Daten neu geschrieben.


    Gruss
    Michael

  • Der Reallocated Event Count ist ein kritischer Festplattenfehler. Er beschreibt die Anzahl erfolgreicher und erfolgloser Versuche, defekte Sektoren zu remappen.
    Ich würde daher mal nicht davon ausgehen, dass es sich hier um eine Falschmeldung handelt.


    "Vor kurzem geprüft" sagt leider gar nichts, weil jede Aussage zum Zustand einer HDD aus der Vergangenheit schlicht wertlos ist.
    Ein Festplattenzustand kann sich jede Minute ändern, daher sind nur aktuelle Zustandsaussagen relevant.


    GLG GBD

  • Hallo!


    Genau das gleiche Problem habe ich auch mit meiner TS-469L.
    Die Platte 4 zeigt genau den gleichen Fehler nach dem Update auf die FW 4.1.0 Build 0612



    Gibt es schon Neuigkeiten oder Lösungen?


    Habe mal die HDD rausgenommen und auf NTFS formatiert und ein CHKDSK /R drüberlaufen lassen ohne Erfolg.

  • Zitat von "edlp"

    Gibt es schon Neuigkeiten oder Lösungen?


    Ja, HDD ersetzen. Oder willst Du hören, dass Smart eh nur Budenzauber ist?

  • Moin,


    >Oder willst Du hören, dass Smart eh nur Budenzauber ist?


    Ne, aber vielleicht drauf hinweisen, dass es vielleicht einen Bug in der Firmware gibt.
    Bei mir sind in 2 TS-809U nach dem Update 10 von 16HDD plötzlich in den SMART-Werten nicht mehr ganz so smart gewesen.


    Schon ein großer Zufall, oder?
    Bin zurück auf die 4.0.7 und nun sind alle Platten ( bis auf 2 tatsächlich defekte ) wieder gut?


    Wenn man ein wenig in den Foren querliest gibt es im übrigen sehr viele User, bei denen nach dem Update eine oder mehrere HDD als defekt angezeigt werden.
    Ich traue da der Firmware 4.1.0 nicht über den Weg.


    Gruß
    Matze

  • Zitat von "biboca"

    willst Du hören, dass Smart eh nur Budenzauber ist?


    Nun, in der Tat kann man es als Budenzauber ansehen, wenn SMART nicht richtig angewendet und verstanden wird. Eine Interpretation der Werte unabhängig voneinander und unabhängig vom zeitlichen Verlauf macht absolut keinen Sinn, wenn nicht das Kind schon in den Brunnen gefallen ist - sprich die Platte tatsächlich ihren Geist aufgegeben hat - d.h. einer der Schwellenwerte überschritten ist.
    Ein Beispiel einer meiner Platten:

    SMART1.jpg

    Auf die Schwellenwerte gehe ich hier mal nicht ein. Diese machen nur Sinn für die gesamtzeitliche Statistik.
    Betrachtet man die Zeile mit der Warnung nur für sich, würde jetzt wohl jeder sagen - die Platte muss sofort ausgetauscht werden. Noch dazu, wenn man die Power_On_Hours sieht, welche ca. 2,8 Jahren entspricht. Auch die Uncorrectable_Errors mit 5 Ereignissen lassen den Schluss zu.
    Setzt man nun diese Werte in Relation zu RAW_Reaed_Error_Rate, Seek_Error_Rate, Calibration_Retry_Count und Read_Soft_Error_Rate, stellt man fest, dass es wohl Ereignisse waren, die nicht all zu häufig vorkommen.
    Wichtiger ist jedoch der zeitliche Verlauf und da liegt die Crux. Die Fehlerwerte, oben im Bild, resultiern aus einem einzigen Ereignis und haben sich in den letzten 10 Monaten nicht geändert. Und somit wird deutlich wie sehr der zeitliche Verlauf eine Rolle spielt.
    Dass die Platte dennoch nicht mehr sehr lange mitmacht zeigt ein ganz anderer Wert, nämlich die Spin_Up_Time, welche sich langsam aber stetig erhöht - was auf einen Verschleiss der Lager hindeutet. Jedoch gehe ich noch von einer Lebensdauer von ca. 1 - 1 1/2 Jahren aus. Das wird mir aber dann der Spin_Retry_Count schon melden.


    Zitat von "Matze_bhv"

    Wenn man ein wenig in den Foren querliest gibt es im übrigen sehr viele User, bei denen nach dem Update eine oder mehrere HDD als defekt angezeigt werden.


    Nein, es wird in den meisten Fällen eine Warnung angezeigt. Leider hat QNAP seine Interpretation der SMART-Werte so sehr verschärft, dass diese Warnung z.B. schon bei einem einzigen Reallocated_Sector_Ct kommt, welcher bei der heutigen Datendichte durchaus schon bei fabrikneuen Platten auftreten kann. Weder der zeitliche Verlauf noch die Schwellenwerte werden von QNAP berücksichtigt. Insofern ist die Warnung eine Panikmache, die nicht in Relation zum tatsächlichen Zustand der Platte steht.
    Ich will hier aber keineswegs sagen, dass dieser Warnung keine Berücksichtigung zukommen soll - nur eben in Verbindung mit der Statistic der Werte.

  • >Nein, es wird in den meisten Fällen eine Warnung angezeigt.


    Ja, richtig. In jedem dieser Fälle wird aber in den folgenden Antworten ein Schreckenszenario runtergebetet und zum sofortigen Tausch der betroffenen Platten geraten.
    Die meisten dieser Platten würden im übrigen in einem PC vollkommen unauffällig ihren Dienst weiter verrichten. Und auch dort werden sie vom BIOS SMART-Überwacht.


    Wie Du schon sagst. Unnötige Panikmache.


    Gruß
    Matze

  • Hatte vor 2 Tagen bei einer WD Red 4 TB eine Meldung die da lautete: HOST: Drive3 I/O error, ABORTED COMMAND sense_key=0xb, asc=0x0, ascq=0x0, CDB=2a 00 b4 31 32 08 00 00 80 00


    Ok, dachte ich mir, teste ich mal die Disc an einem normalen PC, da meldete weder das Bios, noch Windows noch das WD Testtool einen Fehler ;) Ok, habe ja Raid 6, Box wird taeglich gebackupt, also entschied ich mich nur zu Testzwecken die Disc wieder einzusetzen nachdem ich alle Partitionen geloescht hatte und die Disc im PC die Initialisierung wollte.


    Dann startete der Rebuild, die Platte zeigte aber noch immer ABNORMAL an bei den Smartwerten unter 4.1.


    Dann kam kurze Zeit spaeter: HOST: Drive3 I/O error, sense_key=0xb, asc=0x0, ascq=0x0, CDB=2a 00 00 08 00 48 00 00 08 00.


    Keine 2 Stunden spaeter fiel das Laufwerk aus und wurde im 870Pro nicht mehr erkannt, in einem 469pro auch nicht, in einem nagelneuen TS420 auch nicht, am Pc sowieso nicht.


    Laufwerk defekt!


    Also kann ich mich fuer meine Zwecke sehr wohl auf den Smart Status vom QNap verlassen, abgesehen von Firmware Bugs vielleicht die ich bisher zum Glueck noch nicht hatte. Zum Thema Panikmache: Kann ich alles nachvollziehen, besonders das Argument das in einem PC die Platte noch lange ihren Dienst haette verrichten koennen, aber wie ich unlaengst im Forum schrieb: Eine HDD die bei Thecus, Netgear, Qnap, Synology und sogar Buffalo als defekt gekennzeichnet wurde war auch immer in einem NAS unbrauchbar, in einem externen USB Gehaeuse oder zum Teil in Pcs aber eben nicht. In den meisten NAS wurden solche Platten nichtmal mehr beschrieben, in externen USB Gehauesen oder am PC schon. Wenn ich das also alles als Panikmache abtun wuerde, wieso habe ich dann immer wieder so viele schlaue neue Kunden die eben genau so dachten und dann, wie soll es auch anders sein, eine Meldung (meist) von WIndows im laufenden Betrieb kam das die HDD schnellstens gesichert werden sollte, es aber zum Teil bereits zu spaet war. Von der spaeteren Datenrettung um viel Geld (weil Backups sind ja unnoetig, wieso sollte gerade meine HDD ausfallen) wollen wir mal garnicht reden. Da kann ich euch nur dazu raten HDDs zu tauschen AUSSER wie bei Matze_bhv bei dem gleich 10 von 16 HDDs angeblich fehlerhaft sind. Aber auch da ist vorsicht geboten, was wenn die HDDs einer fehlerhaften Charge entstammen? Ich denke ueber dieses Thema kann man endlos diskutieren, wichtig ist doch nur was jedem einzelnen von uns die Daten die er pflegt oder verwaltet wert sind. Wir hatten auch schon den Fall das ein Admin einer Firma eben genau so dachte und es fertiggebracht hat aus einer NAS die defekte HDD zu entnehmen, eben diese in ein baugleiches NAS eingebaut hat das jeden Abend zur Spiegelung genutzt wurde, beim recovern des Raid 5 aber leider eine weitere HDD eingegangen ist am Haupt NAS und obendrein beim Versuch auf die defekte HDD im Spiegelungs NAS zu recovern auch eine weitere HDD eingegangen ist. Ich moechte darauf hinweisen das all diese HDDs aus derselben Charge stammen. Kosten der Datenrettung: Knappe 6k, zuzueglich einer sehr hohen Summe da besagte Firma wochenlang KEINE Daten hatte sondern nur auf Mails zurueckgreifen konnte. Die FIrma des "Admin" war versichert und diese kam erstmal fuer den Schaden auf der leider 6 Stellig war. Durch seine "Spielereien" hat er einen hohen Schaden verursacht, da waere eine neue Seagate ES2 Hdd definitiv billiger gewesen.


    In meinem Beispiel sieht man schoen das nichtmal das Tool von WD den Fehler ueberhaupt erkannt hat, Qnap aber schon. Wenn es daran liegen sollte das die Qnap Firmware viel zu sensibel darauf reagiert dann ist mir das mehr als recht.


    SO, musste das mal eben schnell loswerden und nun weiter schauen was Chile und Brasilien da verzapfen ;)


    Frank

  • Zitat von "frankr"

    Also kann ich mich fuer meine Zwecke sehr wohl auf den Smart Status vom QNap verlassen,


    Verrätst du uns auch, welcher SMART-Wert abnormal war? ;)
    Du vergleichst hier Äpfel mit Birnen. Das was bei dir das ABNORMAL verursacht hat, hat mit SMART rein gar nichts zu tun. Oder konntest du anhand von SMART vor 4 oder 3 Tagen erkennen, dass deine Platte 1 - 2 Tage später defekt ist? Es gibt nunmal noch wesentlich mehr Ursachen, die eine Platte unbrauchbar machen können, ohne dass diese von SMART überhaupt registriert werden. In deinem Fall wohl ein durch ESD verursachter Kontrollerschaden.


    SMART hat somit gar nichts damit zu tun, dass man seine wichtigen Daten nicht sichern braucht.

    Zitat von "frankr"

    wichtig ist doch nur was jedem einzelnen von uns die Daten die er pflegt oder verwaltet wert sind.

    Genau deshalb sollten die Daten unabhängig vom Vorhandensein eines RAID oder eines guten SMART-Status immer gesichert werden.


    SMART - richtig angewendet - ist ein gutes Werkzeug um im laufenden Betrieb die Beschaffenheit der Datenträger innerhalb der Platte und einige andere Lebensdauerparameter im Auge zu behalten. Es kann jedoch niemals, wie bei dir, Kontrollerschäden oder andere äußere Ereignisse voraussagen.

  • Hallo,


    leider kann ich dir das nicht sagen welcher Smart Wert unter Umstaenden angezeigt wurde da das letzte was ich bei einem Plattenfehler mache eine lange Fehlersuche ist oder wie in dem Fall eine Interpretation der Smart Werte in der verbauten NAS. Warum kann ich dir auch verraten: Ich muss und will schnell wissen ob es die HW (Server, Raidcontroller, Nas oder anderweitige HW) ist oder wie halt in diesem Fall die Festplatte. Deswegen habe ich ja die HDD spaeter just 4 fun im PC mit dem WD Testtool getestet das keine Fehler fand, was zugegeben, wie du bereit erwaehnt hast natuerlich KEINEN Ausfall des Controllers voraussehen kann. Die HDD hatte wie alle anderen HDDs zu dem Zeitpunkt 86 Stunden auf der Uhr. Ich arbeite in einem Bereich wo das letzte was wir machen der Test einer HDD ist, die wird wie gesagt sofort getauscht und durch unseren Distributor auch anstandslos ausgetauscht. Auch wenn sie nicht getauscht werden wuerde waere mir das vollkommen egal denn Downtime oder Systeme die unnoetig Stunden oder Tage langsamer laufen als sie koennen versuche ich moeglichst zu verhindern. Natuerlich geht das nicht immer und Smart ist wie du schreibst ein gutes Werkzeug in Bezug auf die Laufwerksparameter aber ich bin, und ich verlange das du mich korrigierst wenn ich daneben liege nicht gewillt eine HDD weiterhin zu benutzen wo auch nur ein Wert sich nicht innerhalb einer gewissen Grenze befindet. Was ich dazu nur sagen kann ist das es wenn der nicht so schlimme Fehler einen Ausfall verursacht oder eben auch garnicht daran beteiligt ist bei vielen meiner Kunden im Falle eines schlimmeren Ausfalls im Syslog nachgeschaut wird durch andere externe Dienstleister und ich mich darauf verlassen kann das es dann zur Diskussion steht wieso TROTZ eines nicht so schlimmen Smart Wertes vor X Tagen oder x Wochen die HDD nicht getauscht wurde. Das versuche mal den iPhone Usern in den Vorstandsetagen zu erklaeren, Leuten die ein technisches Verstaendnis haben das es ihnen nicht erlauben sollte ein Fahrzeug im oeffentlichen Verkehr zu steuern, weswegen sie ja alle Chauffeure haben, eben diese Menschen die ueber alles und jeden entscheiden duerfen und als Passwort den Namen der Geliebten haben weil Passwortrichtlinien ja unnuetz sind. Ich sage dir das du da leider auf total verlorenem Posten stehst und schneller wieder raus bist als du reingekommen bist. Das wegen ein paar laeppischer Euro ist absurd. Deswegen halte ich das privat genauso. HW kann immer kaputtgehen, das ist alles kein Problem, aber an einer HDD oder HW festzuhalten die schonmal negativ aufgefallen ist habe ich kein Interesse. Wo ich dir Recht gebe: Ich habe mich dazu verleiten lassen Smart Status von Qnap zu schreiben, tatsaechlich hast du aber Recht, ich habe es gerademal geschafft die Zusammfassung der Festplatteninformation im Speichermanager anzuschauen. Da stand abnormal, also raus damit ;) Smart hin Smart her, wenn ich einen I/O Fehler habe ist die Ursache fuer mich irrelevant, wenn andere Betreuer das anders sehen hoere ich mir das gerne an und lasse mich auch gerne belehren, auch ich mache genuegend Fehler. Wenn es wie bei Matze_bhv nicht gleich 10 HDDs sind die ausfallen dann denke ich nur nicht weiter nach Zeit zu investieren. Ich weiss nicht wie das bei euch ist, aber ich habe schon oft genug Hdds gesehen die unter ASUS Boards Fehler zeigten und unter Gigabyte Boards halt nicht. Habe auch schon Platten gesehen die keine Fehler uebers Board meldeten dafuer aber ueber die Herstellertools. Ich glaube halt das die Implementierung der Smart Schnittstelle zu schleissig ist bei einigen Herstellern. Es gibt einen Standard, aber an den haelt sich noch lange nicht jeder. Ich kann halt ein ABUS Ueberwachungssystem nicht mal eben aus dem Rack ausbauen, dann zerlegen und die HDD ausbauen um diese zu testen weil der Rekorder unter Umstaenden halt die Werte falsch interpretiert oder vielleicht auch gar nicht. Eben diese Fehlinterpretation sehe ich leider oft, besagter ABUS Rekorder war da nur ein Bsp. von vielen.
    So, wollte dich nicht persoenlich angreifen auch wenn es sich vielleicht so liest ;) Schaue mit einem Auge Columbien - Uruguay, deswegen sind etwaige krumme Saetze bitte zu verzeihen.
    Wozu ich aber stehe: Meldet mir eine Qnap abnormal fliegt die HDD raus. Ebenso bei anderen Herstellern wie Thecus, Synology, Buffalo, HP, IBM etc..


    Frank

    Einmal editiert, zuletzt von bladekiller () aus folgendem Grund: Unnötiges Volltextzitat entfernt! - siehe Forenregeln!

  • Ich gehe jetzt mal nur noch auf einen Punkt ein.

    Zitat von "frankr"

    Smart ist wie du schreibst ein gutes Werkzeug in Bezug auf die Laufwerksparameter aber ich bin, und ich verlange das du mich korrigierst wenn ich daneben liege nicht gewillt eine HDD weiterhin zu benutzen wo auch nur ein Wert sich nicht innerhalb einer gewissen Grenze befindet.


    Dies ist nämlich der Ausgangspunkt der Diskussion. Wann liegt ein Wert daneben. Wer legt das fest. Und genau hier hat QNAP in der neuesten FW-Version eine Änderung gemacht, die schon beim allerersten reallocated Sector eine Warnung ausgibt, obwohl theoretisch noch mehrere tausend möglich wären. Das würde übrigens bedeuten, dass ich sämtliche meiner Platten nach der neuen FW austauschen müsste und das sind nicht wenige. Das Testtool des Herstellers wird in diesem Fall der Platte ein GUT attestieren und somit hätte man kein Argument gegenüber dem Hersteller für einen Austausch der Platte. Die wenigsten Privatanwender haben nunmal einen Distributor der jede Platte austauscht. ;)
    Wie schon gesagt, I/O-Fehler sind eine Andere Kategorie und da gebe ich dir vollkommen Recht - solche Platten gehören ausgetauscht.

  • Hallo!


    Ich melde mich hier auch mal zu Wort, da ich soeben auf die 4.1.0 geupdatet habe. Und siehe da: Bei beiden Platten plötzlich eine Warnung:
    Reallocated_Sector_Ct. bei einer Platte ist der Rohwert 1 und bei der anderen 22.


    Vor dem Update (sprich 5 Minuten früher) wurden beide mit "Gut" bewertet. Also liegt die Vermutung schon sehr nahe, dass die Warnung mit der neuen FW zusammenhängt.


    Grüße,
    Zai

  • Zitat von "Stiz"

    Also liegt die Vermutung schon sehr nahe, dass die Warnung mit der neuen FW zusammenhängt.


    Das ist korrekt. Allerdings hatten deine Platten diese Fehler auch schon mit der älteren FW. Nur hat die ältere FW diese Fehler nicht mit einer Warnung versehen.

  • Hi,


    auf einem 859er sind jetzt auch nach dem Update auf 4.10 (auf 4.07 war noch nix zu sehen) zwei HD´s mit einer Warnung versehen. Muss aber zu meiner Schande gestehen das ich keinen Vergleichswert von vorher habe (was den Zähler betrifft)
    Hier läuft der Zähler Reallocated_Sector_Ct schon etwas höher als 2500.
    Ich denke das man hier (da 2HDs die Warnung haben) ruhigen Gewissens zumindest eine HD erneuern muss, um die Daten wieder save zu halten. Es ist zwar "nur" der Backupserver aber die Daten sollen ja länger gehalten werden.


    Gruß Andreas

  • Das Selbe Problem habe ich auch.


    Habe wegen der Fehlermeldung meine Festplatte ausgetauscht, jedoch wird die Meldung wieder angezeigt.


    HW: es sind Neue Festplatten, die verbaute bzw getauschte.


    Eine Überprüfung der Festplatten ergab keine Fehler.


    Liegt wohl mehr an der Software, Fehler Toleranz empfindlich programmiert !



    mfg

  • Hallo, sehr interessant zu lesen. Ich bin auch der Meinung, dass Festplattenfehler sofort behoben werden müssen (!).


    Es handelt sich jedoch um eine Warnung, welche bei einigen (und auch bei mir) nach dem FW - Upgrade von 4.0 auf 4.1 aufgetreten ist. Irgendwie trifft bei einigen immer die gleiche Wanung nach dem Upgrade auf: Reallocated_Sector_Ct und Reallocated_Event_Count jeweils mit Wert 1.


    Nur so nebenbei: Es ist nach dem Upgrade von 4.0 auf 4.1 die komplette Rechtevergabe z. B WebDAV desolat und muss per Hand neu vergeben werden. Das nervt - vor allem wenn man nicht weiss, wer in 30 min als erster auf die Freigaben zugreifen wird... und die Medienbibliothek scannt sich plötzlich selbstständig schon mal den ganzen Tag durch die ewigen Jagdgründe... und in den Apps ist plötzlich 'ne Download - Station installiert, welche gar nicht installiert war...und, und, und...


    Ich persönlich habe auf 4.0 zurückfirmiert.


    Also ich mag die Qnap wirklich - immer noch, hehe...


    Beste Grüße


    s'Jensle