Wem glauben? S.M.A.R.T. oder RAID-Rebuild?

  • Ist jetzt mehr eine rethorische Frage.

    Beim letzten monatlichen RAID-Bereinigung bemerkte ich etwas gehäuft folgende beiden Meldungen in meinem Mail-Eingang:


    Code
    App Name: Hardware Status
    Category: I/O Ports
    Message: [Hardware Status] "Host: 3.5" SATA HDD 1": Read I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 07 1c 4e dc 00 00 00 04 00 00 00 ..

    unmittelbar gefolgt von:

    Code
    App Name: Hardware Status
    Category: I/O Ports
    Message: [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.

    Insgesamt waren es wohl an die 2x15 Mails. Also habe ich danach den geforderten Bad Block Scan laufen lassen. Dieser endete ohne direkte Meldung, allerdings hatte ich etwa die gleichen 2x15 Mails im Postfach. Also habe ich mal einen vollständigen SMART-Test darüber laufen lassen. Dieser wiederum endete vor wenigen Stunden dann allerdings mit keinen Fehlern oder Warnungen. Die Platte soll also ok sein.


    Wem glaube ich jetzt?


    Eigentlich wollte ich ja eine Ersatzplatte bereit legen, da es sich um ein RAID6 handelt, kann die Platte ruhigen Gewissens erst mal weiter laufen. Leider erweist es sich aber nicht als ganz so einfach, die gewollte Platte mit meinen Anforderungen zu bekommen. Hab' jetzt drei Platten von unterschiedlichen autorisierten Händlern hier liegen, die alle im Onlinetool hinsichtlich HerstellergGarantie durchfallen. Aber das ist eine andere Geschichte....

  • Mit den Herstellertools kann man mal nen kompletten Oberflächentest (Schreib/Lese) machen


    Laut
    https://www.ibm.com/docs/en/fl…ascq-error-codes-messages

    Handelt es sich bei dem Fehler um

    UNRECOVERED READ ERROR - AUTO REALLOCATE FAILED


    Wenn man mit mdadm was spielen möchte

    How to force a disk to reallocate bad sectors #disk #health #commandlinefu
    How to force a disk to reallocate bad sectors #disk #health #commandlinefu - how_to_force_a_disk_to_reallocate_bad_sectors.md
    gist.github.com

  • Sowas hatte ich ja mal gemacht, glaube ich, als es um eine alte Platte ging, die lediglich für Surveillance diente und wo mir der Verlust der Daten egal war. Frag jetzt aber nicht, wie. War unter Linux.


    Herstellertools habe ich schon genutzt. Im aktuellen Fall hieße dies aber wohl: Platte ausbauen und damit NAS erst Mal stilllegen oder anschließend tagelanger RAID-Rebuild.

  • Kann sein, das der Controller die Sektoren die defekt waren neu zuweisen konnte, dann ist die HD erstmal wieder ok und weiterhin nutzbar.

    Geht es über die Reservemenge aber hinaus oder treten jetzt immer wieder defekte Sektoren auf, dann hast du mit der HD ein Problem.


    Diese HDs die durchfallen, sind aus dem OEM Markt in den Endkundenbereich und daher wirst du nur über den Händler entsprechende Ansprüche geltend machen können, ist mir bei meinen ersten beiden Exos auch passiert, die zwei anderen sind dann von einem Händler der Endkundenwaren verkauft und da ist die Garantie voll ersichtlich.

    Von der ersten Bestellung war dann eine Defekt, wurde getauscht, doch der Ersatz ist dann wieder ausgefallen. Da gab es dann eine Gutschrift.

  • Ich hatte vor gut zwei Jahren genau so Ärger mit einem Händler. Er versicherte mir, dass die 5 Jahre Garantie über ihn gelten würde. Als es dann zum Ernstfall kam, schickte er die Platte erst weiter zu seinem Lieferanten und der wiederum bemerkte einen Hardware-Schaden, der eindeutig nicht von mir kam. Die Platte ist offensichtlich heruntergefallen und eine Ecke war deutlich angeschlagen. Gut, ich hatte vor dem Absenden keine Fotos gemacht und war letztendlich machtlos.

    Seagate hatte sich absolut kulant gezeigt mir dann trotz allem die Platte direkt ersetzt. Man empfahl mir, ausschließlich von autorisierten Händlern zu kaufen. Das machte ich dann und prompt war die erste gekaufte Platte vom ersten autorisierten Händler wieder OEM-Ware. Immerhin war der so ehrlich und hatte meine vorangehende Anfrage dahingehend so beantwortet, dass er dies nicht ausschließen könne, weil er nicht alle Produkte prüfen könne. Ich schickte diese Platte zurück und wählte den nächtesn autorisierten Händler aus der Liste, die Platte war in Ordnung und durch die Seagate-Garantie abgedeckt.

    Jetzt bestellte ich gleich bei diem Händler und prompt fällt die Platte wieder durch. Also will ich sie eigentlich wieder zurück schicken. Leider sind die Festplatten der nächsten beiden autorisierten Händler, die ich gleich bestellt habe, scheinbar alle aus der gleichen Charge und nicht abgedeckt. Laut Seagate-Support gehören sie alle drei Huawei und nicht mir...


    Bin etwas zwiegespalten - einfach eine davon behalten und auf den Händler vertrauen (wobei diese alle nichts von 5 Jahren Garantie mehr schreiben, soweit ich das durchschaue, und ich daher nur mit der gesetzlichen Gewährleistung rechnen kann), darauf vertrauen, dass im Ernstfall wieder Seagate die Kullanz zeigt, oder doch alle wieder zurück und den nächsten Händler in der Liste wählen, bis ich vielleicht endlich eine Platte mit Herstellergarantie habe?


    Wie gesagt, ist ja noch nicht kritisch. Ich denke, die Fehlermeldungen können auch QTS-spezifische Fehlmeldungen sein - da will ich als Laie nichts ausschließen. Und mit meinem RAID6 fühle ich mich da schon noch abgesichert. (Bitte jetzt keine RAID-ist-kein-Backup-Tirade ;) ).

  • In dem Fall kann man dann gleich bei eBay die HDs ziehen, ist ja eh Lotto.

    Hier habe ich 18TB Exos für 175€ gesehen, da bestellst dann für weniger Geld 5 HDs statt beim Händler 4 und zockst halt gleich.

  • Die Frage habe ich wiederholt vergessen: Weiß jemand, ob es normal ist, dass es nach einem Bad Block Scan keine zusammenfassende Meldung gibt? Hätte mich über sowas wie "xyz schlechte Blöcke sind neu zugewiesen worden" als Minimalantwort schon gefreut.


    Crazyhorse

    Noch hoffe ich auf eine für die nächsten 48 Stunden versprochnene Reaktion von Seagate, die ich genau dazu per Chat kontaktiert habe. Sie klingen immer kanz optimistisch, aber meine Hoffnung ist etwas gedämpft. Klar, mit meinen aktuell 14 aktiven Seagate-Platten (externe Laufwerke in der Schublade nicht mitgezählt) bin ich halt nach wie vor unbedeutender Kleinkunde. Daher will ich mich nicht über mangelnden Support beklagen.


    Na gut, heute kommen die beiden Meldungen im normal laufenden Betrieb auch schon wieder - wird also wohl doch über kurz oder lang auf den Austausch hinauslaufen.

    2 Mal editiert, zuletzt von duke-f () aus folgendem Grund: Ein Beitrag von duke-f mit diesem Beitrag zusammengefügt.

  • Um das abzuschließen: Nach der nächsten monatlichen RAID-Bereinigung sind die Fehler nun soweit gestiegen, dass eine entsprechende SMART-Warnung kommt. Also wird die Platte jetzt getauscht und ich hoffe auf Ersatz von Seagate auf Garantie.