RAID 10: Problem bei Festplattentausch --> pending sectors --> Rebuild skipped BRAUCHE HILFE!!

  • Hallo zusammen,


    ich habe ein TVS 463 mit 4x 4TB WD RED Platten als Raid 10. Alles war prima, allerdings sind die Platten seit 7 Jahren aktiv und ich wollte jetzt alle Platten tauschen, habe daher 4 Stk. 6TB WD RED Plus gekauft.


    Zuerst habe ich Platte 1 per Hot-Swap gezogen und eine neue eingeschoben. Rebuild dauerte gut 24h, danach alles i.O.!


    Danach habe ich dann Platte 3 gezogen in der Annahme, dass 1&3 und 2&4 ein subarray bilden (nachlesen konnte ich es nirgends). Als ich dann wieder nach gut 1 Tag nachschaute, war im Log "Skipped Rebuilding Raid Group 1" zu lesen und die Festplatte 4 hatte Warnung angezeigt. Die Smart-Info bei Platte 4 zeigt nun bei ID197 (Pending Sector Count) eine Anzahl von 11 an. Scheinbar ist jetzt während des Rebuilds beim kopieren der Daten von Platte 4 auf Platte 3 die Platte 4 "ausgestiegen" und so konnte das Rebuild nicht durchgeführt werden. Ich habe das Rebuild mit dieser neuen und auch einer anderen neuen 2x erneut probiert, es läuft quasi komplett durch und meldet aber dann am Ende, dass es geskipped wurde. Die Platte 3 wird aber fälschlicherweise als ok und Teil des Raid Verbunds angezeigt, was mich auch am Anfang dazu veranlasste, Platte 4 zu ziehen, um diese auch zu tauschen. Danach ging das Raid auf inaktiv. Glücklicherweise war es nach Einschieben der Platte 4 und NAS reboot aber wieder da. Ich habe auch noch mal die originale Platte 3 in Bay 3 eingesetzt in der Hoffnung, dass sie direkt eingebunden wird ohne Rebuild, allerdings hatten sich zwischenzeitlich Daten auf Platte 4 geändert, weshalb das nicht geklappt hat.


    Ich habe nun also nur die Platte 4 mit Status Warnung wegen den 11 pending Sectors und bekomme kein Rebuild hin. Ich habe alle Daten gesichert, dennoch würde ich das komplette neuaufsetzen gerne vermeiden.


    Ich habe gelesen, dass diese pending sectors noch mal geschrieben werden müssen, evtl. ändern sie sich dann zu reallocated (ist das besser?) oder sind eben defekt.


    Ich verstehe ehrlich nicht, warum die Software dann nicht auf die paar Sektoren verzichtet und die Daten kopiert, die kopiert werden können, alles besser als alle Daten zu verlieren. Könnte ich vllt alle Daten von der Platte am Windows PC auf eine andere kopieren und diese wird dann am NAS erkannt als sei es die alte?


    Welche Optionen habe ich?

  • Neuaufsetzen ist sicherlich die beste Option!

    Wenn Du das Raid so behalten willst kannst Du ein Backup der EInstellungen machen und nach dem Neuaufsetzen zurückspielen. Dann ist das NAS wie zuvor (mit Ausnahme evtl. Apps, deren Enstellungen müssen extra gesichert werden).

    Danach die Daten aus dem Backup zurückspielen.

    Zu allem anderen hätte ich kein Vertrauen!


    Und wenn die HDD defekte Sektoren meldet und keine "Ersatz"sektoren mehr da sind, was soll das Raid (die Software) dann machen?

    Durch die hin- und hersteckerei ist es außerdem nicht besser geworden!

    Wenn am Auto der Reifen vorne links platt wird, dann kommt dort ein Ersatzreifen drauf. Wenn danach hinten rechts platt wird, dann macht man einen neuen Reifen drauf und holt nicht den platten von vorne links aus dem Kofferaum, montiert ihn und hofft, das er dort wieder läuft, oder? ;)


    Gruss

  • Neu aufsetzen wäre kein Thema, das einzige wo ich Sorge habe sind die VMs, da habe ich 4 Stück laufen. Davon habe ich natürlich Backups gemacht, die ich dann nach dem neu aufsetzen wiederherstellen kann, nur wenn da was schief läuft, dann war es das (hatte ich mal, als es eine neue Version der Virtualization Station gab, da hat die neue Version meine alten Backups nicht lesen können). Kann ich nicht auch bei der Virtulization Station nen Snapshot machen und den später wieder laden? Snapshots habe ich, nur die liegen ja auch auf der "alten" Platte, die sind dann ja später nicht mehr da und ich habe nicht gefunden, dass ich die irgendwie exportieren kann.


    Wo sehe ich das mit den Ersatzsektoren? Der Reallocated Sector Count steht auf 0. Habe gelesen, die pending Sektoren können auch wieder ganz verschwinden, ohne Ersatzsektoren. Hab auch hier irgendwo gelesen, man könnte die Platte am Windows PC mit dem WD Tool prüfen, dass dann evtl. die Sektoren "repariert"?!?


    Mit Backup der Einstellungen meinst du über die Systemsteuerung --> Sicherung? Da werden dann doch nicht die Settings des Raids mit abgespeichert, Ordnernamen etc. oder doch?


    Zu deiner Autoreifen-Analogie: Du hast vollkommen Recht, das ganze soll ja nur als Übergang dienen. Schlussendlich will ich ja nur die 4 neuen 6TB WD RED+ nutzen.


    Ich habe hier auch von jemandem gelesen, der ein Raid 5 mit 2 HDDs mit bad sectors hatte, der hat dann per SSH ein paar Befehle ausgeführt und konnte am Ende alles retten! Also wenn ich in der Hinsicht was machen kann, wäre ich um Tipps sehr dankbar!

  • Mit dem WD Tool die Platten am PC testen ist die beste Möglichkeit über die Platte eine vernünftige Aussage zu treffen.

    Leider ist es aber schon häufig vorgekommen, das trotz positivem Ergebnis des Herstellertools das NAS die Platte weiterhin als fehlerbehaftet meldet.

    Welche Parameter QNAP da zugrunde legt ist leider nicht bekannt.


    Snapshots nutze ich nur in einer Testumgebung, dazu kann ich nicht viel sagen.

    Wobei ich Snapshots per se schon als backup ausschliesse, erst recht, wenn sie auf demselben NAS liegen.

    Ein Backup muss extern sein, alles andere ist Risiko!


    Warum nicht die VMs runterfahren und komplett sichern? Oder eine Backup Lösung mit z.B. Veeam?


    Wobei das im jetzigen, kritischen Zustand sowieso einen Tick zu spät ist. Wenn jetzt noch ein Platte ausfällt, dann komt soweiso nur noch Neuaufsetzen und ein Restore in Frage.


    Gruss

  • Ich würde die betroffene Platte auch ausbauen und am Rechner einmal komplett überschreiben, dann werden die Sectoren uU wieder zugewiesen und QTS sollte mit den neuen Werten wieder zurechtkommen. Können die Sektoren nicht mehr zugewiesen werden, steigt der Wert für unkorrigierbare Sektoren, dann kann man die Disk im QNAP vergessen, weil QTS ein Riesendrama aus pending sectors und ucorrectable sectors macht, was mMn gar nicht nötig wäre, zumindest nicht bei den pending sectors.

    So lange läuft das RAID halt ohne Redundanz, von den VM solltest Du Dir ggf. noch eine ordentliche Sicherung machen indem Du die Images wegsicherst, das ist sinnvoller als ein Export oder Backup aus der VS, eben weil man mit den Images immer und überall etwas anfangen kann.

  • Würde das WD Tool denn da irgendwas auf die Platte schreiben bzw. die Pending Sektoren beheben, falls das möglich ist?


    Jo also ich habe die Images der VMs extern gesichert, die könnte ich nachher wieder einbinden. Nur damals hatte ich da mal ein Problem:


    1. Image gesichert

    2. Raid neu aufgesetzt

    3. Virtualization Station neu installiert und ganz erschrocken festgestellt, dass es nur noch VS 3 gab. VS3 konnte dann das Image nicht mehr einladen, dass ich ne Stunde vorher mit der "alten" VS gesichert hatte.


    Daher bin ich da jetzt etwas sensibilisiert und würde am liebsten das aktuelle RAID retten und beibehalten.


    Aber wenn ich doch die Sektoren überschreiben lasse, sind die Daten doch weg!!!!!!! ????? Ich habe ja nur noch diese eine Platte mit den Daten aus dem 2. Subarray des Raid10. Also das Raid10 läuft aktuell bereits im herabgesetzten Modus und ich kann nur die Daten nicht mehr auf eine 2. Platte schreiben, weil die Platte hier die pending Sektoren rausschmeißt.


    Aktuell lasse ich den QNAP Test "Suche nach fehlerhaften Blöcken" laufen - habe gelesen, dass danach evtl. die Warnung wieder verschwindet.

  • VS3 konnte dann das Image nicht mehr einladen, dass ich ne Stunde vorher mit der "alten" VS gesichert hatte.

    Ja das ist dann aber über irgendeine VS Funktion gemacht wurden denke ich... die Images sichert man indem man die blanken Imagedateien wegkopiert, die können dann unabhängig von der VS auf jedem beliebigen System verwendet werden. Das Problem dass die VS die nicht akzeptiert kenne ich nur wenn die Sicherung über eine Funktion der VS erfolgte.

    Aber wenn ich doch die Sektoren überschreiben lasse, sind die Daten doch weg!!!!!!! ?????

    Ja, auf dieser einen Disk, die andere aus dem RAID bleibt ja im QNAP.

    Ich habe ja nur noch diese eine Platte mit den Daten aus dem 2. Subarray des Raid10.

    Achherrje, das ist mir untergegangen... ja dann wirds wirklich wild ;)

    Dann vielleicht nicht alle Daten überschreiben sondern die freie Kapa vollballern, in der Hoffnung dass dabei die Sektoren wieder zugewiesen werden.

    Aktuell lasse ich den QNAP Test "Suche nach fehlerhaften Blöcken" laufen - habe gelesen, dass danach evtl. die Warnung wieder verschwindet.

    Ja irgendwas habe ich da auch im Sinn... kann das gewesen sein!

  • Genau also ich beschreibe noch mal das Problem:


    Ausgangszustand war ein Raid10 mit 4 4TB Platten, alle grün, alles i.O, keinerlei Fehler. HDD1 per HotSwap ersetzt, Rebuild von alter HDD2 auf neue HDD1 erfolgreich. Danach HDD3 per HoTSwap getauscht, doch dann lief Rebuild nicht durch, d.h. HDD3 ist nicht vorhanden, obwohl im Speichermanager grün angezeigt! Aktuell nur HDD4 noch drin (1 und 2 natürlich auch) aber mit 11 pending Sektoren. Und diese pending Sektoren verhindern einen rebuild, wenn ich in Bay 3 eine neue HDD reinschiebe, bzw. er läuft mehr als 24h und am Ende kommt dann "skipped". Kann ich nicht noch irgendwas per SSH zumindest mach nachschauen?

  • Kann ich nicht noch irgendwas per SSH zumindest mach nachschauen?

    Ich glaube nicht... Die Werte kommen ja von der Disk selbst und die Disk selbst regelt auch, wann bei pending sectors eine Wiederherstellungsversuch stattfindet.

    Was mit diesen Informationen gemacht wird sollte eigentlich dem User überlassen sein, QTS sieht das aber anders, bekommt Panik und versetzt die Disk/ das RAID in RO... solange man dieses Verhalten nicht abstellen kann (und das wird auch in der Konsole nicht möglich sein) steht man doof da.

    Die Disk muss also irgendwie animiert werden die Sektoren wiederherzustellen, wenn das nicht mit der Funktion die Du genannt hast klappt und auch nicht durch Vollplundern der Disk mit Daten, dann weiß ich auch nicht weiter. Keine Ahnung ob das Testtool die Möglichkeit bietet die Wiederherstellung einzuleiten...

  • Ok ich danke Euch für die Infos. Die Suche nach den fehlerhaften Blöcken wird wohl noch bis heute Abend dauern. Wenn das nicht hilft, ballere ich das Volume mit Daten voll. Was ich gerade noch gesehen habe: Ich habe 15% des Speichers für Snapshots reserviert und da sind auch mehrere vorhanden, glaube ich hatte das mal so eingestellt, dass jede Woche einer gemacht wird und maximal 6 behalten werden. Vllt sind die Sektoren ja auch "innerhalb" dieses Speicherraums, da sollte ich am besten Snapshots deaktivieren damit auch wirklich die gesamte Disk vollgeschrieben werden kann, oder?

  • Backup ist vorhanden und die Kiste ist strubbelig.

    Ich würde in der Situation keine Klimmzüge machen und das NAS in RAID 6 neu aufsetzen, Backup einspielen und mich an dem gewonnenen Speicherplatz erfreuen. Im 10er waren es 3,6TB, im 6er sinds dann 10,8TB.

    Meine Cents dazu


    edit: Sorry, der Speicherplatz ist bei 6er und 10er RAID bei 4 Platten gleich, nur die Ausfallsicherheit ist anders. Habe es durchgestrichen.

    Einmal editiert, zuletzt von Matselm () aus folgendem Grund: Hab mich vertüdelt.

  • Vllt sind die Sektoren ja auch "innerhalb" dieses Speicherraums, da sollte ich am besten Snapshots deaktivieren damit auch wirklich die gesamte Disk vollgeschrieben werden kann, oder?

    Jo, da ist ein reservierter Speicherbereich, der nicht durch Daten beschrieben wird. Es würde ausreichen einfach die Reservierung (15%) rauszunehmen, dann bleiben die Snapshots erhalten und der Bereich kann mit Daten beschrieben werden. Ob das sein muss weiß ich nicht, ich denke mal die Disk wird alle Sektoren egal wo sie sind prüfen wenn die Kapa zur Neige geht. Habe auch schon gesehen dass die Sektoren "einfach so" wiederhergestellt wurden, ohne dass eine Maßnahme erforderlich war. "Irgendwann" reicht ja eigentlich auch, nur halt nicht bei QTS.

  • Im 10er waren es 3,6TB, im 6er sinds dann 10,8TB.

    :/


    Raid10 heißt zwei nutzbare Platten, Raid6 heißt zwei nutzbare Platten. D.h. die nutzbare Kapazität ist bei beiden Raids gleich.

    Die Erhöhung kommt durch die größeren Platten, aber nicht durch das ändern des Raidlevels, jedenfalls nicht bei 4 Platten. ;)


    Gruss

  • Stimmt, hab ich mich vertüdelt. Sorry!

    Die Sicherheit ist bei RAID6 trotzdem besser, da zwei beliebige Platten ausfallen dürfen. Beim 10er ist bei zwei Platten in einem der RAID1 finito.

  • Vielen Dank Euch allen!


    Hatte mich seinerzeit für Raid10 entscheiden, weil es ja mehr Performance bietet. Habe da mehrere VMs laufen, aber ob man das merkt?

  • Hmm, mit VMs würde ich sowieso eine SSD als Heimat für die nutzen, HDDs sidn einfach viel zu langsam, auch als RAID0 (1).

    Wenn Du eine SSD einbaust und die restlichen 3 HDDs als RAID5 konfigurierst, hast du immer noch den gleichen Speicherplatz.

    Oder du kaufst für den PCIe Slot eine passende Karte für SSDs und legst die darauf ab.

  • Guter Hinweis!
    PCIe: kannst das erklären? Die 4 Platten würde ich schon gerne nutzen wollen.


    Edit: hab gerade mal geschaut, das ist ja echt cool. Nur 2 Fragen:


    Es gibt auf der Qnap Seite 5 verschiedene Karten für M.2 SSDs. Wo sind die Unterschiede?


    Kann ich dann einfach auf der SSD ein Volume erstellen und darauf dann die VS installieren und die Images wieder einbinden? Da steht was von SSD Caching oder Autotier. Das wäre ja dann nicht das was ich bräuchte, oder?

  • Hab zwar selbst ein 463,aber gar nicht in Erinnerung dass dort eine Erweiterung reingeht :S

    Dann würde ich das genau so machen.


    Die Erweiterungen unterscheiden sich im wesentlichen in den Lanes/ Geschwindigkeit und ob es NVMe oder SATA M.2 ist. Dann gibt es noch Modelle die zusätzlich eine (schnelle) LAN Schnittstelle haben.


    Und ja... Du kannst sie wie ein Datenträger in einem der Slots nutzen.

  • Genau. Die QM2-2P-244A wäre eine für zwei NVMe SSDs, das wäre die performanteste, aber auch teurere Lösung. Da dann zwei NVMe SSDs rein (du wirst wohl nur Gen3 x 4 bekommen, die sind schneller als Deine Karte) und du kannst ein RAID1 draufpacken. Wäre für die VMs die optimale Lösung. Alternativ gibts da drunter noch die Karte für SATA-SSDs, die sind langsamer aber preisgünstiger. Wenn Du richtig Geld ausgeben willst, gibt es aber auch noch eine Lösung mit zwei NVMe SSDs und zwei Ethernet-Ports.

  • Vielen Dank für Eure Tipps!


    Ich habe jetzt die QM2-2P-344 bestellt, diese kann Gen3x4, dazu 2 Samsung 970 EVO+ 1TB M.2 SSDs, hoffe sie kommen bald.


    Ich habe noch eine Frage zu den Images der VMs, das ist mir schon seit längerem aufgefallen:


    Ich habe in dem VM Ordner eine image0 Datei, das ist ja denke ich die eigentliche Image-Datei. Die hat jetzt z.B. 46GB. Dann liegen in dem Ordner aber auch noch zig weitere Dateien, die heißen dann alle image0.1274392 wobei die Zahl nach dem Punkt immer anders ist. Scheinbar gibts da eine Datei pro Monat und dann für die letzten 2 Jahre. Die Dateien haben alle so zwischen 2 und 10GB. Was sind das für Dateien? Das sind ja nicht die BackUps, die habe ich in nem anderen Ordner liegen und da habe ich es so eingestellt, dass jeden Monat eins gemacht wird, aber immer nur die letzten 6 behalten werden, ältere werden gelöscht. Also wenn ich das System jetzt neu aufsetze, brauche ich doch nur die image0 Dateien, oder? Kann ich die anderen dann ignorieren? Was seltsam ist: Die image0 Datei hat jetzt ein Datum vom 06.06.2022, es gibt aber noch eine image0.1657670430, die hat 3GB und ist vom 10.07.2022?!?!?


    EDIT: Ah, evtl. sind das Snapshots?!?