TS 431 - Raid 5 Wiederherstellen scheitert - Backplane Bug?

  • Guten Abend und grüsse in die Schwarmintelligenz. :)

    Ich habe ein Problem, eigentlich habe ich mehrere Probleme, aber eines, das ich hier zu lösen hoffe :-))

    Meine TS431 hatte mir keinen Zugriff auf das Raid 5 Volume mehr gegeben.

    Sie ist darauf eingestellt, morgens hochzufahren, Abends runter.

    Nach unserem Urlaub hatte ich keinen Zugriff auf das Schätzchen via LAN, rote LED hat geblinkt.

    Nach dem Neustart hatte ich wieder Zugriff, habe angefangen ein Vollbackup über eSata auf eine externe Platte zu fahren,

    nach ca. 350Gb kamen Fehlermeldungen, Platte 3 entfernt, danach Platte 4 entfernt - Dateitransfer Ende.

    Ich habe die Qnap runtergefahren, 1/2h gewartet, alle HDDs einmal stromlos durchgeswappt und dann wieder hochgefahren.

    Die rote LED ist nun dauerhaft an, das Volume wird mit Fehler angezeigt, ohne Zugriff, die Wiederherstellung in der Verwaltung im Speichermanager scheitert mit unbekanntem Fehler.

    Shit....und nun?? Irgendwelche Ideen??

    Die Daten sind mir wichtig, das Letzte Vollbackup der NAS ist leider 2 Jahre her.

    Alle 4 WDred HDDs werden im Status "gut" angezeigt, auch im S-M-A-R-T-Test gut.

    Lieben Gruss und voran danke vom "Neuen" hier :)

    QNAP2.jpg


    QNAP3.jpg

  • Erstaunlicherweise sind alle 4 Platten da. Kann es sein, dass der RaidController nen Klatsch hat?

    Ich kann ja den Test bei allen 4 positiv laufen lassen....

  • Na ja, ich würde sagen schalte einen professionellen Datenretter ein.

    Erst Disk 3, dann Disk 4 entfernt, das ist für ein Raid 5 das Ende.

    Was Du genau mit "stromlos durchgeswappt" erreichen wolltest, ist mir nicht ganz klar, Kontaktschwierigkeiten beseitigen, nachdem NAS schon 2 HDDs aus dem Raid geworfen hat?


    Such mal, ob das NAS vom Clock Bug oder dem MOSFET Thema (Lastschalter Bug) betroffen ist, bin mir da nicht sicher.

    Aber wie gesagt, bevor Du weiter rumwurschtelst, hole professionelle Hilfe wenn Dir die Daten so wichtig ist.


    Gruss


    Edit: Platten und Raid einerseits und Volume(s) und LVM andererseits sind verschiedene Objekte.

  • Danke erstmal für die abendliche Seelsorge :) , nach den Punkten werde ich suchen.

    Ja genau, Ich wollte Kontaktschwierigkeiten ausschliessen.

    Was mich wundert, dass HDD 3 und 4 weg war, jetzt wieder da, und fehlerfrei.

    Alle Tests laufen sauber durch.

    Trotzdem scheitert die Wiederherstellung....

    So ein Mist...

    P.S. 4 Platten in einem Raid 5 mit dem Volume "Bigmama" drauf. Was ist falsch?

    2 Mal editiert, zuletzt von Schuerni ()

  • Melde Dich per SSH an und poste bitte die Ausgabe von md_checker.

    Ich vermute, die HDDs sind nicht synchronisiert.


    Gruss

  • Auweia...."Qnap broken backplane" passt auch für meine TS431.

    Disk unplugged, Disk failed.... Das passt, erst in Bay 3, dann 4.....

    Würde bedeuten im Laufenden Raid 5 hats 2 HDDs ausgeworfen.


    Frage: Kann ich die 4 HDDs in eine andere Qnap einbauen und dort das Raid 5 wiederherstellen?


    Mod: Unnötiges Volltext-/Direktzitat entfernt! :handbuch::arrow: Forenregeln beachten und Die Zitat Funktion des Forums richtig nutzen


    ....md_checker mach ich morgen, muss nochmal nach den Kids schauen, die können nicht schlafen, sorry.....

    Einmal editiert, zuletzt von Schuerni () aus folgendem Grund: Ein Beitrag von Schuerni mit diesem Beitrag zusammengefügt.

  • Das wird Dir nur dann helfen, wenn die Disks noch synchronisiert wären.

    Bei dem geschilderten Verlauf habe ich aber Zweifel.


    Gruss

  • ...sorry, komme grade nicht dazu, melde mich, bitte entschuldigt.

    Edit:

    Gnabend nochmal, 23.00Uhr jetzt....hatte Stress... entschuldigt...

    Ich habe die Mosfest für HDD 3 & 4 geprüft.

    Beide machen nicht was Sie sollen. Es ist der "Backplane-Bug".

    Dabei fallen die FETs fürs Powermanagement der HDDs mit höherer Nummer aus. (also ab 3 aufwärts...)

    Für HDD 1 und 2 ist das nicht verbaut.

    Daher habe ich die HDDs auch noch nicht wieder eingebaut.

    Der Fehler erklärt auch schlüssig das Auswerfen der HDDs 3 & 4 mitten im Betrieb. Strom weg....

    Die Mosfets auf der Backplate sind "P-Typen", schalten also ab, wenn Sie spinnen, passt auch zum Fehler!

    Ich werde also erstmal die Stromversorgung der Platten sicherstellen, damit nicht wieder beim erneuten Rettungsversuch eine der HDDs runterfährt aufgrund der defekten FETs.

    Ich habe diese schon bei AliX bestellt, bis die da sind kann ich hier Drain-Source-Brücken auf die FETs löten. Dann fahren die HDDs halt gleich hoch und nicht mehr runter bis QNAP ausgeht. Macht ja nix, zumindestens übergangsweise.

    Dafür ist aber sichergestellt dass beim Rettungsversuch dann hoffentlich nix schiefläuft.

    Ich gebe Bescheid wenn ich das hab...

    Zum Glück ist in der Hobbywerkstatt alles zum SMD Löten :-))

    Lieben Gruss und Gn8 :)

    2 Mal editiert, zuletzt von Schuerni ()

  • Schuerni

    Hat den Titel des Themas von „TS 431 - Raid 5 Wiederherstellen scheitert“ zu „TS 431 - Raid 5 Wiederherstellen scheitert - Backplane Bug?“ geändert.
  • Guten Abend,

    ich habe heute den SMD Lötkolben unter dem Mikroskop geschwungen.

    Die beiden Mosfets für Bay 3 & 4 sind gebrückt, durchgemessen, mit einer alten Festplatte getestet, für gut befunden und alle 4 HDDs wieder eingebaut.

    Danach habe ich die QNAP gestartet... nach 2-3 Minuten war sogar die rot blinkende LED von alleine aus, alle LEDs wieder grün.

    Die Wiederherstellung im Speichermanager ist jedoch mit unbekanntem Fehler gescheitert.

    Also, wie FSC830 geschrieben hat, habe ich mich per SSh eingeloggt, md_checker spuckt folgendes aus:

    QNAP_mdchecker.jpg

    Und was soll ich jetzt tun ??

    Liebe Grüsse...


    Mod: Unnötiges Volltext-/Direktzitat entfernt! :handbuch::arrow: Forenregeln beachten und Die Zitat Funktion des Forums richtig nutzen


    Die Bezeichnung ist E6P02 :) anbei das Datenblatt. Ich habe D1-S1 sowie D2-S2 gebrückt. Das ist ein doppel-Fet, der schaltet also 5V und 12V gleichzeitig, deswegen sind es auch 2 Brücken.

    E6P02.jpg

    3 Mal editiert, zuletzt von Schuerni () aus folgendem Grund: Ein Beitrag von Schuerni mit diesem Beitrag zusammengefügt.

  • Das ist genau das vermutete Problem, die Disks sind nicht mehr synchron.

    Interessanterweise sind aber Paar 1 u. 2 und 3 u. 4 synchron.

    Aber wie (und ob) man daraus wieder das Volume rekonstruieren kann?

    Nach meinem Kenntnisstand nicht. :(


    Gruss

  • Woran siehst du das? Am Array State?? "." bedeutet "missing", korrekt?

    Ich habe hier einen Thread gefunden, der hatte ein ähnliches Problem, mit schlechterem Array State.

    Der hat mit md_checker Befehlen alles wieder hinbekommen. Damit bin ich aber nicht fit genug.

    siehe hier: ->thread 52689

    2 Mal editiert, zuletzt von Schuerni ()

  • Nein, mit mdadm Befehlen hat er das Raid wieder hinbekommen, vom Volume bzw. LVM lese ich da nichts, nur im letzten Post "läuft wieder", aber wie, so ganz ohne weiteren Eingriffe? :/

    Wäre die Frage, was damit passiert ist.

    Auch was genau zwischen erstem und letzten Screenshot alles gemacht wurde.

    Auf dem ersten sieht man das alle 4 Platten einen unterschiedlichen Update Zeitstempel haben, zum Schluss weicht nur noch /dev/sdd ab.


    Daran sieht man auch bei Dir die nicht synchronen Platten. Im Raid muss der für alle Platten gleich sein.


    Gruss

  • Anscheinend sind ja alle Platten aktiv, vollständig und fehlerfrei.

    Durch die defekten FETs und das ungesteuerte abschalten der HDDs 3&4 ist dann wohl auch der Unterschied der Zeitstempel gekommen.

    Ausserdem habe ich nichts geschrieben, reinkopiert oder an den Daten des Raids verändert.

    Ich hatte lediglich angefangen auf eine externe HDD zu sichern.

    Somit müsste doch alles unverändert da sein??


    Hat jmd dann eine Idee wie ich die wieder zusammen bekomme?


    Gnabend, kurzes Update...

    Ich habe im QNAP Support ein Ticket eröffnet. (trotz Kaufjahr 2016!)

    Ich habe den Fehler geschildert, inkl. "tote-Mosfets-Syndrom". Es kam gar keine Nachfrage dazu, anscheinend nichts Neues, sondern direkt Interesse am md_checker Screenshot.

    Ein Admin hat sich gemeldet und mich gebeten im Helpdesk einen Remotesupport einzurichten.

    Die wollen das Raid 5 "zwingen" neu zu synchronisieren und versprechen sich davon eine Lösung.

    Der Remotezugriff ist fertig eingerichtet, ebenso ein separater Nutzeraccount hierzu erstellt.

    Jetzt bin ich nur gespannt wann die Platten lostackern :-))

    Übrigens musste ich dazu auch noch mein QTS 4.2.2 auf 4.3.6. updaten, da es im 4.2.2 noch kein Helpdesk gab.

    Da hatte ich echt Schiss dass die Qnap ganz abschiesst, hat aber reibungsfrei funktioniert!

    Gruss und schönen Abend....

    - Meldung folgt -

    5 Mal editiert, zuletzt von Schuerni () aus folgendem Grund: Ein Beitrag von Schuerni mit diesem Beitrag zusammengefügt.

  • Hallo Leidensgenossen. :)

    Das NAS läuft wieder. Jetzt wird erst mal ein Backup auf extern erstellt :)

    Anbei die Nachricht, die ich vom Support erhalten habe:

    Mod: Nicht deklariertes Zitat ohne Quellenangabe ... korrigiert! :handbuch::arrow: Forenregeln beachten und Die Zitat Funktion des Forums richtig nutzen

    Zitat von QNAP Support

    Sehr geehrter Herr "Schuerni",

    nach der erzwungenen Reaktivierung der RAID-Gruppe ist es auch gelungen, alle weiteren darüberliegenden LVM-Schichten zu reaktivieren:

    Ihre Daten sollten daher auch über SMB wieder verfügbar sein, sofern die entsprechenden Freigaben auf der NAS noch vorhanden sind. Dieses Ticket wird mit Ihrem Einverständnis geschlossen, sofern keine weiteren Fragen zu diesem Thema vorherrschen.. Falls Sie mit meiner Beratungstätigkeit zufrieden waren, über eine gute Kundenberater-Bewertung ..würde ich mich sehr freuen...

    Also... JUHUUU!!!!

    Alle Daten noch da!

    Lieben Gruss

    Image_2023-06-16_10-52-50.png

  • Und weißt Du auch, WIE das wiederhergestellt wurde?


    Gruss

  • Man könnte mal schauen ob es über SSH mit history ersichtlich wird... haben wir aber glaube ich schonmal in einem anderem Fall erfolglos versucht...