Ausfall der Qtier Raidgruppe, Verhalten des Speichermanagers unklar

  • Hallo zusammen,


    ich habe vor kurzem ein TS-464 erstanden und in Betrieb genommen. Konfiguriert habe ich zunächst einen Speicherpool mit einer Raidgruppe (1) aus vier HDD (je 3TB, Raid 4 oder 5). Mehrheitlich aus Spieltrieb habe ich dann etwas später zwei 1TB SSD hinzugefügt um Qtier zu testen. Diese wurden als Raid 1 und eigene Raidgruppe (2) dem selben Speicherpool untergeordnet - ob ich das selbst so konfiguriert habe oder der Qtier Assistent das so angelegt hat ist mir gerade nicht erinnerbar. Das ganze lief darauf exakt 12 Tage zu meiner Zufriedenheit.


    Nach besagten 12 Tagen ist dann eine der SSDs gestorben. Diese habe ich dann ausgebaut und den Fehler in einem anderen Gerät verifiziert - im Ergebnis wurde sie weder vom NAS noch von einem USB Adapter erkannt. Dementsprechend habe ich die SSD reklamiert und auf Ersatz gewartet. Das TS-464 hat in dem Zusammenhang scheinbar das Tiering deaktiviert und wie ich dachte (der Sicherheit wegen) die Daten von der verbliebenen SSD auf die HDDs verschoben - zumindest meinte ich das den Benachrichtigungen entnehmen zu können.


    Während ich nun auf Ersatz wartete, hat auch die zweite SSD einen Defekt erlitten. Laut NAS kam es beim automatischen Laufwerkstest zu Schreibfehlern, weswegen die verbliebene SSD in den "Read Only" Modus ging. Zu dem Zeitpunkt hab ich mir dann gedacht, dass das ja alles kein Problem sei, da die Daten inzwischen ja sicher auf der HDD liegen. Mein Plan war dann zunächst den "Ultra-High Speed Tier" zu entfernen, ein anderes SSD Fabrikat zu besorgen (derber Vertrauensverlust in Transcend 220S) und das ganze wieder in Betrieb zu nehmen. Stellt sich heraus das die Option "Remove Ultra-High Speed Tier" nicht mehr zur Auswahl steht. Ich habe dann einfach mal die verbliebene SSD aus dem NAS genommen um zu sehen wie die Welt dann aussieht. Im Ergebnis ist dann der ganze Speicherpool auf "broken" gewechselt und ich hatte überhaupt keinen Zugriff mehr auf meine Daten. Mir scheint also das doch noch Daten auf verbliebenen SSD liegen.


    Um den "Ultra-High Speed Tier" zu entfernen, bin ich nach dieser Anleitung vorgegangen. Ab Punkt 4 geht es leider nicht weiter, da die Option ausgegraut ist.

    Removing the Ultra-High Speed Tier


    Im Moment bin ich leider ziemlich unsicher was das NAS als Reaktion auf die Ausfälle und Reparaturversuche unternimmt bzw unternommen hat. Deswegen sehe ich keinen klaren Weg wie ich aus dieser Situation am besten wieder heraus komme. Im Moment stelle ich mir die folgenden Fragen:

    • Ist die verbleibende SSD vom NAS auf die HDDs geleert worden? Falls ja, warum ist der Speicherpool "broken" wenn ich sie entferne?
    • Gibt es im momentanen Zustand die Möglichkeit die Daten vom "Ultra-High Speed Tier" zu verschieben und Raidgruppe 2 geordnet außer Betrieb zu nehmen oder muss ich Raidgruppe 2 dazu zunächst wieder reparieren?
    • Ich erhalte heute eine neue SSD mit der Post. Wenn ich die installiere, synchronisieren die Daten dann mit der verbliebenen SSD im "Read Only" Modus? Kann ich dann Raigruppe 2 geordnet außer Betrieb zu nehmen oder muss ich nach dem Rebuild noch die andere SSD ersetzen?

    Gemessen an der Historie habe ich wenig Zuversicht das die verbleibende SSD noch lange durchhält. Das NAS wartet also ausgeschaltet auf einen guten Plan. Für sachdienliche Hinweise wäre ich ausgesprochen Dankbar!

  • Moin und wilkommen!


    Ich hab leider keine Lösung für Dich, außer dem Rat, dich parallel an den Support zu wenden.

    Von Qtier habe ich hier noch nicht viel gelesen, daher ist fraglich ob da jemand helfen kann...


    Wenn ich die installiere, synchronisieren die Daten dann mit der verbliebenen SSD im "Read Only" Modus? Kann ich dann Raigruppe 2 geordnet außer Betrieb zu nehmen oder muss ich nach dem Rebuild noch die andere SSD ersetzen?

    Ich vermute, dass das so sein wird, habe Qtier aber auch selbst noch nie genutzt.


    Backup der Daten ist nicht vorhanden?

  • Ein Backup der Daten gibt es, aber leider noch keine Sicherung vom NAS direkt. Als relativ neuer NAS Nutzer habe ich halt gerade erst meine Daten von allen möglichen Quellen im NAS gebündelt und sortiert - das würde mir dann wieder bevorstehen. Ich war in der Vergangenheit leider ein ziemlicher Messie bzw. Hoarder, wäre also kein Spaß.


    Auf jeden Fall schon mal Danke für deine Einschätzung! Ich werde mein Glück versuchen.

  • Dann würde ich wenn die Situation glücklich endet auf jeden Fall das Tiering erstmal rauswerfen und mich im nächsten Step mit dem Backup beschäftigen.

    Erst dann kann man anfangen zu spielen und testen :)

  • Ich habe keine SSDs im Einsatz, aber wo man hört und liest wird vom Einsatz der SSDs als Cache abgeraten.

    Der Nutzen sei ziemlich gering (kaum Performancegewinn), dafür aber erhebliche Nachteile, u.a. genau dieses, was Du gerade erfährst.

    Wobei m.M. nach auch bei der übrigen read-only SSD die Daten im Pool noch zugreifbar sein sollten.

    Nach Entfernen aller SSDs geht aber der Pool auf broken und ist nicht mehr zugreifbar, daher ganz klar die Empfehlung keinen Cache zu verwenden.

    Stattdessen für performancelastige Anwendungen oder VMs einen reinen SSD Pool aus den beiden SSD erstellen (Raid1).


    Gruss

  • QTier (hab ich mehrfach im Einsatz hier) vergrößert (im Gegensatz zu Cache) denn Poolspeicher. Qtier deaktiviert sich nicht nur weil es degraded ist (es müsste vor allem genug Speicher im Low Tier frei sein um zu destagen)


    Heisst mit dem Ableben der 2. SSD ist dein kompletter Pool hinüber..leise Winken und von vorne anfangen. Beim nächsten mal bitte SSD's benutzen mir Endurance mehr als von 12 vis Mittag

  • So kurzes Update: Der Support scheint davon auszugehen, dass sich der Ultra-High Speed Tier mit der verbliebenen read only SSD in Raidgruppe 2 entfernen entfernen lassen sollte - geht aber nicht. Jetzt bekommen die erstmal, wie erbeten, Logs von mir. Mal sehen wie das weiter geht.

    Wobei m.M. nach auch bei der übrigen read-only SSD die Daten im Pool noch zugreifbar sein sollten. Nach Entfernen aller SSDs geht aber der Pool auf broken und ist nicht mehr zugreifbar, daher ganz klar die Empfehlung keinen Cache zu verwenden.

    Qtier deaktiviert sich nicht nur weil es degraded ist (es müsste vor allem genug Speicher im Low Tier frei sein um zu destagen)


    Heisst mit dem Ableben der 2. SSD ist dein kompletter Pool hinüber.

    Mit der read only SSD ist der Pool in der Tat funktional. Nur hab ich nach dem ersten Ausfall eine Meldung erhalten das die zweite Raidgruppe degraded ist und eine weitere Benachrichtigung die sinngemäß sowas wie "Qtier wird deaktiviert" sagte - woraufhin dazu ein Job auftauchte der auch eine ganze Weile am laufen war. Ich hatte halt angenommen das er der Sicherheit wegen die Daten auf die HDD Raidgruppe schiebt. Ausreichend Platz wäre da gewesen.


    dolbyman Bleibt die High Speed Tier Raidgruppe im Pool, wenn ich auf "High Speed Tier entfernen" gehe? Ich kann die Option zwar gerade nicht anwählen, aber wenn der Speicher im Pool verbleibt (und dann auch genutzt wird) nachdem Qtier auf diese Art deaktiviert wurde, verstehe ich wenigstens was mein NAS da gemacht hat.

  • Da war der Support aber fix...

    Die viel interessantere Frage wäre ja, wenn doch die Daten eben nicht auf HDD vorhanden sind, ob durch das Hinzufügen einer funktionierenden SSD wieder alles aufgebaut wird, sodass man die Daten schnell sichern und anschließend das Tier auflösen kann. Halt mit dem Beigeschmack dass es vorbei ist wenn die zweite SSD auch noch übern Jordan geht...

  • Bleibt die High Speed Tier Raidgruppe im Pool, wenn ich auf "High Speed Tier entfernen" gehe?

    Wenn das Tier nicht defekt ist (wie bei dir) dann kann man das auf freien Poolspeicher (falls genug vothanden) auflösen. Aber dadurch dass die zweite Platte auch defekt war..ist hier alles im Argen.

  • tiermutter Exakt das würde ich vermuten, besser noch gleiches mit der einen SSD im read only Modus. Dann könnte ich mich nämlich von diesen Krücken verabschieden, ohne auf besseren Ersatz zu warten und das ganze in Zukunft als separaten Pool betreiben. Mal schauen was der Support da zu berichten hat.


    Wenn es aber in die Richtung geht, die dolbyman angerissen hat und durch die SSDs der Pool vergrößert wurde, ließe sich der doch aber gar nicht mehr entfernen. Zumindest hatte ich irgendwo mal gelesen das eine Raidgruppe die einem Pool zugeordnet wurde, sich nicht mehr entfernen lässt. Die Option "Ultra-High Speed Tier entfernen" würde dann wohl lediglich Qtier deaktivieren und die SSDs verbleiben im Pool. Ich hatte halt gedacht man könnte die Gruppe auch wieder aus dem Pool werfen, wenn die über den Qtier Assistenten eingebunden wurden.

    Beim nächsten mal bitte SSD's benutzen mir Endurance mehr als von 12 vis Mittag

    Dazu noch folgendes: Ich hatte die extra ausgewählt, weil Transcend die mit 2,2PB TBW und 2 Mio. Stunden MTBF ausweist - naja, und weil sie günstig waren. Das ließ sich aber damit erklären, dass sie nicht besonders schnell sind. Heute weiß ich das es Menschen gibt, denen nach zwei Monaten drei SSDs in einer Woche kollabiert sind. Und das Transcend Garantieleistungen ablehnt, weil die ja nicht für den Dauerbetrieb gemacht seien - steht nur leider nirgends. Selbes sagen die wohl übrigens auch über den Betrieb in Laptops. Mir scheint Transcend hält seine MTE220S für so eine Art SD-Karte. Wird in Zukunft gemieden.


    Wenn das Tier nicht defekt ist (wie bei dir) dann kann man das auf freien Poolspeicher (falls genug vothanden) auflösen. Aber dadurch dass die zweite Platte auch defekt war..ist hier alles im Argen.

    Das sind sehr gute Neuigekeiten! Die zweite Platte lebt ja noch, zwar read only und fraglich wie lange noch, aber dann besteht ja immerhin noch die Möglichkeit besseren Ersatz zu beschaffen und das ganze aufzulösen. Zumindest wenn die Platte im read only Modus einen Rebuild kann. Ansonsten muss ich dann wohl was großes besorgen, alles sichern und hoffen das der Kram solange noch irgendwie zusammen hält.

    Einmal editiert, zuletzt von BobErmeier () aus folgendem Grund: Ein Beitrag von BobErmeier mit diesem Beitrag zusammengefügt.

  • Bei Qtier ist mit dem SSD Pool Ausfall der ganze Pool hin.

    Früher mit 4er Firmware konnte man auch nur neu aufsetzen.


    Selbst wenn das wieder mit Panzertape zusammen geflickt bekommst, würde ich den Daten nach einem solchen Vorfall nicht mehr trauen was die Integrität angeht.


    Tiering ist was für HP, IBM, Starwinds und Datacore, andere sollten davon die Finger lassen, zeigt sich immer wieder.


    Hacke das also ab und mache sauber neu.

    Der Datenintegrität zuliebe.

  • So um die Angelegenheit hier abzuschließen und das kollektive Wissen zu mehren, folgende Zusammenfassung:

    • Den Ausfall einer einzelnen SSD in der QTier Raidgruppe steckt das NAS logischer Weise weg.
    • Die Daten werden in diesem Szenario nicht automatisch von der QTier Raidgruppe auf die HDD Raidgruppe verschoben - damit ist der gesamte Speicherpool in Gefahr.
    • Wenn eine Raidgruppe degraded ist und eines der verbliebenen Laufwerke wegen Schreibfehlern in den Read-Only Modus geht, geht der ganze Pool (und damit sind explizit auch andere Raidgruppen im selben Pool gemeint) in Read-Only. Laut Qnap ist dann auch kein Rebuild nach Datenträgertausch mehr möglich. Ein Backup könnte man aber noch anfertigen.
    • Die einzige verbleibende Möglichkeit ist damit, den Pool aufzulösen und neu anzufangen.

    dolbyman und Crazyhorse lagen also absolut richtig. Ich hab jetzt noch die Informationen vom Qnap Support einfließen lassen, damit die Zusammenhänge klarer werden.


    Danke an alle Beteiligten!