Hardware – Nur ein Kuriosum oder...? Ein Erfahrungsbericht aus dem IT-Alltag

00 Titel.jpgManchmal erlebt man Dinge, welche man so gar nicht richtig zuordnen kann. Diese Woche hatte ich wieder mal so ein Erlebnis. Ich kann jetzt nicht sagen, ob dies ein einfacher Erfahrungsbericht nach dem Schema „IT-Geschichten aus dem Alltag“, ein Kuriosum - ein Einzelfall für sich oder ganz was anderes ist. Aber lest und urteilt selbst. Starten wir dort wo alles Begann. Und wie es sich für eine gute Geschichte gehört…



++ Es war einmal…


2010:

Eine TS-809 Pro tritt Ihren Dienst an, brandneu und ungebraucht. Als klein oder leichtgewichtig konnte man dieses Teil noch nie bezeichnen. Mit 8 x 2 TB Festplatten der Enterprise Class der Marke Western Digital bringt das Teil ordentlich was auf die Waage. Eingerichtet wurde das Teil als RAID6 mit einem statischen Volume. Weiß jetzt nicht mal mehr, ob es damals auch andere Möglichkeiten gab. Aber ich glaube, Speicherpool mit Thick- und Thin-Volume kam erst viel später. Firmware war, glaube ich, so was um die QTS Version 3.8.x herum. Spielt im Moment aber auch nicht so eine Rolle.

Das NAS war für den 24/7 Dienst als Backup-Ziel bestimmt, im klimatisierten Server-Raum der Firma.


2010 – 2014:

Wie üblich geben zu Beginn die eine oder andere Festplatte schon nach kurzer Zeit den Geist auf. Kein Drama, einfach auf Garantie ersetzen.

Alte Platte raus, neue rein, Resync und weiter geht es.


2015:

Es steht wieder mal ein Festplattentausch auf Grund einer defekten Festplatte an. Leider gibt es nach ein paar Jahren nicht mehr die selben Festplatten-Modelle wie zu Beginn. Was macht man? Man geht auf die QNAP-Homepage und prüft ob das Wunschmodell auf der Kompatibilitätsliste steht, und somit von QNAP geprüft wurde. In meinem Fall soll es wieder eine WD der Enterprise Class werden, ein Nachfolgemodell der verbauten Festplatten. Das kompatible Modell bestellt und nach kurzer Zeit ist selbiges in der Firma eingetroffen.

Wie üblich wollte ich das Teil austauschen und dann weiter. Aber was soll das? Die Festplatte wird im NAS nicht erkannt. Nochmals ein- und ausgebaut, NAS neugestartet. Nichts. Festplatte nochmals auf der Kompatibilitätsliste überprüft. Festplattenmodell auf Kompatibilitätsliste und Festplatte stimmen überein. Tja, wird wohl ein DOA (Dead on Arrival) sein, also defekte Ware beim Eintreffen.

Mit dem Lieferanten in Verbindung gesetzt und umgehend eine neue Festplatte erhalten. Wieder eingebaut und … verflixt, funktioniert immer noch nicht. Was soll das?

Mit QNAP-Support in Verbindung gesetzt: Resultat: Muss sich um noch ein DOA-Fall handeln. Zwei hintereinander? Aber ja.

Wieder Lieferanten kontaktiert und nochmals eine andere Festplatte erhalten. Zum Mitzählen: Das ist jetzt die 3. Festplatte des gleichen Festplatten-Modells der Enterprise Class, welches QNAP als für dieses NAS als kompatible angibt. Wieder eingebaut, wieder nichts. Die entsprechenden Flüche kann sich an dieser Stelle jeder selbst ausdenken.


Da ich keine Lust mehr hatte mich mit diesem Festplatten-Modell herumzuschlagen, habe ich dann einfach ein anderes Modell bestellt. Es wurde eine WD Red. Eingebaut und oh Wunder: Diese Festplatte funktionierte einwandfrei.


Die andere Festplatte wurde eingetütet und mit der Aufschrift:


Nicht für QNAP TS-809 Pro geeignet“


versehen und verschwand im Ersatzteilschrank. Und weil ich die Umstände beim nächsten Festplattenausfall nicht wieder haben wollte, habe ich mir eine weitere WD Red dieses Modells als Reserve zugelegt, im Ersatzteilschrank abgelegt und ebenfalls mit einer Aufschrift versehen:


Für die QNAP TS-809 Pro verwenden, geprüft“


:)


Ende 2019:

Die TS-809 Pro bekommt eine neue Aufgabe zugewiesen. Auf Grund des doch schon beachtlichen Alters wird sie durch was neues als Backup-Ziel ersetzt und bekommt eine tertiäre Aufgabe zugewiesen.


Juni 2021:

Seit 6 Jahren ist erstmals wieder eine Festplatte über den Jordan gegangen, eine von den ursprünglichen. Nach knapp 11 Jahren 24/7 Dauereinsatz auch kein Wunder. Ich entsinne mich, dass im Ersatzteilschrank noch eine Ersatzfestplatte liegen müsste, sein 6 Jahren. Uiuiui. Ob die noch funktioniert oder einen Standschaden hat?

Einbauen ergibt Klarheit. Also Festplatte eingebaut … und sie funktioniert. Resync des RAID6 wurde automatisch gestartet und ist am nächsten Tag durch. Alle anzeigen auf grün. Kurz noch ein paar Tests gemacht und die SMART-Wert geprüft. Alles i.o. Uff. Nochmals Glück gehabt.

Es wird wirklich Zeit, dass das gute Stück seinen Ruhestand antritt.


Oktober 2021:

Die Chefetage konnte sich endlich dazu durchringen das OK für einen neues NAS zu geben.



++ … and now


5. November 2021:

Das neue NAS, ein TS-873A, ist für die TS-809 Pro als Ersatz eingetroffen. 4 x 8 TB mit Seagate Ironwolfs sollten vorerst reichen.

Im Moment muss ich aber noch andere Aufgaben erledigen.


8. Novmeber 2021:

Am Montag Morgen des 8. November 2021 werden ich per automatischer E-Mailbenachrichtigung darüber informiert, dass über das Wochenende eine Festplatte des TS-809 Pro ausgefallen ist, wieder eine der ganz alten. Tja, was nun. Ich habe keine Ersatzfestplatten mehr. Ein neue kaufen? Finde ich überhaupt noch eine passende? Das Ersatz-NAS ist zwar schon da, aber noch nicht einsatzbereit. Und im Eiltempo wollte ich dies jetzt auch nicht in Betrieb nehmen. Hmm, da gibt es noch die Festplatte, die anno dazumal im TS-809 Pro nie funktioniert hat.

Ab zum Ersatzteilschrank. Festplatten-Modell mit der Kompatibilitätsliste von QNAP vergleichen. Die Festplatte steht immer noch als kompatible gelistet. Mal überlegen, die Firmware ist inzwischen schon um einiges neuer, konkret QTS Version 4.2.6 und somit die zuletzt erhältliche Version für dieses NAS Modell. Soll ich…? Ach, einen Versuch ist es wert. Vielleicht erkennt die Firmware inzwischen diese Festplatte auch bei mir.

Eingebaut … und nichts. Nicht mal die LED der Festplatte leuchtet. War das vor 6 Jahren auch schon so? Keine Ahnung. Ist zulange her. In der WebGUI wird vermeldet:


Datenträger existiert nicht“


Eigenartige Wortwahl. Kein Datenträger vorhanden oder so wäre logischer gewesen. Aber egal wie man es bezeichnen oder benennen mag, die Festplatte funktioniert wie schon vor 6 Jahren immer noch nicht. Für manch einen vermutlich nicht so überraschend. Aber man kann es sich schon vielleicht denken: Die Pointe von der Geschicht ist dies noch lange nicht.

Ich stehe im Server-Raum vor dem TS-809 Pro und denke: Was nun? Nochmals ein und ausbauen? Wird wohl nichts bringen. In den vielen Jahren, in denen ich nun schon ungezählte Festplatten in die unterschiedlichsten Geräte ein- und ausgebaut habe, ist es noch nie vorgekommen, dass eine funktionierende Festplatte, die satt im Slot sitzt nicht funktioniert hätte. Und hat ja vor 6 Jahren schon nicht funktioniert.

Aber was soll‘s. Ein letzter Versuch. Mehr aus Frust heraus habe ich die Festplatte mit ordentlich Schmackes in den Slot hineingedrückt und habe nicht schlecht gestaut, als die Festplatte angesprungen ist. Aber das heißt erstmals noch nichts. Als dann kurz danach die LEDs aller anderen Festplatten zu blicken begonnen haben… Ja, sieht nach einem Resync aus. Kann das sein? Die WebGUI hat dann Klarheit verschafft:


Sie lebt und funktioniert.


Die Festplatte wurde erkannt – endlich, nach 6 Jahren – und der Resync des RAID hat begonnen. Ein kurzer Blick in die SMART-Werte zeigt: Alles auf grün.


9. Novmeber 2021:

Der Resync ist durch. Das RAID6 ist wieder auf grün. Festplatten-Test, SMART-Werte immer noch i.o. Ich bin fassungslos. Wer, wie, was, wieso? Wie kann das sein?

Und nein, es war nicht der selbe Slot wie vor 6 Jahren.



++ Der Versuch einer Analyse


Was ist hier eben abgegangen? Wie kann so etwas sein? 3 Festplatten des selben Typs wurden vor 6 Jahren nicht erkannt. Diese Festplatte wurde vor 6 Jahren nicht erkannt. Beim ersten Einbau streng nach „Vorschrift“ wurde die Festplatte nicht erkannt. Mit der „Russischen Methode“ wurde die Festplatte plötzlich erkannt.


Russische Methode“:

Das soll keine Beleidigung oder so sein. Diese Bezeichnung stammt aus dem Filmklassiker „Armageddon“, als ein Russischer Kosmonaut mit einem großen Schraubenschlüssel ein paar Mal auf eine technische Apparatur schlägt und diese danach wieder funktioniert.

Man mag mich jetzt auslachen, aber diese Methode hat bei mir schon mehrfach funktioniert. Immer dann, wenn nichts mehr sonst ging.

Versteht mich richtig. Ich will hier niemanden dazu anhalten auf sein NAS einzuprügeln, weil es nicht mehr funktioniert. Die Chancen dass die „Russische Methode“ funktioniert ist verschwindend gering, gerade bei Software oder Konfigurationsproblemen. ;)


Erster Gedanke: Backplane.

Zweiter Gedanke: Möglichst schnell das Ersatz-NAS zum Einsatz bringen.


Die ganze Sache ist mir nicht wirklich geheuer.


Sind hier mehrere Sachen zusammengekommen? Das die Festplatte nun doch erkannt wurde könnte der neuen Firmware zugeschrieben werden. Das die Festplatte beim ersten Versuch nicht erkannt wurde könnten vielleicht dem Alter und / oder schlechten Kontakten des SATA-Anschlusses am Backplane oder der Festplatte selbst geschuldet sein.

Aber bei einem NAS das 11 Jahre im Dauereinsatz war und einer Festplatte die über 6 Jahren im Schrank gelegen ist, wer vermag dies schon genau zu sagen.



++ Fazit


Und das Fazit von der Geschicht? Ja was genau ist das Fazit? Keine Ahnung. Oder was lernen wir daraus? Wenn es nicht funktioniert hau darauf? :)


Die ganze Situation hat mich dermaßen verblüfft, und dies nach so vielen Jahren in der IT, dass ich dachte, diese Erfahrung muss ich mit Euch teilen. Dabei dachte ich, dass ich schon das Eine oder andere erlebt hätte. Aber dies ist wirklich schräg.



++ Anmerkung


An diesem Beispiel kann man gut erkennen, wie sich der Badewanneneffekt (auch Badewannenkurve genannt) bei der Ausfallverteilung von Festplatten auswirkt. Knapp erklärt:

Kurz nach dem ersten Einsatz ist die Ausfallrate am höchsten und nimmt dann ab. Ein Weile ist die Ausfallrate am niedrigsten und nimmt dann wieder zu.

Meine TS-809 Pro ist wohl am hinteren Ende angekommen, möglicherweise kurz vor dem Totalausfall.


Wer es genauer wissen will:

Wikipedia: Ausfallverteilung



++ Postskriptum


Man würde meinen, dass es sich bei IT-Systemen um eine exakte Wissenschaft handeln würde. Leider sieht die Realität ganz anders aus. Solche Kuriositäten ereignen sich immer wieder und lassen die IT-Mitarbeiter oft ratlos dastehen. Für den Laien nicht immer verständlich, wieso dieses vermeintlich einfache Problem nicht oder nicht sofort zu lösen ist.

Kommentare 4

  • Interessanter Bericht. Krass, dass du dich noch so genau an die Daten erinnern kannst. ich kann man mich manchmal schon nicht mehr daran erinnern was gestern war :-O :-D

    • Naja. Von vor 6 Jahren weiß ich nicht mehr alles so genau. Ich kann mich z.B. nicht erinnern, ob ich die Festplatten noch im PC geprüft habe oder nicht. Auch ob die LEDs der vermeidlich defekten Festplatte an waren oder nicht, kann ich auch nicht mehr sagen. Das exakte Datum müsste ich nachsehen. Aber das spielt hier nicht so eine Rolle. Aber dass ich 3 gleiche Modelle eingebaut habe, daran kann ich mich noch sehr sehr gut erinnern. So etwas hatte ich noch nie und auch danach nicht mehr.

      Ich müsste vermutlich irgendwo noch Unterlagen zu dem Vorfall haben. Aber auf das kleinste Detail kommt es jetzt auch nicht mehr an.

      Was in den letzten Wochen passiert ist, sich exakt daran erinnern zu können, ist für einen IT-Techniker durchaus hilfreich, wenn nicht sogar notwendig. Ansonsten machst Du bei einer Problemlösung immer wieder die selben Fehler.

  • Ich beneide Dich für die seltene Fähigkeit, so aus dem Leben zu schreiben, daß man regelrecht mitfiebert.

    Hut ab und Danke.