TS-253 Pro - Häufung von Ausfällen: A drive has been detected but is inaccessible - aber nur HDD 2! Was kann das sein

  • Hallo,


    wir haben ein Problem mit einer Reihe TS-253 Pro. Es sind einige hundert im Einsatz und aktuell häufen sich die Ausfälle von HDD2, aber NUR von HDD2 mit 1000+ Eventlogeinträgen pro 24 Stunden: A drive has been detected but is inaccessible. Als Festplattentyp sind Seagate ST2000VN000 eingebaut. Firmware ist 4.2.4. Temperaturen betroffener Systeme liegen bei 39-42°C Systemtemperatur, CPU meist 1 Grad niedriger, Festplatten bei 36-37°C


    Kurz das Fehlerbild zusammengefasst:

    -der Ausfall ist immer HDD2

    -Fehlermeldung ist immer: A drive has been detected but is inaccessible

    -die Festplatte ist NICHT defekt

    -Der Fehler kann nur durch einen Gehäusetausch behoben werden - mit den bestehenden HDD's

    -Die Festplatte klackert auffällig als wenn sie defekt wäre, ist sie aber nicht


    1. Idee: Das Netzteil ist defekt, also Kreuztest mit neuem Netzteil durchgeführt, keine Besserung. Somit liegt es daran nicht.


    Neu aufgefallen ist, dass der Fehler verschwindet sofern man die "intelligenten Lüfter" deaktiviert und diesen auf manuelle Steuerung in mittlere Stufe umstellt.

    Nach ein paar Minuten wird die HDD2 wieder erkannt und der Rebuild des Raid 1 beginnt und die Temperatur geht leicht ~3-5°C zurück)

    Stellt man die "intelligente Lüfter" wieder ein kann man warten dass HDD2 aus der Kurve fliegt. Sieht also aus wie ein Temperaturproblem. Leider finde ich dazu bisher nichts im Internet.


    Nun die Frage: Kennt jemand das Problem und vor allem eine Lösung? Aktuell tauschen wir die Gehäuse und bekommen Ersatz via QNAP RMA aber das kann keine dauerhafte Lösung sein da der Austausch alleine eine Menge Aufwand bedeutet und nach knapp 2 Jahren ein kompletter Austausch keine Option ist. Zudem muss damit gerechnet werden, dass sobald die Garantie/Gewährleistung abgelaufen ist QNAP mit Sicherheit nicht einfach weiter defekte Geräte austauscht. :qnap:<------Ihr dürft uns natürlich gerne überraschen8)


    Freue mich auf eure Erfahrungen :)


    Dorsen

  • Ohne konkrete Erfahrungen mit der 253pro zu haben:


    Wenn ihr soviel Systeme (mehrere hundert) parallel im Einsatz habt stellen sich folgende Fragen:

    • sind die Systeme konzentriert pro Standort ?
    • gibt es besondere Umweltbedingungen ( Vibrationen, Luftfeuchtigkeit, Temperatur wurde ja schon genannt etc. )

    Ich persönlich würde auf ein Kontaktproblem entweder im Slot oder auf der Platine (Lötstellen) tippen. Gerade wenn es IMMER derselbe Slot ist. Es kann natürlich auch schlicht eine schlechte Charge sein. Ich weiß ja nicht, ob ihr die Dinger direkt bei QNAP von der Palette gekauft habt, aber wenn man die Umgebungsproblematik ausschliessen kann dann könnte es ja auch ein Serienproblem sein. Und bei der Menge müsste QNAP ja auch mal direkt jemanden dafür abstellen wenn das Ausfallverhalten so aufällig ist.

  • nein, wir haben ein QNAP Cluster ;)

    die stehen in den unterschiedlichsten Bereichen und die Umgebung kann man vernachlässigen. Rückläufer stehen im vollklimatisierten Technikraum und das Phänomen kann nachvollzogen werden.


    Wir haben auch die Befürchtung auf Chargenfehler zumal eben keine Leidensgenossen bisher im Internet zu finden sind mit dem Fehler. Ticket bei QNAP ist parallel eröffnet, aber die Mitarbeiter stehen wohl vor einem hohen Berg von Arbeit und bisher gab es noch keine weitere Analyse daher möchte ich es hier einfach parallel versuchen zu einer Lösung zu kommen.


    Danke dir aber schon mal fürs Feedback

  • Nur mal aus Neugier gefragt:

    Wenn es ohne die intelligente Lüftersteuerung nicht auftritt, warum schaltet Ihr die als Workaround nicht überall ab?

    Im vollklimatisierten Technikraum sollte die nicht notwendig sein.


    Und: warum eigentlich geht die Temperatur zurück wenn die ausgeschaltet wird?

    Das hört sich für mich ja so an als ob die Lüfter generell mit "unter-Drehzahl" fahren und bei deaktivierter Steuerung immer mit Nenn-Drehzahl!?


    Gruss

  • Glaube nicht, dass die Lüfter bei "intelligent" aus sind, eher dass der Schwellwert zu niedrig ist. Schon mal versucht die Grenzen zu verschieben, so dass die Lüfter "intelligent" früher mit höherer Drehzahl beginnen?

  • an welcher stelle kann ich den Schwellwert verschieben?

    Im Automatikmodus kenne ich keine weitere Einstellung, gibt es da was?:/


    Nur mal aus Neugier gefragt:

    Wenn es ohne die intelligente Lüftersteuerung nicht auftritt, warum schaltet Ihr die als Workaround nicht überall ab?

    Im vollklimatisierten Technikraum sollte die nicht notwendig sein.

    ...das sind die nächsten Schritte die wir testen wollen. Welchen Einfluss hat das auf die Geräuschentwicklung und was ist wenn es extrem war wird und der Lüfter nicht auf 100% laufen kann da manuell gesteuert.


    Die Temperatur geht zurück da mit der "intelligenten Steuerung" die Drehzahl bei ~1000-1100 Umdrehungen liegt und das NAS sich versucht bei 45°C zu halten. Das funktioniert auch scheint aber irgendwo zu viel zu sein für was auch immer. Das WAS ist eben dir Frage was es ist.

    Bei Manuell mittel drehen die Lüfter auf 2200rpm, daher sinkt die Temperatur.

  • Ticket bei QNAP ist parallel eröffnet, aber die Mitarbeiter stehen wohl vor einem hohen Berg von Arbeit und bisher gab es noch keine weitere Analyse daher möchte ich es hier einfach parallel versuchen zu einer Lösung zu kommen.

    Ich bin sehr gespannt, wie schnell der Support da reagiert. Hoffentlich stufen die euch nicht als exzessive Privatuser mit zu viel Geld ein...


    Ich würde parallel mal den Festplattenhersteller einschalten. Ich würde auch davon ausgehen, dass sich andere Poweruser in der Größenordnung hier nicht melden, um keine unnötigen Datenspuren zu ziehen - kann ja schnell komisch werden, wenn bekannt wird, dass die angebotene Hardware streikt...


    Hängen da die Original Netzteile dran? Wie wird bei euch der Strom aufbereitet?

  • dorsen : was mich ja noch interessieren würde: habt Ihr die Qnaps einfach so irgendwo im Grosshandel gekauft oder über QNAP ? Offenbar gibt es ja auch keinen Servicevertrag. Qnap bietet aber wohl auch keine an, soweit ich weiss.

  • christian

    Hat den Titel des Themas von „TS-253 Pro - Häfung von Ausfällen: A drive has been detected but is inaccessible - aber nur HDD 2! Was kann das sein“ zu „TS-253 Pro - Häufung von Ausfällen: A drive has been detected but is inaccessible - aber nur HDD 2! Was kann das sein“ geändert.
  • Hallo zusammen,


    habe genau das gleiche Fehlerbild bei meinem Qnap TS-253 Pro. Hatte die Firmware aktualisiert und kurz danach ist die Seagate HDD2 ausgeworfen worden. Dachte die Festplatte sei defekt und habe daraufhin beide gegen größere WDs getauscht. Nach ein paar Wochen ohne Unterbrechungen ist nun heute die HDD2 als unplugged markiert worden und ein Rebuild konnte die Platte nicht wieder erfolgreich in den Raid1 Verbund integrieren.


    Viele Grüße

    Florian

  • habe genau das gleiche Fehlerbild bei meinem Qnap TS-253 Pro. Hatte die Firmware aktualisiert und kurz danach ist die Seagate HDD2 ausgeworfen worden.


    Und was tut sich wenn du wieder die alte (vorherige) FW installierst, funktionieren dann die HDD's wieder?

  • Habe die vorherige FW 4.3.4.0597 wieder installiert und nochmal einen Rebuild mit ca. 8 Stunden abgewartet, welcher diesmal erfolgreich durchgelaufen ist. Zur Sicherheit hab ich den Lüfter während des Rebuilds auf mittlere Drehzahl gedreht, vielleicht hatte das auch einen Einfluss auf den Vorgang. Seither ist das NAS ohne Probleme durchgelaufen und ich hab in den Logdateien keinen Fehler mehr entdeckt.

    Der Supportmitarbeiter konnte den Fehler in keiner Datenbank entdecken und hat gemeint, ich sollte das System genau beobachten. Zur Sicherheit werde ich eventuell das WD-Scantool auf beide Platten schicken, da das System bereits einige Rebuilds durchgemacht hat. Solange in den Changelogs keine Verbesserungen erwähnt werden, gibt es erst mal keine FW-Updates mehr.

  • Solange in den Changelogs keine Verbesserungen erwähnt werden, gibt es erst mal keine FW-Updates mehr.


    Darum sollte man auch vorher in die Changelogs schauen, ob es überhaupt Sinn macht. Bzw. fährt man auch GANZ GUT, wenn man nicht bei den Ersten mit dem Update ist, sondern mal in Ruhe einige Wochen abwartet ob das große Aufschreien kommt ...


    Mein NAS ist von außen nicht erreichbar und ich will/muss auch nur vom Intranet darauf zugreifen, daher mache ich schon lange keine FW-Updates mehr. Muss aber jeder für sich selber entscheiden!

  • Das NAS ist auch nicht vom Internet erreichbar, aber ein paar neue Funktionen (QFile etc.) werden auch im Intranet benötigt.

  • Der Thread ist ja schon älter, aber als Ergänzung ist das hier vielleicht nützlich

    Wir nutzen QNAPS (TS-253 Pro) auf etwa 40 Schiffen in nicht so netter Umgebung (Vibrationen und manchmal keine Klimatisierung bei unterschiedlichsten Temperaturen. Bisher keine Problem (hier und da mal eine kaputte Festplatte, deren Tausch aber kein Problem war: automatisches re-Build des RAID funktionierte einwandfrei

    Jetzt hatte ich zum ersten Mal obiges Phänomen:
    Fehlermeldung "A drive has been detected but is inaccessible" für HDD2 (WD Red 2TB, QNAP-kompatibles Modell, QNAP Firmware war 4.2.0)

    Der Kapitän hat die Festplatte gegen eine identische neue Platte getauscht, aber das Problem bestand weiterhin, gleiche Fehlermeldung...

    Habe dann remote alles mögliche probiert, aber die 2. Festplatte (auch eine weitere Ersatzplatte) war nicht wieder zu beleben.


    Dann tausend Dank an Dorsen:

    Lüfter auf manuell umgeschaltet und auf "High speed" gesetzt und nach ca. 1 Minute war die Festplatte ohne weiteres Zutun wieder da und hat automatisch den RAID-Rebuild gestartet.

    Kann fast nicht glauben, dass es an der Temperatur liegt (da die Temperatur auch vorher nicht so hoch war):


    Temperaturen: Vorher Nacher

    CPU 37° 31°

    System 39° 36°

    HDD1 30° 29°
    HDD2 30° 28°


    werde das mal im Auge behalten.


    Gruß und Danke,

    Michael

  • Hallo,

    ich habe genau das gleiche Problem und werde einmal mit den Lüftern experimentieren. Laut QNAP ist die Backplane defekt, kann mir das aber nicht vorstellen. Bei einigen ist auch die HDD1 rausgeflogen - was aber wohl ein Firmware Update des ASMEDIA controllers verursacht hat (auf version 420). Das ist bei mir bei der HDD2 leider nicht der Fall.

    Ich werde hier berichten, sollten sich die Temperatur als Fehler bewahrheiten.


    Gruß,


    André

  • Hallo zusammen,


    ich möchte mich nochmal zurück melden und kann bestätigen dass es sich um einen Hardware defekt handelt. Defekt ist die Backplane und die "Lüfter auf Anschlag stellen"-Variante hat auch nur zeitlich bedingt Erfolg.

    Nach einem langen Supportfall, bei dem neue, andere Software bereitgestellt wurde ohne Erfolg, ein Gehäuse in Taiwan im Engineering war und auch nur das Feedback kam: "defekt" - fangen wir an, die defekten Gehäuse auszutauschen.


    Gruß

    Dorsen