TS879RP startet von selbst neu bei HDD-Problem?

  • Tach zusammen,


    seit einigen Jahren betreibe ich mehrere QNAPs, ein TS412 privat und ein TS-859RP sowie ein TS-879RP im Job. Das 859 läuft seit Jahren völlig problemlos, aber das 879 (Gekauft letztes Jahr im Mai) macht nun Theater.
    Beim Kauf wurde es mit 4x Hitachi HDS723020BLA642 ausgerüstet und die liefen bis 11.1. problemlos. Morgens um 0:30 sind wohl gleich zwei Platten aus dem RAID5 geflogen, somit war es unbrauchbar. Darauf liefen 4 VMware-Maschinen, deren Replikate habe ich per Veeam Failover auf einen anderen ESXi gestartet und damit wars erstmal gut.
    Nun gehts ans Wiederherstellen. Im Log des 879 (Läuft mit Firmware 3.8.1, am Freitag mittag aufgespielt, vorher mit 3.6.1) ist zum Zeitpunkt des Vorfalls ein Neustart verzeichnet:

    Zitat

    2013-01-11 00:34:02 System 127.0.0.1 localhost [RAID5 Disk Volume: Drive 1 2 3 4] RAID device is inactive.
    2013-01-11 00:33:41 System 127.0.0.1 localhost System started.
    2013-01-11 00:33:40 System 127.0.0.1 localhost The system was not shut down properly last time.


    Ja wieso ein Neustart, wenn zwei Platten sterben? Die Platten 1 und 2 waren danach nicht mehr vorhanden in der Übersicht. Zum Test habe ich die beiden Platten wieder eingesetzt, Nummer 1 wollte nicht erkannt werden, aber Nummer 2 war wieder da. Eine weitere (neue) Platte als Global Spare eingesetzt und darauf hat das Gerät das Raid5 automatisch wieder hergestellt und danach waren die Daten wieder da und ich konnte diese kopieren und dei VM-Daten im VCenter migrieren. Soweit alles gut.


    Gestern abend jedoch das gleiche Spiel:


    Diesmal ist wohl die alte Platte 2 wieder rausgeflogen und da ich mittags noch einen weiteren Global Spare mit einer neuen Platte eingesetzt hatte, hat die Kiste den Rebuild dieses Mal automatisch gemacht.


    Das ist ja auch ok, aber warum startet das ganze System in so einem Fall ohne Zutun von selbst neu?
    Wenn ein Raid wegen Plattendefekt degraded wird, dann darf das keinen Neustart auslösen. Immerhin ist auch ein degraded Raid immer noch funktional und die Daten sind erreichbar. Bei einem Neustart ist aber Schluß mit Erreichbar und die VM-Gäste sind dann tot.


    Vielleicht hat jemand eine Idee, wie man der Sache auf die Spur kommt. Das Gerät hat noch Garantie, aber solange kein Hardwaredefekt vorliegt, würde ich das gerne selbst lösen.

  • Nach etlichen Tests wie starten ohne Platten, das Traywechselspiel und Testen mit neuen Platten habe ich festgestellt, dass zumindest der Slot 1 defekt ist. Bei Slot 2 liegt auch ein Problem vor, ein Raid5 in welchem der Slot 2 integriert ist, wird spätestens nach 24h degraded. Dann wird ein Global Spare remappt und das Raid wiederhergestellt. Außerdem startet das System sporadisch neu, das hat der technische Support als unmöglich bezeichnet. Gestern morgen startete die Büchse mal eben neu, als ich nur das Webinterface aufrufen wollte.


    Also da ist was oberfaul. Mittlererweile habe ich das Gerät zur Garantiereparatur eingeschickt. Mal schauen was da zurückkommt.