419P II mit FW 4.0.2 hängt sich auf und ist tw. sehr langsam

  • Hallo zusammen,


    erste Postings in einem Forum beginnen leider oft auch mit der Schilderung eines Problems oder einer Frage, so auch bei mir, aber ich bin erst auf dieses Forum gestoßen, seit ich mit meiner QNAP 419P II seit vorgestern rechte Probleme habe. Daher sorry, dass ich erstmal nichts beitragen, sondern nur fragen kann :)


    Ich habe die QNAP seit ein paar Monaten und war bisher auch recht zufrieden damit. Ich nutze das Teil mehr oder weniger nur als Filer auf den ich per Windows-Share oder nfs zugreife.
    Am 29.9. habe ich die Firmware per GUI von 4.0.1 auf 4.0.2 gepatched und da funktioniert auch alles noch recht gut.
    Vorgestern fiel mir dann auf, dass die Box (die zu diesem Zeitpunkt eigentlich nur so vor sich hin lief, ohne dass ich drauf zu griff) gefühlt alle 15-25 Minuten einen Pieps von sich gab und offensichtlich dabei auch bootete.
    Nach 2 Boots versuchte ich per GUI zuzugreifen, allerdings erfolglos. Offensichtlich hatte die QNAP sich aufgehängt und befand sich in einer Schleife, in der sie immer wieder zyklisch bootete.
    Dabei blinkte Status rot/grün, LAN war meistens orange und blinkte auch ab und an und die Festplatten LEDs signalisierten ab und an Aktivität auf einer, manchmal auf allen Platten.
    Der Druck auf den Powerknopf brachte keine Linderung (Status war zwischen den Boots immer rot/grün), letztendlich half nur Stromstecker kurz nach der Meldung "System startet ... " etwas und die Box für wieder normal hoch.
    GUI zeigte, wie erwartet, dass das Raid neu synchroniert werden müsse. Nach 16 Stunden war die Synchnonisation aber noch nicht soweit fortgeschritten, wie ich erwartet hatte (beim ersten Mal schaffte die Box 1% pro 30 Minuten, nun waren es nach 16 Stunden grade mal 12%) und ich loggte mich per ssh auf der Box ein. top zeigte mit eine Last zwischen 25-32 an und ich entschloss mich zum erneuten reboot und ließ die Box dann wieder werkeln.
    Nach der Arbeit heute hatte sie sich wieder aufgehangen und die Synchronisation war auch nicht viel weiter fortgeschritten. Zwangsreboot per Stecker ziehen war auch hier die einzige Möglichkeit die Box wieder betriebsbereit zu bekommen und auf der Konsole sieht man via


    Code
    [/var/log] # cat /proc/mdstat 
    Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] 
    md0 : active raid6 sda3[0] sdd3[3] sdc3[2] sdb3[1]
          5857395072 blocks super 1.0 level 6, 64k chunk, algorithm 2 [4/4] [UUUU]
          [===>.................]  resync = 17.0% (498758020/2928697536) finish=48817.8min speed=829K/sec


    Die Speed variiert zwischen 700K/sec und 3000K/sec, was ja deutlich zu wenig ist. Geht man nach den LEDs der HDDs, läuft die Synchronisation auch nur sehr sporadisch, denn meistens sind die LEDs dauernd grün.
    Die Ausführung des Kommandos # cat /proc/mdstat dauert bis zu 30 Sekunden und die Systemlast liegt derzeit zwischen 4 und 9. Zugriff per Windows auf den Share ist möglich, wenngleich gefühlt langsam und auch zuweilen hängt es etwas...

    Logfiles habe ich im Filesystem unter /var/log nix Brauchbares gefunden. Die Systemmeldungen der GUI sind eher wenig aussagend.
    Der Speichermanager der gui sagt, dass die Smart-Info aller 4 HDDs "gut" seit.


    Ich bin etwas ratlos, was ich machen sollte um das Problem zu beseitigen. Hätte ich etwas an der Box rumkonfiguiert als die Probleme auftraten würd ich es ja verstehen, aber vom 29.9.bis vor 2 Tagen lief ja alles gut.
    Vorschläge, was ich noch schauen/machen könnte?


    Grüße und sorry für das lange Posting ..


    ---Edit---


    Nahctrag: Ich hab jetzt grade nochmal versucht per Bilderviewer (ACDSee) über den Share Bilder zu kucken. Ist extrem langsam. bzw. tut sich grad gar nix mehr ..
    Systemlast ist mittlerweile wieder bei 12-14 ...

    2 Mal editiert, zuletzt von bladekiller () aus folgendem Grund: Code Block hinzugefügt! Editierfunktion nutzen und doppelte Beiträge vermeiden, siehe Forenregeln!

  • So, ich zerr das Thema nochmal hoch, da sich nicht wirklich was geändert hat und vielleicht hat ja doch jemand eine Idee.
    Wenn ich die Box nur kurz laufen lasse, geht's halbwegs.
    Wenn sie über Nacht lief, reagiert sie sehr träge. Nun hab ich sie abgeschaltet und wieder hochgefahren und es ist alles extrem langsam (booten, Zugriff per ssh, usw.)
    Manchmal leuchtet die LED einer HDD, manchmal 2, aber ich weiss nicht, was in der Box abläuft.
    So sieht "top" aktuell aus:



    Also load von 16 und keiner der Prozesse braucht groß CPU-Zeit... Warum?


    Nochmal die Frage:
    Gibt's irgendwo log-Files, wo ich nochwas nachsehen kann?
    Was ist Eure Einschätzung? Ist die Box kaputt? Kommt sie mit 4x3TB im Raid 6 nicht klar?


    Nachtrag: Grade das Posting abgeschickt und nun bootet die Box unaufgefordert. Ganz seltsam...

  • Eine wirklich sinnvolle Lösung kann ich Dir nicht anbieten, aber bei mir hat es geholfen, die Firmware mit dem Finder stumpf noch einmal drüber zu bügeln...

  • Hallo und Willkommen im Club!


    Nachdem die Box offensichtlich über Monate ordentlich gelaufen ist, würde ich hier weder ein Firmwareproblem, noch das RAID als solches im Verdacht haben. Höchstens nun als Symptom, aber nicht als Ursache.


    Mein Verdacht richtet sich daher eher gegen eine oder mehrere Festplatten. Ich würde daher gerne einmal das Systemereignisprotokoll der ab Auftreten der Symptome, den kompletten Datenträgerverwaltungsscreen und die SMART-Screens (Einzelwerte) der einzelnen Platten sehen.


    GLG GBD

  • Zunächst mal vielen Dank für Eure Antworten.
    GreyAngel, Bevor ich eine neue Firmware drüberbügeln könnte, muss erstmal das Raid wieder synchronisiert sein, da die Schüssel ansonsten ggf. sich ziwschendrin aufhängt und ich glaube, das wäre nicht so gut, beim Firmwareupgrade :)
    @Gorilla, ich hab mal Screens von den Dingen gemacht, von denen ich glaube, dass es das ist, was Du sehen wolltest. Leider kann ich die hier nicht so einbinden, daher der Link zum Bild zum Klicken.


    Speichermanager:
    Extern verlinktes Bild entfernt! Der Grund!
    Smartstatus der Festplatten 1-4 (sieht eigentlich gut aus):
    Extern verlinktes Bild entfernt! Der Grund!
    Extern verlinktes Bild entfernt! Der Grund!
    Extern verlinktes Bild entfernt! Der Grund!
    Extern verlinktes Bild entfernt! Der Grund!
    Systemlogs füge ich als codes ein, da ein Auszug als csv (Erste Unregelmäßigkeit am 13.10.2013):


    Hoffe das hilft für die weitere Analyse.


    Viele Grüße

    Einmal editiert, zuletzt von bladekiller () aus folgendem Grund: Extern verlinkte Bild entfernt, mehr dazu siehe Forenregeln!

  • Festplatten sind unauffällig, allerdings wundert mich der hohe UDMA-Error-Count bei einigen Platten, der spricht für Störungen im Schnittstellen-Interface, also der technischen Verbindung von Platte zu Backplane/Motherboard. Kenne ich von den Seagates nur in Verbindung mit älteren Sata-Schnittstellen. Habe im Moment keine Idee, ob das was mit dem Verhalten der NAS zu tun haben könnte, vermute aber, eher nicht.


    Wahrscheinlicher ist ein- oder mehrmaliges unsicheres Herunterfahren (Stromausfall, NAS per Powerknopf "kalt" heruntergefahren, irgendeine Anwendung hat sauberes herunterfahren verhindert, ...) die Ursache, das hat Resyncs des RAIDs nach sich gezogen, die scheinbar noch nicht wieder gelöst sind. Das Dateisystem könnte dementsprechend auch beschädigt sein.


    Dein ganzer Blumenstrauss an ressourcenfressenden Anwendungen erleichert den Resync auch nicht, sondern behindert ihn sogar, insbesondere die Medienbibliothel ist dafür bekannt. Zwei Medienserver sind in meinen Augen auch unsinning, einer sollte reichen. Dazu der Virenscanner auch noch. Das sorgt für mächtigen Datentransfer auf der Platte nach dem Hochfahren und macht dem Resync das Leben schwer bis vielleicht unmöglich.


    Ich würde die Kiste jetzt hochfahren und schlicht alles ABSCHALTEN, alle diese Multimedia-Stationen aus, beide DLNA-Mediaserver aus, Virenscanner aus, Medienbibliothek aus. Möglicherweise bekommt der Resync den Rebuild dann wieder gebacken.


    Ich hoffe nur, Du hast ein Backup der Daten, denn das RAID halte ich für absturzgefährdet.


    Angesichts des Umstandes, dass aber auch nur 600GB Daten auf der NAS sind, würde ich jetzt überhaupt nicht mehr "rummachen", sondern gleich wieder komplett neu aufsetzen. So ein geringer Datenbestand ist ja flugs wieder drauf. Dazu zurück auf LOS, also alle Platten raus und am PC löschen (Partitionen entfernen) und dann wieder rein in die NAS un komplett von vorn.



    RAID6 aus vier Platten würde ich persönlich auch keins fahren, dann eher 2xRAID1 oder gleich Einzeldiskbetrieb mit Backup, was beides den gleichen Plattenplatz kostet. Du verlierst dann zwar den Vorteil eines einzelnen grossen Volumes, gewinnst aber, dass solcher Zirkus hier nicht mehr auftreten sollte und Du im Ernstfall Daten von den Platten noch mit einfachen Mittel selbst retten kannst. Willst Du partout beim Striped-RAID bleiben, rate ich auch nur zu einer USV als wichtigem Zubehör für den Fall, dass der NAS mal der Strom ausfällt.


    Weiterhin würde ich auch überlegen, was ich wirklich von der FW 4.0.x will, oder ob mir nicht auch die FW 3.7.3 reichen könnte, die x19PII bietet ja die Chance zum Downgrade, wenn eh neu aufgesetzt werden muss/soll.


    GLG GBD

  • Vielen Dank nochmal für Deine Ausführliche Antwort.
    Kurzer Zwischenstand: Da ich zwar ein Backup hatte, welches aber 2 Tage alt war, beschloss ich die Resynchronisation des Raid abzuwarten (und zwischen drin immer wieder zu booten, da die Last nach 2 Stunden wieder zu steigen begann) und dann nochmal alle Daten vom System abzuziehen.
    Dann habe ich ausgeschaltet, alle Platten gezogen und dann die Platten wieder gesteckt. Das System gab mir Raid 6 oder Raid 1+0 zur Auswahl und ich wählte Raid 1+0. Kurze Frage am Rande: Ist das normal, dass man nur die beiden Varianten vorgeblendet bekommt? Habe das Webinterface benutzt.
    Dann lief die Installation los und war nach einer geraumen Zeit (vielleicht 30-60 Minuten, habe nicht auf die Uhr gesehen) bei 86% und dort blieb sie auch. Während der Installation haben manchmal alle 4 LEDs grün geleuchtet, manchmal nur eine oder zwei HDD-LEDs und irgendwann leuchtete für ein paar Minuten die LED der 3. Platte für einen längeren Zeitraum rot. Dann bootete die Box öfters aber der Fortschrittsbalken blieb auch nach 2 Stunden bei 86% stehen.
    Da ich nun davon ausgehe, dass die Box wirklich defekt ist, habe ich sie heute zurückgeschickt.

  • Mittlerweile sind 2 Monate vergangen und ich möchte kurz nochmal aktualisieren, was in der Zwischenzeit gelaufen ist:
    Mehr oder weniger nix. Der Großhändler, bei dem ich die Box gekauft habe, hat es innerhalb von 2 Monaten nicht geschafft das Teil zu reparieren oder auszutauschen. Ich Habe daher von meinem Rücktrittsrecht gebrauch gemacht und erhalte mein Geld zurück (zumindest wurde mir dies per Email bestätigt. Das ist der einzig Positive Aspekt :)


    Nun sehe ich immer noch ohne Box da und überlege, mir ggf. nochmal eine QNAP zu kaufen. Die 419P II scheint es nicht mehr zu geben und daher will ich ggf. etwas mit 5 Slots kaufen.
    Habe mir mal die 569L oder die 569 Pro angesehen (Beim dem Großhändler sind beide mit Liefertermin unbekannt gekennzeichnet, andere Großhändler haben sie auf Lager. Seltsam).
    Sind das eigentlich aktuelle Geräte oder haben die schon ein paar Jährchen auf dem Buckel?


    Als signifikante Unterscheide zwischen Pro und L sehe ich das LCD-Display und die abschließbaren Festplatten. Zweiteres brauche ich nicht, aber wie seht ihr das mit dem LCD. Braucht's das unbedingt?


    Grüße

  • Die 569L und 569pro sind beide aktuelle Geräte.


    Die "pro" bietet über abschliessbare Trays und das Display (bietet über die Tastatur auch Basiskonfigurationsmöglichkeiten ohne PC) hinaus noch SataIII statt SataII - HDD-Schnittstellen.


    SataIII statt SataII bringt einer NAS im Gbit-Netzwerk keine Performancevorteile, weil es a) keine mechanische HDD gibt, die SataII auch nur ansatzweise ausreizen würde, b) RAID-Sets in diesen NAS ebenfalls keine Geschwindigkeiten erreichen, die SataII nicht mühelos bewältigen könnte und c) letztlich die Gbit-Schnittstelle den Durchsatz zur NAS begrenzt, selbst mit Trunking unter SataII bleibend.


    Ob man das Display braucht: Meine NASse stehen im Keller. ích sehe die Displays daher nur selten. Der Startvorgang lässt sich schrittweise verfolgen, ganz nett anzusehen und liefert möglicherweise bei Problemen einen ersten Hinweis, wo es möglicherweise bereits "klemmt". Meine NASse ohne Display laufen aber auch nicht besser oder schlechter, ich persönlich vermisse es daher nicht.


    GLG GBD

  • Danke für die Infos.
    So, habe jetzt 569l mit 5 Platten bestellt.
    Wegen des Themas "Rebuild ist Stress für Platten" würde ich jetzt mal Raid 6 statt Raid 5+Hotspare fahren.
    Wie seht ihr das?

  • Ich wüsste nicht, wieso ein RAID6-Rebuild mehr oder weniger stressig als ein RAID5-Rebuild sein sollte.
    In beiden Fällen sind ALLE Platten durch den Rebuild gestresst, im Falle des RAID6 noch eine Platte mehr, weil die Redundanz doppelt vorhanden ist.


    Meine grundsätzliche Meinung zu einem RAID6 hatte ich bereis am 16. November in diesem Thread gepostet.


    GLG GBD

  • Generell würde ich schon gerne größere Volumes haben (z.B. für Videobibliothek).
    Meine Überlegung war halt, wenn ich ein Raid 5 + Hotspare fahre, und eine Platte ausfällt, dann habe ich während des Rebuild keine Redundanz mehr. Bei Raid 6 ist noch eine Platte da, auf der die Daten gespeichert sind.
    Anders gefragt: Was würdest Du denn mit 5 Platten machen? Backup sei mal aussen vor. Das mache ich auf einem anderen Rechner.

  • Einzeldisks fahren.
    Gerade Mediadaten können von fast allen Mediaservern (Twonkyserver, Plexserver,...) oder Player-bezogenen Mediacentern (yaDis, Zappiti,...) dort wieder so zusammengefasst werden, dass sie auf dem Endgerät wieder wie eine einzelne grosse Sammlung dargestellt werden.


    Weniger Stress für die Platten, höchste Performance und Stabilität auf der NAS und zum Abspielen eines einzelnen Videofiles oder gar nur .mp3-Files müssen nicht alle Platten immer gleichzeitig laufen, wie das auf einem RAIDverbund unvermeidlich wäre.


    GLG GBD