QNAP stürzt unregelmäßig ab

  • Hallo zusammen,


    ich habe ein Problem mit einem TS-1273U-RP Firmware: QTS 5.1.4.2596

    Die Firmware wurde laut log am 26.12. installiert automatisch gegen 0 Uhr.

    Seit dem stürzt das NAS in unregelmäßigen abständen ab, dass ganze ging los gegen 3Uhr

    und dann mal 3h später 30min später usw.

    Kann es einen Zusammenhang mit der Firmware geben, sind bei der Version aktuell Probleme

    bekannt? Veröffentlicht wurde die ja am 1.12.

    Mir ist jetzt aktuell die weitere Vorgehensweise noch unklar, habe in den Logfiles außer der Bemerkung


    Code
    Warnung	2023-12-27	19:40:53	---	---	localhost	---	Power	NAS Power Status	[Energie] Das System wurde beim letzten Mal nicht richtig heruntergefahren.


    nicht weiter aufgefallen.


    VG Ronny

  • Hab ich schon gemacht. Manuell geladen von der Webseite und hochgeschickt auf NAS. Gleicher Zustand, obwohl es aktuell seit 1:53 läuft so das er auch mal die Raidbereinigung geschafft hat. Okay jetzt loggt er Medium Fehler HDD 6

    Endlich mal ein neuer Log

  • Hallo Obi Wahn,


    konntest du die Probleme auf den HDD-Fehler zurückführen oder bestehen deine Probleme trotzdem weiter?


    Falls kein HDD-Problem:

    Hast du irgendwas mit Java (JDownloader?) als Basis am laufen? Bzw. eine Java-App (QJDK8?) installiert?


    Bei mir (TS-653D, 20GB RAM, Firmware sowohl 4.x als auch 5.x ausprobiert) gab es da auch Probleme, nach spätestens 1 Tag hat sich das System verabschiedet (entweder durch nicht-reagieren bzw. Web-Oberfläche nicht mehr erreichbar obwohl noch per Ping eine Antwort kam oder durch spontanen Neustart).

    Die Logs waren hier auch nicht hilfreich, da hier kein Grund des Neustarts erfasst wurde, nur eine wenig hilfreiche Meldung über "unkontrolliertes Herunterfahren" beim nächsten Start.

    Symptom war u.a. dass sich der verfügbare Speicher regelmäßig auf <2% reduziert hat (Verursacher des Speicherverbrauchs habe ich über den Ressourcenmonitor auch nicht identifizieren können).


    Erste Lösung war: über Nacht ausschalten, morgens einschalten (automatisch, über Energiepläne) + regelmäßig über Qboost den Speicher freiräumen. Auf Dauer aber nicht praktikabel.


    Schließlich kam bei einer Meldung "... nicht genug Speicher ... Java ..." (habe ich auch nur 1x gesehen, da hat sich die Kiste nach einigen Stunden nicht-reagieren anscheinend wieder gefangen).

    Aufgrund dessen JDownloader bzw. QJDK (hier mehrere Versionen ausprobiert) neu installiert - kein Erfolg.



    Aktuelle Lösung (für mein Problem):

    QJDK deinstalliert, JDownloader in einem Docker-Container (über Container-Station, mit Speicher-Begrenzung auf aktuell 1GB) am Laufen. Funktioniert anscheinend bisher ohne weitere Probleme.



    Habe dann noch eine Meldung bei Java in den Release-Notes über einen Memory-Leak gefunden (einfach mal nach JDK-8305517 suchen):


    Mod: Nicht deklariertes Zitat ohne Quellenangabe ... korrigiert! :handbuch::arrow: Forenregeln beachten und Die Zitat Funktion des Forums richtig nutzen

    12 JDK-8305517 core-libs/java.net Memory leak in Java Solaris native code when calling NetworkInterface.getHardwareAddress()

    Keine Ahnung, ob dies nur auf Solaris zutrifft oder genereller Natur ist, könnte aber zumindest die Probleme bei mir erklären.



    Sorry falls meine Antwort technisch nicht qualifiziert genug ist, aber ich bin noch ein NAS-Noob, der sich irgendwie versucht durchzuwurschteln...

  • Dafür hast du das aber schon ganz gut analysiert und ich denke du hast hier ins schwarze getroffen.


    Die Contis laufen bei mir über Wochen mit Java stabil, doch die bringen halt auch ihr eigenes mit.

  • die Fehlerhafte HDD hatte ich getauscht seit dem lief das NAS stabil.

    Seit gestern geht der Spass wieder los, wieder mal schnell das Backuplaufwerk

    startklar gemacht. und bin nun erneut bei der Fehlersuche. Kann doch nicht sein

    das er HD Fehler nicht eher loggen kann erst nach 24h Rebuild vorausgesetzt er schafft es überhaupt.

    Wenn das NAS wieder Crasht beginnt der Spass von vorn.....

  • Kann es auch sein das es am Raid liegt? Mir ist aufgefallen das es nur Abstürze gibt solange das Raid Sync nicht abgeschlossen ist.

    Das NAS hatte jetzt den sync mal erfolgreich abgeschlossen seither läuft es wieder ohne Abstürze und eine fehlerhafte HD hat er aktuell auch nicht mehr gefunden.

  • Hallo Leute,


    Ich hatte offenbar in der Nacht auf Montag (26.02.2024) auch einen Absturz auf Raten bei meinem TVS-672X (FW 5.1.5.2645 build 20240116 vom 2024-01-25).


    Auf Raten darum, weil


    - nach Mitternacht nichts mehr im Log protokolliert wurde

    - das Backup um 02:30 nicht durchgeführt wurde

    - Snapshots nicht mehr durchgeführt wurden

    - irgendwann ab 05:00 auch keine SNMP Abfragen mehr beantwortet wurden

    - als ich um ~19:00 mich verbinden wollte das nicht mehr möglich war und dann auch keine Pings mehr beantwortet wurden (das dürfe bis dahin der Fall gewesen sein)


    Als ich mir das Gerät dann angesehen habe, hat selbst das LCD Display nichts mehr angezeigt.

    Lange auf den Ein-/Ausschaltknopf zu drücken hat das Teil dann abgewürgt (~19:25), ein Neustart hat dann zu einem Raid-Resync (WD Red pro's, ~3 Jahre alt, Raid 6, 1 Hot Spare) geführt, der kurz vor Mitternacht fertig war.

    Eigentlich hatte ich für die Zeit danach einen Filesystemcheck eingetaktet und für die Zeit nach dem Backup ein Raid-Scrubbing um sicherzustellen, dass wieder ein sauberer Zustand vorherrscht.

    Diese Plattenausfallsvorhersage habe ich dann deaktiviert.

    Interessanterweise hat das Teil aber nach dem Raid-Resync einen Raid Rebuild durchgeführt - wodurch der Filesystemcheck nicht ausgeführt wurde.

    Das Backup und neue Snapshots wurden aber erfolgreich angelegt, das Raid-Scrubbing lief um 3.30 ebenso.


    Ich habe dann am Dienstag, als ich dieses Vorgänge festgestellt habe, den Filesystemcheck ohne Probleme nachgezogen, allerdings hat sich das Hot-spare von Slot 6 auf Slot 5 verändert - also irgendetwas ist da schon geschehen.


    Um potentielle FW-Zusammenhänge auszuschließen, habe ich dann auch auf die neue FW (5.1.5.2679 build 20240219 vom 2024-02-26) aktualisiert - Probleme waren keine zu erkennen.

    Alle Disks wurden als OK angezeigt.


    Nachdem mir das Verhalten aber keine Ruhe gelassen hat, in dem Standard-Eventlog aber nichts zu sehen war, habe ich mir einen Export der Logs, den die Helpdesk-App erzeugt angesehen und bin im kmsg bzw dem offenbar vorherigen gezippten kmsg auf etliche interessante Einträge gestoßen:



    Was ich als relevant erachtet habe, waren die Disk failure Einträge. Nachdem in den Exports auch folgende Info steht:


    Code
    /sbin/qcli_storage -d 
    Enclosure  Port  Sys_Name          Type      Size      Alias             Signature   Partitions  Model  
    NAS_HOST   1     /dev/sde          HDD:data  1.82 TB   3.5" SATA HDD 1   QNAP FLEX   5           WDC WD2002FFSX-68PF8N0
    NAS_HOST   2     /dev/sdd          HDD:data  1.82 TB   3.5" SATA HDD 2   QNAP FLEX   5           WDC WD2002FFSX-68PF8N0
    NAS_HOST   3     /dev/sdc          HDD:data  1.82 TB   3.5" SATA HDD 3   QNAP FLEX   5           WDC WD2002FFSX-68PF8N0
    NAS_HOST   4     /dev/sdf          HDD:data  1.82 TB   3.5" SATA HDD 4   QNAP FLEX   5           WDC WD2002FFSX-68PF8N0
    NAS_HOST   5     /dev/sdb          HDD:spare 1.82 TB   3.5" SATA HDD 5   -- FLEX     5           WDC WD2002FFSX-68PF8N0
    NAS_HOST   6     /dev/sda          HDD:data  1.82 TB   3.5" SATA HDD 6   QNAP        5           WDC WD2002FFSX-68PF8N0
    NAS_HOST   7     /dev/nvme0n1      SSD:cache 476.94 GB M.2 PCIe SSD 1    QNAP FLEX   5           Samsung SSD 970 PRO 512GB
    NAS_HOST   8     /dev/nvme1n1      SSD:cache 476.94 GB M.2 PCIe SSD 2    QNAP FLEX   5           Samsung SSD 970 PRO 512GB


    Habe ich Dienstag Abends zuerst das Laufwerk im Slot 5 ersetzt (sdb, also neues Hot-Spare) und im Anschluss das im Slot 6 (sda).

    Raid Rebuild lief gut durch, auch sonst konnte ich bisher keine Fehler feststellen.


    Was mich aber massiv irritiert ist, dass bei einem Ausfall einer Platte doch bitte


    - eine entsprechende Meldung im Eventlog zu finden sein sollte

    - ein Raid 6 mit Hot-Spare zwar temporär degraded sein wird, aber sonst wohl eher unbeeindruckt sein sollte

    - im Anschluss an die ganze Übung bitte doch nicht alle Platten als OK klassifiziert sein sollten

    - folgender Eintrag im kmsg doch schräg aussieht (kam im übrigen mehrfach vor):


    Code
    2024-02-26 02:01:38 +01:00 <0> [2480337.338751] watchdog: BUG: soft lockup - CPU#2 stuck for 23s! [md1_raid6:6585]


    oder sehe ich das falsch?


    Ach ja - die Platte SDB habe ich im Anschluss am PC (USB) mit diskpart :arrow: clean all gelöscht - ohne irgendwelche Probleme.


    Wie seht Ihr das?


    Vielen lieben Dank für eure Meinung!

  • Das können durch den CPU Lock auch Meldungen sein die von einem Software Bug ausgelöst wurden.

    Die HD am PC mal auf SMART Werte prüfen und mit dem WD Tool, sollte hier Klarheit schaffen ob die wirklich ein Problem hat.

    Ist halt ein Software Raid im NAS und wenn die CPU dann Mist macht, kann das als HD Fehler interpretiert werden.


    Da ein CPU Lock mit einem fehlenden Pointer im Programmablauf zusammen hängen kann, ist ein Zusammenhang mit der Firmware Version zu vermuten.

    Aber scheinbar gibt es hier einen Watchdoc der den Prozess dann gekillt hat. Gab auch schon Fälle wo durch so einen Fehler nach und nach alle CPU Cores locked worden sind, dann geht nix mehr.


    Was ja Stunde. später dann auch wirklich bei dir passiert ist, hier half ja nur noch abwürgen.


    Da hier nur wenige diesen Drive Analyser mit KI Basis verwenden, kann er sogar ursächlich sein. Jetzt hast du aber die Firmware Version geändert und ihn abgeschaltet, damit 2 Parameter geändert.

  • Das können durch den CPU Lock auch Meldungen sein die von einem Software Bug ausgelöst wurden.

    Die HD am PC mal auf SMART Werte prüfen und mit dem WD Tool, sollte hier Klarheit schaffen ob die wirklich ein Problem hat.

    Danke für den Hinweis, das werde ich gerne machen...


    Da hier nur wenige diesen Drive Analyser mit KI Basis verwenden, kann er sogar ursächlich sein. Jetzt hast du aber die Firmware Version geändert und ihn abgeschaltet, damit 2 Parameter geändert.


    Ich hätte diesen Drive Analyzer selbst wahrscheinlich gar nicht aktiviert, ich vermute, dass das einfach mit der Verfügbarkeit automatisch geschehen ist.

    Prinzipiell bin ich kein besonderer Fan davon, wenn so Dinger glauben intelligent sein zu müssen - da bin ich doch eher skeptisch.. und gerade bei einem Raid6 + Hotspare sollte genug Redundanz vorhanden sein um den wirklichen Ausfall einer HDD mal für ein wenig zu überstehen.


    Wegen der 2 Parameter - ja, zum Fehler identifizieren war das sicher nicht die schlaueste Vorgangsweise - allerdings muss ich gestehen, dass wenn das Thema jetzt erledigt ist, liegt mir das fast mehr am Herzen... besonders erpicht bin ich auf einen neuen Absturz nicht wirklich... :/

  • Ist doch kostenpflichtig.


    Mag sein, dass ich mich nicht korrekt ausgedrückt habe - das hier war eingeschalten:


    pasted-from-clipboard.png


    Was ja Stunde. später dann auch wirklich bei dir passiert ist, hier half ja nur noch abwürgen.

    Was mir trotz allem noch durch den Kopf geht ist, dass ja auch nach dem Abwürgen, Neustart und zu erwartendem Raid Resync im Anschluss noch ein Raid Rebuild stattgefunden hat, welches scheinbar die existierende Hot-Spare HDD in Anspruch genommen hat - aber nachher noch immer alle Platten auf Status OK waren - UND noch immer eine, wenn auch andere, Hot-Spare vorhanden war...


    Wenn ein Rebuild stattfindet, und keine HDD entfernt wurde, hätte ich mir doch erwartet, dass eine HDD als defekt aufscheint...


    Sehe ich das falsch?

    Einmal editiert, zuletzt von eyetap () aus folgendem Grund: Ein Beitrag von eyetap mit diesem Beitrag zusammengefügt.

  • Nein vollkommen korrekt.

    Schon mal bei allen HDs den Oberflächentest gestartet?

  • Ich habe ja die 2 HDD's die im KMSG mit einem Disk Failure in Verbindung gebracht wurden ausgetauscht - die werde ich wohl extern testen,

    den Badblock-Test der restlichen HDD's habe ich jetzt mal begonnen.. mal sehen wie lange das dauert...


    Weder der Oberflächen-/Badblocktest der im NAS aktiven HDD's, noch der intensive Test des WD Dashboardtools der ausgetauschten HDD's hat auch nur irgendeinen Hinweis auf ein tatsächliches Problem geliefert.

    Ich kann mir das Verhalten nur noch mit einem Firmwarethema im Zusammenhang mit dieser "Vorhersehbaren Migration" erklären...


    Drive_6_SDB_3.JPGDrive_5_SDB_3.JPGDrive_5_SDB.JPGDrive_6_SDB.JPG

    Einmal editiert, zuletzt von eyetap () aus folgendem Grund: Ein Beitrag von eyetap mit diesem Beitrag zusammengefügt.