TS-453A nach Reboot langsamer Zugriff auf Speicher/Volume

  • Guten Morgen :cup:


    vielleicht hat die Schwarmintelligenz ja einen Tip für mich was man tun kann.


    Mein TS-453a (8 Jahre ohne Probleme im Einsatz, 4x4 TB im Raid5, qts 5.1.5 20240219, Backups für die wichtigsten Dinge gibt's....) fuhr nach wöchentlichen Reboot nicht mehr hoch ("System Booting >>>>>" für 10 Stunden), hatte es selten schon Mal. Hartes Runterfahren ("Power Off" Knopf) hilft dann.


    Seit Dienstag braucht es aber über 3 Stunden um hochzufahren und ist über SSH und Web sehr sehr langsam, eher nicht zu gebrauchen


    Die Weboberfläche hat Reaktionszeiten bei Apps im Minutenbereich,

    "Speicher&Volumes" geht gar nicht auf, nur ein Bruchteil der Dienste wird hochgefahren.


    Über Tastatur/Bildschirm (Login Aufforderung nach Alt+F2 brauchte 10 min) bin ich auf der Suche nach Hinweisen mal über ein paar Protokolle gerutscht:


    Code
    dmesg:
    Segmentation fault
    Code
    /mnt/hda_root/kmsg:
    Error 4 in lubiLinux_hal.so

    "top":

    Zeigt mir 95-98% bei I/O.


    Ich tippe auf irgendwas mit dem Speicherpool, kann mir bei vielem mitm Qnap helfen, aber da hört das Latein halt auf.


    Hat jemand ne Idee was da los ist, oder auch welche Logs jetzt helfen? Jemand ne Lösungsidee?


    Danke, habt einen schönen Sonntag,

    B.

  • "Segmentation fault" hört sich für mich nach defektem Speicher an (RAM).

    Evtl. mit einem Linux Boot Stick starten und einen Memtest ausführen.


    Möglich, aber unwahrscheinlicher, halte ich Plattenfehler. Kann man aber auch einfach testen: das NAS herunterfahren (hart ausschalten ist meist keine gute Idee), alle Platten ziehen, einschalten. Startet es problemlos bis in den Einrichtungsassistenten würde ich mit irgendeiner alten Platte das NAS neu einrichten und schauen, wie es sich verhält.

    Läuft es damit problemlos, dann ist es wohl doch ein Thema der HDDs, dann einfach neu aufsetzen, Daten aus dem Backup holen, fertig.


    Gruss

  • Vielen Dank,


    auf den RAM hab ich noch kein Auge geworfen, aber dann fang ich damit mal an. Wenn es nur der RAM wäre das super, bin eigentlich super zufrieden.


    Ja hart runterfahren ist suboptimal....


    Ich berichte.

  • Wie sehen die Verzeichnisse / und /tmp aus? Mal mittels df abfragen.


    Mein TVS-882 hatte gerade gestern plötzlich gesprochen und am Display Pool Fehler gemeldet. Alle Platten des RAID mit 6 x 16 TB wurden im Speichermanager rot gezeigt, genauso die Statu-LED war rot. Allerdings gab der Resourcen Manager schon den Hinweis auf die beiden genannten Verzeichnisse. Und tatsächlich war /tmp 100 % voll. Hab mal da großzügig gelöscht und alles lief wieder.


    Könnte doch aufgrund des harten Herunterfahren etwas hängen geblieben sein?

    Einmal editiert, zuletzt von duke-f ()

  • super, danke, auch ne idee.... gerade ists mal wieder stehen geblieben.... ich probier die 2 dinge mal aus über den tag.
    werde berichten.


    Also der RAM wars erstmal nicht.... Memtest86+ ging in 20 min mit Pass durch.....


    Jetzt mal ans /tmp

  • Evtl. auch mal auf die letzte stabile QTS 5.1.6.2722 aktualisieren. Die letzte 5.1.5 war nicht sonderlich stabil.

  • So, es ist mal wieder hochgefahren... Hat ne Weile gedauert.....


    df Bringt das was im ersten Bild kommt: sieht für mich erstmal gut aus.

    IMG_20240512_180317.jpg


    - /tmp ist fast leer 1%

    - None ist bei 75% - eigentlich auch ok, oder?

    - was mich wundert: snaps sind nur 1-4 abgebildet, es gibt aber deutlich mehr....

    lvs

    Dauert ewig (30 min+) bis ein Ergebnis kommt, aber bringt dann 28 Stück, s. Foto.

    IMG_20240512_184033.jpg


    free -m Bringt auch ein Bild was ok ist...

    IMG_20240512_184259.jpg

    So.... Und nun? Auf den ersten Blick irgendwie alles ok, aber Ausführungen brauchen unbeschreiblich lange


    Auch IO bei 75% dauerhaft ist komisch...

    IMG_20240512_184431.jpg


    Ein FW Update bei den jetzigen Umständen ist mir irgendwie zu gewagt, würdet ihr das tun?

    dmesg

    IMG_20240512_184640.jpg


    kmsg | tail -n 20

    IMG_20240512_185117.jpg


    Bin für jeden Tip / Tooltip dankbar....


    Kann man den Raid-Pool und/oder HDD per Konsole überprüfen lassen?

  • Wie sieht es ohne Platten bzw. mit einer alten HDD aus? Läuft es dann?


    Gruss

  • Hatte es Mal ohne Platten, lief einfach hoch, war erreichbar.


    Hab gestern Abend Mal das FW Update angestoßen und werde Mal nach Ersatzplatten Ausschau halten. Hab Platte 3 in Verdacht, da die schon seit einem halben Jahr einen einfachen smart Fehler bringt


    Werde berichten.

  • Kurzer Zwischenstand:

    - FW Update lief sauber durch

    - Reset durchgeführt (QNAP Support)

    - QNAP Support sagt Raid5 Sync ordentlich durchführen, dann Platte tauschen ( Sync läuft gerade mit 600K/s, whrl 4 Monate ;) )


    Die neue Platte schlummert neben dran und wartet auf den Einsatz....

  • So, um das Thema abzuschließen.

    Es war nicht mehr und nicht weniger als eine Defekte Platte....... Die ganze Geschichte:

    Nachdem ich ein Ticket bei qnap aufgemacht hatte, ging die Suche auch bei denen los. Ich führte ein paar Befehle aus, schickte die Screenshots rüber.

    Die Synchronisierung des raid5 wurde immer langsamer, die 600k/s waren noch der Spitzenwert, am Ende waren wir bei 200k/s. Habe das System zwischen zeitlich auch Mal zurückgesetzt, fand ich am Anfang extrem doof, weil alle Settings weg gewesen sind.

    Nachdem sich der Support per Remote dann mal draufgeschalten hatte, bekam ich als Antwort, dass die Platte 2 defekt ist.

    War so genervt (nicht vom Support, vom Zustand), dass ich während der BadBlock für Platte 2 bei 0,5% rumkruschtelte dann im HotSwap die Platte ausgetauscht habe und dann gings ab.

    - Synchronisierung mit Neustart ging mit 100MB/s los

    - BadBlock Scan Platte 1+3 keine Fehler, leicht erhöhte SMART Werte für 197/198 (die bei Platte 3 vorher auch schon da waren)


    Einmal in 2 Abenden alles wieder eingerichtet:

    - Benutzer und Gruppen

    - Freigabeordner analog vorher

    - Dienste und Apps

    - Container Station und alle Container


    Summa Summarum: Back online, und alles einmal sauber dokumentiert.

    Zwar nervig aber mach 8 Jahren Spiel und Spaß auch Mal ganz gut.

    Kein Datenverlust.


    Vielen Dank hier ans Forum für die ganzen Ideen.


    PS: Achja warum das Platte 2 war: keine Ahnung, auch auf Nachfrage hin: die Ableitung der Gesamtumstände.....