Ständige Fehler mit scheinbar wechselnder Quelle

  • Hallo zusammen,


    mich quält seit einigen Tage meine neue TS 873A.

    Ich habe die Platten (relative neue 8TB Platten - Seagate ST8000VN004-2M2101) aus der alten TS 431P migriert. Das hat auch super geklappt.


    Einen Tag später kamen dann die 1TB WB Black SN850 NVMe, ein 32GB Memory Module von Kingston (KCP432SD8/32 - KEIN ECC) sowie eine GTX1050 GraKa an.


    Eingebaut, funktioniert alles.
    Über Nacht (Plex läuft und machte diverse Aufgaben) ist dann das Volume in den Schreibschutz gegangen (ist ein Raid5 Volume über alle Platten) und die NVMe zeigte Fehler im Datenzugriffsverlauf. Neu gestartet, alles wieder da, Dateisystemprüfung... lief.


    Einen Tag später wieder Fehler auf der NVMe. Zugriff auf die NAS kaum noch möglich. Runtergefahren, NVMe ausgebaut und wieder neu gestartet. Alles läuft, Raid wird synchronisiert.

    Gerade eben schon wieder Fehler im Volume, Schreibschutz. Runter gefahren, alles wieder da und Sync beginnt.

    Also meine Vermutung: Es liegt nicht an der NVMe und nicht an den Platten.

    Wie sehen das erfahrene Nutzer? Könnte es ein Problem des Arbeitsspeichers sein? Könnte der 8GB Transent, der mit geliefert wurde, eventuell im Zusammenspiel mit dem Kingston Fehler verursachen? Oder der 32GB dann doch irgendwie nicht mit der NAS zusammen funktionieren? Danke für Eure Einschätzung.

    Einmal editiert, zuletzt von h.kremers ()

  • Da hilft zunächst nur eines:

    Urzustand herstellen (nur den original RAM verwenden, GraKa und NVMe raus) und beobachten.

    Wenn alles ok ist, nur eines wieder einbuen und wieder beobachten.

    Solange bis der Fehler repoduzierbar ist. Und dann kann es auch noch ein Zusammenspiel der diversen Komponenten sein.


    Gruss

  • Hallo h.kremers,


    ich hatte mit meiner nagelneuen TS-673A ähnliche Probleme. Letztlich stellte sich heraus, dass tatsächlich eines der verbauten 16GB Ram-Module einen Fehler hat - dummerweise erst bei knapp über 14GB!

    Ergebnis:

    Die NAS liess sich sauber installieren und starten, lief vermeintlich auch, aber über Nacht war immer "irgendwas" nicht mehr in Ordnung. Mal liess sich die Containerstation nicht mehr starten, mal wurden NVMe-Fehler gemeldet, mal startete sich eine VM über Nacht neu, etc.


    Am Ende hab ich schlicht folgendes gemacht:

    - NAS runterfahren und ALLE Laufwerke raus (auch die NVMe)

    - Nur 1 RAM Modul in die NAS

    - Grafikkarte rein

    - USB-Stick mit Memtest86 an die NAS

    - Tastatur an die NAS


    Direkt nach dem einschalten ins BIOS (einfach direkt nach dem Einschalten so lange ENTF drücken bis man drin ist) und per boot-override vom Stick gebootet, Memtest laufen lassen.

    Wenn das Ram in Ordnung ist, NAS ausschalten, nächstes Modul rein und wieder testen. Sollten alle Module "einzeln" funktionieren kannst Du dann kombinieren und zusammen testen.

    Wichtig: Memtest so lange laufen lassen, bis die Meldung erscheint, dass die gesamte Testphase ohne Fehler durchgelaufen ist! Je nach Fehler im RAM zeigen sich Probleme nur bei ganz bestimmten Testszenarien. Du solltest im Bios für den Test auch manuell die Lüftergeschwindigkeit hochdrehen, da ohne laufendes QTS sonst die Lüfter nur sehr langsam drehen und es in der NAS dann beim Test mächtig heiss wird...

    Bei mir war wie gesagt eins der 16GB Module hinüber. Seit das nicht mehr in der NAS steckt, läuft diese einwandfrei - Ersatzmodul kam heute als Vorabaustausch (danke an speicher.de :) )


    Ach ja, ganz wichtig: ALLE 5er Versionen (bis auf die letzte) verursachen massive Probleme wenn Du NVMe-Laufwerke als SSD-Cache einsetzt. Sollte das so sein, dringend auf die 5.0.0.1891 updaten - alles andere ist Datan-Harakiri - in dem Fall (5er die nicht 1891 ist) soll man lt. QNAP auch auf garkeinen Fall einen Filesystem-Check durchführen da dies mehr oder weniger sicher zu datenverlust führt!

    3 Mal editiert, zuletzt von Laurenzis ()

  • Danke für eure Tipps.

    Habe jetzt erstmal den 32GB Riegel rausgeschmissen und die Sync des Raids abgewartet. Die Nacht scheint schon mal gut überstanden, mal sehen was er jetzt macht. Dann werde ich mal einen MemTest laufen lassen.

  • Ok, dachte der 32er RAM wäre der schuldige, also erstmal rausgelassen. Heute Nacht ist die NAS aber komplett ausgestiegen, war heute morgen nicht mehr erreichbar. Runtergefahren über Powerbutton, nach dem Neustart wieder Resync gestartet, keinerlei Einträge aus der Nacht im Qlog, die auf irgendein Problem hinweisen.

    Irgendwie war die alte TS 431P zuverlässiger :(


    Update: Jetzt lässt sich die NAS nicht mal mehr über das Dashboard neu starten... bleibt beim runterfahren der Services hängen **kotz**

    Einmal editiert, zuletzt von h.kremers ()

  • Wie schon geschrieben, ich würde an Deiner Stelle zu allererst die Ramriegel testen. Niemand kann Dir per Ferndiagnose sagen, ob nicht evtl. das originale Ram nen Problem hat... ist zwar selten aber nicht unmöglich.

  • So, nachdem die NAS heute Nacht nach dem ReSync erneut komplett ohne erkennbaren Grund abgeschmiert ist, habe ich dann mal MemTest durchlaufen lassen. Erst den originalen 8GB Riegel (der alleine drin war), volles Testprogramm 4mal, Fehler 0

    Dann auch nochmal den 32GB zur Sicherheit, Volles Programm 1mal, Fehler 0.


    Also an den RAMs wird es wohl nicht liegen.:/

    Gibt es noch einen anderen Vorschlag? Ich überlege das Ding komplett platt zu machen, neu aufzusetzen und Backup wieder einzuspielen. Denke zwar nicht das das was bringen wird, aber vermutlich wird der Support genau das verlangen, wenn ich den jetzt kontaktiere.

    UPDATE: Ok, jetzt bin ich mal gespannt. Bei meiner Fehlersuche bin ich nochmal alles durchgegangen. Und habe versucht den Lüfter der GraKa zu bewegen, da mir angezeigt wurde dass er sich mit mittlerer Geschwindigkeit dreht... aber er drehte sich nicht. Und siehe da: Der Kabelbinder des darunter liegenden Kabelbaums stoppt den Lüfter. Also GraKa raus, Kabelbaum etwas anpassen, leicht verlegen und Kabelbinder drehen.

    Nun dreht sich auch der Ventilator. Auch wenn ich nicht dran glaube, da es faktisch ohne Stream keine Last auf der GraKa gibt, könnte das eventuell ein Grund sein. Mal sehen. Auf jeden Fall mal die NVMe wieder reingeschmissen und im Raid 1 als SSD Cache eingebunden.

    Mal sehen was die nächste Nacht so bringt...

    Einmal editiert, zuletzt von h.kremers () aus folgendem Grund: Update

  • Ok, kurzes Update....


    Es hilft alles nix. Irgendwann - scheinbar wenn ein wenig Last auf das Dateisystem kommt weil z.B. Plex was analysiert oder AI Core was scannt - fliegt das System aus der Kurve. Egal ob mit oder ohne GraKa, mit oder ohne NVMe, mit Original RAM, zusätzlicher RAM oder beide zusammen... irgendwann bleibt das Ding hängen, eine Platte fährt runter. Mal die eine, mal die andere. Wenn die SSD mit im System hängen und irgendwas machen gibt es Lesefehler.

    Falls noch jemand ne pfiffige Idee hat: Mir gehen sie aus. Werde wohl das ganze System zurück setzen, die Platten mal leer machen und komplett neu aufbauen aus Backup der Daten.