System hängt nach Reboot / GUI & SSH nicht erreichbar

  • Hallöchen,


    ich habe seit einiger Zeit ein recht merkwürdiges Problem, das dazu führt, dass mein System (TS-673A 32GB / QTS 5.1.5.2679) nach dem Reboot zu 99% unerreichbar ist. Der Qfinder findet es noch, man kann auch einen Reboot initiieren, aber sonst geht praktisch nichts mehr. Nichtmal SSH. Wobei das System durchaus aktiv ist, zumindest von den Festplatten klingt es "normal". Aber das WebGUI und alle anderen Zugriffsmethoden sind nicht benutzbar und offenbar total ausgelastet. Ich vermute, dass es mit der ContainerStation zusammenhängt. Ich hatte den Verdacht, das es mit dem Jellyfin Container zusammenhängt, der möglicherweise zuviele Resourcen verbraucht oder das System irgendwie beim Hochfahren blockiert. Ich habe den mal vor einiger Zeit eingerichtet (ohne System Reboots), das war aber auch eine der letzten größeren Änderungen. Ich habe das automatische Container neustarten nun erstmal deaktiviert, konnte aber im Zusammenhang auch keine besonderen Fehler entdecken. Es laufen auch noch 3 VMs ( PiHole, Homeassistant und ein Dokuwiki) , die haben aber eigentlich nie Probleme gemacht. Ich habe jetzt auch mal die VirtualizationStation geupdatet auf 4.x, glaube aber nicht , dass es damit einen Zusammenhang gibt,l


    Die Lösung, um überhaupt wieder an das System heranzukommen war der "3 sec Reset". Allerdings frage ich mich, was die Netzwerkkonfiguration damit zu tun hatte, da es ja im Prinzip erreichbar war. Nur offensichtlich ausgelastet.

    Ich wollte mal die Protokolle aus dem Helpdesk herunterladen, das funktioniert aber irgendwie auch nicht. Es werden zwar welche erstellt, aber "herunterladen" lädt nichts herunter. Bin aber derzeit auch nicht angemeldet. Ich erinnere mich, dass man dann immer direkt ein Zip Archiv mit den Logs bekam.


    Jedenfalls ist das Reboot hängen ziemlich blöd und gerade da möchte man ja sicher sein, dass das klappt. Vor allem, wenn man nichtmal per SSH auf das System kommt. Ich wüsste schon gerne, wo ich vielleicht noch nach der Ursache suchen kann. Das System hat eigentlich keine besonderen Auffälligkeiten und läuft normal.

  • Ich vermute, dass es mit der ContainerStation zusammenhängt.

    Kommt mir bekannt vor. :D


    Bei mir war das Symptom etwas anders. Nach dem Reboot war alles ok, aber nach spätestens einem Tag wurde alles zäh bzw. eben die Oberfläche war kaum noch erreichbar.


    Ich hab eine 10G-Karte drin und die beiden 2.5-Ports hatte ich als Balance-alb gekoppelt. Da dran hing ein vSwitch und der wiederum hat das ganze LAN an einen Pihole-Container weitergegeben. Also Pihole hat eine externe LAN-IP. Wegen ggf. DHCP-Server.


    Diese Kontruktion hab ich jetzt dahingehend aufgelöst, daß nur ein NIC dediziert das LAN an Pihole weitergibt.

    Der andere NIC hat eine andere IP im LAN. Die 10G sowieso. Und 10G hat das Default-GW.

  • Kommt mir bekannt vor. :D

    Interessant ... wobei bei mir ja eigentlich gar nicht so viel Netzwerkverkehr anfällt. Ich nutze derzeit allerdings nur einen Port für alles. Von daher ist das ja eigentlich von der Konfiguration her eher unkompliziert. Vielleicht sollte ich den zweiten dediziert für die ganzen Containersachen / VM Sachen verwenden. Das bringt vom Durchsatz her nichts, weil hinterher sowieso alles auf 1 GBe landet. Zumindest ist es sehr interessant, dass noch jemand ein ähnliches Problem berichtet. Ich wundere mich nur, weil ich das eigentlich nicht wirklich mti einer Konfigurationsänderung in Verbindung bringen kann. Allerdings hatte ich den Jellyfin Container dieses Jahr geupdatet, und das ist möglicherweise der Ausgangspunkt.


    Kann auch an der QTS Version liegen

    Hmm, ich dachte eigentlich, die jetzt aktuelle hätte mehr Probleme gehabt, deswegen habe ich da bisher nicht upgedatet. Mir sind auch eigentlich ( bis auf dieses spezielle Problem) bisher keine bösen Macken aufgefallen. Ich habe die Erfahrungsberichte zwar immer verfolgt und fand dann, dass keine wesentlichen Verbesserungen in irgendeinem Bereich der mich betrifft zu erwarten waren. Deswegen habe ich das auf meinem Hauptsystem so gelassen wie es ist.

    Einmal editiert, zuletzt von nasferatu () aus folgendem Grund: Ein Beitrag von nasferatu mit diesem Beitrag zusammengefügt.

  • Muss ich mir nochmal durchlesen ... vielleicht war das nachdem ich mich entschlossen hatte zu updaten. Oder es waren Punkte, die für mich erstmal so nicht relevant erschienen.

  • Soweit ich mich erinnere war am Anfang auch alles gut, die Fehler traten aber nach einiger Betriebszeit auf.

  • Oder es waren Punkte, die für mich erstmal so nicht relevant erschienen.

    Ich hab die 5.1.8.2823 drauf (Hero) und mein Problem war definitiv nicht die Version oder eine andere vorher, sondern meine NIC-Konfig.

  • sondern meine NIC-Konfig.

    Was zumindest dafür spricht, dass die ContainerStation hier mit ein Problem haben könnte ... ich musste den Reset auch zweimal durchführen, denn beim ersten mal ( glaube ich zumindest ) habe ich die Containerstation gestartet, und danach war das System wieder dicht. Aber wie gesagt, vielleicht ist die Idee mit den separierten NICs gar nicht schlecht.

  • Aber wie gesagt, vielleicht ist die Idee mit den separierten NICs gar nicht schlecht.

    Elegant ist das vermutlich nicht. :rolleyes: Ich hatt bisher nicht den Nerv, das schöner hinzukriegen, wichtig war erst mal, daß es überhaupt läuft. :P Und außerdem hatte ich es für möglich gehalten, daß die Kiste 'n Schlag weg hat. Nun läuft's eine Woche ohne Unterbrechung, also ist HW-mäßig wohl alles ok. :)

  • Elegant ist das vermutlich nicht

    Würde ich gar nicht unbedingt sagen. Dienste logisch und physisch zu separieren macht die Fehlersuche eigentlich immer einfacher.

  • Ich hab eine 10G-Karte drin und die beiden 2.5-Ports hatte ich als Balance-alb gekoppelt.

    Ich hatte mal Port-Aggregation von zwei 10GbE-Ports gemacht. Es gab relativ schnell Probleme, weswegen ich die Aggregation wieder aufgelöst habe, und dann ging es. Alle Port-Aggregationen etc. sind lange nicht so gut getestet wie die Verbindung über ein einzelnes Kabel und von Firmen-Umgebungen abgesehen bringen sie keinen Geschwindigkeitsgewinn.


    Andere mögliche Ursache: Ich hatte einmal den Fall, dass die Root-Partition, welche in der Ramdisk liegt, vollgelaufen war. Das könnte eventuell durch einen Container oder eine App geschehen sein. Danach lief auch nicht mehr viel. Falls in dem Zustand ssh doch noch geht, dann gib mal

    Code
    df -h /

    ein, ob da noch Platz ist. Wenn nötig, kann man die Partition vergrößern, hilft aber nur, wenn man es macht, bevor Root vollläuft.

  • ist gut so...


    Aber es geht um den Zustand wenn das Problem da ist, nicht nach dem Reboot oder so...

    Einmal editiert, zuletzt von tiermutter () aus folgendem Grund: Ein Beitrag von tiermutter mit diesem Beitrag zusammengefügt.

  • Die Scherbe läuft jetzt 'ne gute Woche... Lediglich der 10G-Port sei hier und da mal "disconnected", wird behauptet. Aber das muß extrem kurz sein oder eine Falschmeldung. Kann sonst nämlich nix feststellen, daß etwas merklich unterbrochen wäre. :/

    Einmal editiert, zuletzt von fafner ()

  • 84% used...

    Unkritisch. Qnap geizt mit dem Platz, deswegen ist die Partition immer recht voll. Bei 99% oder 100% (hatte ich schon mal) ist dann mit Ausfällen im System zu rechnen.


    Aber wie tiermutter schon sagt: Interessant ist der Wert dann, wenn die Fehlfunktionen auftreten.

  • Interessant ist der Wert dann, wenn die Fehlfunktionen auftreten.

    Aktuell ist die Fehlfunktion: das Gerät hat sich komplett aus dem Netz gebeamt. Nach 8 Tagen Laufzeit. Schade. :(
    Ob es ganz aus ist oder "nur" der Netzwerkteil, kann ich erst später sagen, bin grad nur Remote da. QFinder sieht jedenfalls nix.

    Edit:

    Wenn nötig, kann man die Partition vergrößern, hilft aber nur, wenn man es macht, bevor Root vollläuft.

    Und wie? Ich hab ja 40GB RAM, kann ich da nicht "vorsorglich" mal mehr einstellen?


    Update: jetzt sieht es QFinder wieder, aber ich komme über keine der drei IP-Adressen drauf... Ping geht gelegentlich mal, meist nicht. SSH bisher auch nicht.


    Noch'n Update: jetzt geht SSH mal wieder:
    pasted-from-clipboard.png

    Web geht nicht. Also nicht wirklich. "Loading..."

    3 Mal editiert, zuletzt von fafner ()