Der "Intel Clock Bug" - Massensterben bei QNAP mit Intel Prozessoren

[PROLOG]

In den vergangenen Wochen und Monaten werden QNAP User vermehrt von einem Problem heimgesucht, bei dem das NAS aus dem Nichts heraus nicht mehr funktioniert.

Immer häufiger wird dabei auf den "Intel Clock Bug" und die mögliche Reparaturmöglichkeit, welche auf viele Threads verteilt ist, verwiesen.

Ich wollte mich der Sache einmal annehmen und sie genauer beäugen... natürlich nicht ohne meine Erkenntnisse zu teilen und hier zentral bereitzustellen.


[WAS IST DER INTEL CLOCK BUG?]

"Intel Clock Bug" ist eine Abkürzung oder ein Eigenenname, der vermutlich erst in diesem Forum oder in anderen entstanden ist.

Tatsächlich handelt es sich um ein Problem mit dem LPC Bus-Takt (LPC Clock) in einigen Prozessor-Familien mit Silvermont Architektur von Intel.


LPC steht für "Low Pin Count" und ist ein Bus - wie z.B. auch PCIe - in Computersystemen über den einst zum Beispiel PS/2 Eingabegeräte angesprochen wurden.

Heute werden unter anderem das BIOS, aber auch Onboard-Soundkarten sowie RS232- und USB-Schnittstellen über LPC angebunden.

Bei dem beschriebenen prozessorseitigen Fehler fällt dieser Bus einfach aus oder die Signalstärke nimmt derart stark ab, dass daran angeschlossene Geräte nicht mehr angesprochen werden können. Betroffen seien insbesondere Prozessoren welche sich im Langzeitbetrieb befinden, also besonders NAS und Router.


[WAS IST DIE FOLGE DES INTEL CLOCK BUGS?]

Dies ist grundsätzlich abhängig davon, welche Geräte über den LPC Bus angesprochen werden, nicht immer müssen die zuvor genannten Geräte über LPC angesprochen werden.

In unserem Fall von QNAP-NAS ist zunächst die Folge, dass USB-Geräte nicht mehr funktionieren. Da der DOM - welcher für das Booten eines QNAP obligatorisch ist - über USB am LPC angeschlossen ist, ist es nach Ausfall des LPC-Bus' nicht mehr möglich das NAS zu booten. Bei Geräten mit Display bleibt "SYSTEM BOOTING" im Display stehen, bei Geräten ohne Display leuchten sämtliche LEDs auf, nehmen aber nicht den Betriebszustand ein. Auch erscheint auf einem angeschlossenen Monitor keine Ausgabe mehr, sodass die Vermutung nahe liegt, dass noch weitere Geräte als nur der USB/ DOM von dem Ausfall betroffen sind.


[WELCHE CPU UND QNAP SIND BETROFFEN?]

Leider ist das nicht so einfach ausfindig zu machen, denn Intel schleppte diesen Bug über mehrere Prozessorfamilien hinaus mit sich herum, nur leider wurde es scheinbar nicht immer lautstark öffentlich gemacht. Auch verrät QNAP in den technischen Spezifikationen auf der Homepage nicht zu allen Geräten, welcher Prozessor verbaut ist. Daher zunächst ein kurzer geschichtlicher Ausflug zu dem Intel Bug:


Angefangen in 2014 wurden ähnliche Probleme beim Atom E3800 festgestellt, weiter ging es 2017 mit dem Atom C2000, mit dem Synology zu kämpfen hatte.

In 2019 berichtete Intel von Problemen mit der Celeron Apollo Lake-Familie, darunter der J3355, J3455 und J4205.

Nicht allzu laut geworden ist es bislang um die Bay Trail-Familie mit dem Celeron J1900, welcher vielen seit Ende 2020 "um die Ohren fliegt".


In den meisten Fällen konnte das Problem von Intel durch Anpassung des LPC-Takts behoben werden: C2000 seit 04/2017, Bay Trail seit 06/2018, Apollo Lake seit 09/2019.

Nur der Vollständigkeit wegen: Auch Prozessoren mit Airmont Architektur sind betroffen, für die Intel aber keinen Fix herausgebracht hat. Diese Prozessoren kommen bei QNAP scheinbar nicht zum Einsatz.


Folgende betroffene Prozessoren kommen bei QNAP zum Einsatz, besonderes Augenmerk wurde auf die x51 und x53 Serie gelegt, da diese stark betroffen sind:

Diese Liste ist aufgrund der Gerätevielzahl nicht vollständig, auch ist nicht auszumachen, ob/ ab wann eventuell bereits gefixte Prozessoren verwendet wurden.



[WAS KANN MAN TUN, WENN MAN BETROFFEN IST?]

So lange es keine Probleme mit dem Gerät gibt, kann bzw. sollte zunächst nichts unternommen werden um Problemen vorzubeugen.

Sollten Probleme beim Booten auftreten kann generell eine Reparatur bei QNAP erfolgen, sofern das Gerät diesbezüglich noch nicht EOL ist.

Für EOL Geräte oder denjenigen, denen eine Reparatur bei QNAP zu aufwändig und teuer ist, gibt es einen Workaround zum selberbasteln:

(Den Workaround habe nicht ich erfunden)


Voraussetzung für den Workaround ist, dass der LPC Bus (über Kontakte) aus dem Mainboard des QNAP herausgeführt wird.

Dies geschieht in der Regel über 10 Pins mit der Bezeichnung "LPC_CN1", leider ist dies nicht bei allen Modellen, so z.B. beim TS-453mini, der Fall.

Ist dieser Connector vorhanden, kann zwischen die Pins 1 und 8 (LPC_clock und Masse) ein 100 Ohm Widerstand gesetzt werden.

Ich bevorzuge es hier die Stecker aus einem PC Gehäuse zu nehmen (die mit denen Resettaster, Powertaster, etc. am Mainboard angeschlossen sind) und den Widerstand somit steckbar zu machen.

Natürlich kann der Widerstand auch direkt an die Kontakte gelötet werden.


In meinem ersten Versuch an einer TS-451 sah das so aus (wenn es nicht nur ein Test wäre, hätte ich das schöner gemacht ;)

pasted-from-clipboard.png

Hierzu ein Edit: Auf dem Bild sieht es so aus, als wäre Pin 2 (oben links) verwendet worden. Das ist nicht der Fall! Es wurde korrekterweise Pin 1 verwendet, was hoffentlich auf nachfolgendem Bild deutlicher wird.

pasted-from-clipboard.png

Sorry für die Verwirrung, die Fotos hatte ich einst nur für mich gemacht.


Was genau hierbei passiert kann ich leider nicht sagen, denn ich habe den LPC Bus nicht studiert.

Fest steht für die Bay Trail und Apollo Lake Familie allerdings, dass das Problem nur dann auftritt, wenn der LPC Bus konstruktionsbedingt mit High-Signalen außerhalb (vermutlich oberhalb) von 1,8V (die Range ist 1,71V bis 3,6V) arbeitet.

Ich vermute dass die High-Signalspannung durch den Widerstand auf das "unkritische" Niveau von ~1,8V herabgesetzt wird, sodass die Funktion wiederhergestellt ist.


Im englischen Forum kursiert auch das Gerücht, dass unter Umständen andere Widerstandswerte im Bereich von 80-350 Ohm erforderlich sein könnten, was logisch klingt um die Signalspannung dem Einzelfall entsprechend anpassen zu können.

In den meisten Fällen scheint aber der 100 Ohm Widerstand die erste Wahl zu sein. Sollte man damit keinen Erfolg haben könnte ein anderer Widerstand Abhilfe schaffen. Im englischen Forum (siehe unten) ist auch beschrieben, wie man überhaupt ausfindig macht, ob man von dem Bug betroffen ist.


"Langzeiterfahrungen" mit dem Workaround (nicht nur an QNAP NAS) zeigen, dass die Geräte damit noch einige weitere Jahre ihre Arbeit verrichten, es kommt dennoch vor dass die Geräte nach einigen Monaten ihren Dienst verweigern. Es sollte daher nur als temporäre Lösung betrachtet werden.


Quellen (an die ich mich erinnere :) )

- diverse Errata/ Korrekturverzeichnisse von Intel

- engl. Forum

https://forum.qnap.com/viewtop…=135089&start=150#p767546

https://forum.qnap.com/viewtopic.php?t=157459

Auch lassen sich hier im Forum viele Threads finden, auch mit weiteren Bildern und weiterführenden Links. Suchworte können sein "Intel Bug" "Clock Bug", "LPC_CN1" "100 Ohm". Hier eine kleine Auswahl:

QNAP TS-853 Pro startet nicht mehr

QNAP TS 453Be macht gar nix mehr

NAS defekt nach FW-Update

QNAP TS-451+ startet nach ca. 70 s automatisch einen reboot

Gehäufte Fehler bei QNAP TS-*Be Geräten?

NAS startet nicht mehr



Ach Mensch... für mich fängt heute schon das Wochenende an, geil!

Ich werde mir noch etwas Zeit lassen, sage aber trotzdem schonmal "cheers!" :beer:

Kommentare 7

  • Nachtrag:

    Das TS 251C verfügt ebenfalls nicht über einen herausgeführten LPC.

    In nachfolgenden Threads ist eine Möglichkeit beschrieben, wie man den Widerstand dennoch einsetzen kann, auch wenn sich das als sehr schwierig erweist:

    TS-251C - 100Ohm ?

    https://forum.qnap.com/viewtop…t=157459&start=45#p786234 (Login erforderlich um das Bild zu sehen)


    Danke an miriiii für die Info!

  • Hmmm, meine x51 haben allerdings eine J1800 CPU... es scheint nicht so ganz klar zu sein, ob die das Problem auch hat.

    • Dazu muss ich einmal revidieren, was ich aufgelistet habe:

      Die TS-x51 Serie verfügt über den J1800, nicht über den J1900, ist aber ebenfalls betroffen.

  • Prima Artikel, vielen Dank!

    Einige der aufgeführten Modelle werden ja aktuell immer noch angeboten. Weiß Du, ob der Bug auch in den aktuell verkauften Geräten auftreten kann, oder ob QNAP das Design entsprechend angepasst hat?


    Markus

    • Moin,


      nein, wie schon geschrieben ist mir darüber nichts bekannt, auch nachträglich nicht. Seitens QNAP gab es nie eine offizielle Stellungnahme dazu und demnach auch keine Info ob/ ab wann gefixte CPU zum Einsatz gekommen sind.

      Wenn QNAP sich nicht einen 3 Jahres-Vorrat an betroffenen CPU hingelegt hat, sollten aktuelle/ neue Modelle eigentlich von dem Problem verschont bleiben... Das kann aber nur QNAP wissen...

  • Super, vielen Dank für den Artikel, auch wenn ich genau sowas echt nicht lesen möchte !

    Bis dato, toi toi toi, läuft mein 251+ sauber und wäre ich nicht durch Zufall auf diesen Artikel gestossen, wäre das Thema wohl sang- und klanglos an mir vorbei gewandert.


    Zumindest weiss ich jetzt wie ich mir helfen kann, WENN sowas bei meinem NAS passiert.


    Danke für die Info nochmals !

    Martin

  • Vielen, vielen Dank.

    Du hast mir den Tag gerettet. Ich hatte exakt das Problem und bin durch Zufall auf deinen Beitrag gestoßen. Habe einen 100Ohm-Widerstand auf der Lötseite aufgelötet und nun läuft die Kiste wieder.


    Mit freundlichen Grüßen


    Jan