Der "Intel Clock Bug" - Massensterben bei QNAP mit Intel Prozessoren

[PROLOG]

In den vergangenen Wochen und Monaten werden QNAP User vermehrt von einem Problem heimgesucht, bei dem das NAS aus dem Nichts heraus nicht mehr funktioniert.

Immer häufiger wird dabei auf den "Intel Clock Bug" und die mögliche Reparaturmöglichkeit, welche auf viele Threads verteilt ist, verwiesen.

Ich wollte mich der Sache einmal annehmen und sie genauer beäugen... natürlich nicht ohne meine Erkenntnisse zu teilen und hier zentral bereitzustellen.


[WAS IST DER INTEL CLOCK BUG?]

"Intel Clock Bug" ist eine Abkürzung oder ein Eigenenname, der vermutlich erst in diesem Forum oder in anderen entstanden ist.

Tatsächlich handelt es sich um ein Problem mit dem LPC Bus-Takt (LPC Clock) in einigen Prozessor-Familien mit Silvermont Architektur von Intel.


LPC steht für "Low Pin Count" und ist ein Bus - wie z.B. auch PCIe - in Computersystemen über den einst zum Beispiel PS/2 Eingabegeräte angesprochen wurden.

Heute werden unter anderem das BIOS, aber auch Onboard-Soundkarten sowie RS232- und USB-Schnittstellen über LPC angebunden.

Bei dem beschriebenen prozessorseitigen Fehler fällt dieser Bus einfach aus oder die Signalstärke nimmt derart stark ab, dass daran angeschlossene Geräte nicht mehr angesprochen werden können. Betroffen seien insbesondere Prozessoren welche sich im Langzeitbetrieb befinden, also besonders NAS und Router.


[WAS IST DIE FOLGE DES INTEL CLOCK BUGS?]

Dies ist grundsätzlich abhängig davon, welche Geräte über den LPC Bus angesprochen werden, nicht immer müssen die zuvor genannten Geräte über LPC angesprochen werden.

In unserem Fall von QNAP-NAS ist zunächst die Folge, dass USB-Geräte nicht mehr funktionieren. Da der DOM - welcher für das Booten eines QNAP obligatorisch ist - über USB am LPC angeschlossen ist, ist es nach Ausfall des LPC-Bus' nicht mehr möglich das NAS zu booten. Bei Geräten mit Display bleibt "SYSTEM BOOTING" im Display stehen, bei Geräten ohne Display leuchten sämtliche LEDs auf, nehmen aber nicht den Betriebszustand ein. Auch erscheint auf einem angeschlossenen Monitor keine Ausgabe mehr, sodass die Vermutung nahe liegt, dass noch weitere Geräte als nur der USB/ DOM von dem Ausfall betroffen sind.


[WELCHE CPU UND QNAP SIND BETROFFEN?]

Leider ist das nicht so einfach ausfindig zu machen, denn Intel schleppte diesen Bug über mehrere Prozessorfamilien hinaus mit sich herum, nur leider wurde es scheinbar nicht immer lautstark öffentlich gemacht. Auch verrät QNAP in den technischen Spezifikationen auf der Homepage nicht zu allen Geräten, welcher Prozessor verbaut ist. Daher zunächst ein kurzer geschichtlicher Ausflug zu dem Intel Bug:


Angefangen in 2014 wurden ähnliche Probleme beim Atom E3800 festgestellt, weiter ging es 2017 mit dem Atom C2000, mit dem Synology zu kämpfen hatte.

In 2019 berichtete Intel von Problemen mit der Celeron Apollo Lake-Familie, darunter der J3355, J3455 und J4205.

Nicht allzu laut geworden ist es bislang um die Bay Trail-Familie mit dem Celeron J1900, welcher vielen seit Ende 2020 "um die Ohren fliegt".


In den meisten Fällen konnte das Problem von Intel durch Anpassung des LPC-Takts behoben werden: C2000 seit 04/2017, Bay Trail seit 06/2018, Apollo Lake seit 09/2019.

Nur der Vollständigkeit wegen: Auch Prozessoren mit Airmont Architektur sind betroffen, für die Intel aber keinen Fix herausgebracht hat. Diese Prozessoren kommen bei QNAP scheinbar nicht zum Einsatz.


Folgende betroffene Prozessoren kommen bei QNAP zum Einsatz, besonderes Augenmerk wurde auf die x51 und x53 Serie gelegt, da diese stark betroffen sind:

Diese Liste ist aufgrund der Gerätevielzahl nicht vollständig, auch ist nicht auszumachen, ob/ ab wann eventuell bereits gefixte Prozessoren verwendet wurden.


J1900:

TS-x51

TS-x51+

TS-x53pro

TS-x53U

TS-453mini


J3455

TS-x53B

TS-x53Be


J3355

TS-x51B


J1800

TS-x51U

TS-251C (vermutlich)


[WAS KANN MAN TUN, WENN MAN BETROFFEN IST?]

So lange es keine Probleme mit dem Gerät gibt, kann bzw. sollte zunächst nichts unternommen werden um Problemen vorzubeugen.

Sollten Probleme beim Booten auftreten kann generell eine Reparatur bei QNAP erfolgen, sofern das Gerät diesbezüglich noch nicht EOL ist.

Für EOL Geräte oder denjenigen, denen eine Reparatur bei QNAP zu aufwändig und teuer ist, gibt es einen Workaround zum selberbasteln:

(Den Workaround habe nicht ich erfunden)


Voraussetzung für den Workaround ist, dass der LPC Bus (über Kontakte) aus dem Mainboard des QNAP herausgeführt wird.

Dies geschieht in der Regel über 10 Pins mit der Bezeichnung "LPC_CN1", leider ist dies nicht bei allen Modellen, so z.B. beim TS-453mini, der Fall.

Ist dieser Connector vorhanden, kann zwischen die Pins 1 und 8 (LPC_clock und Masse) ein 100 Ohm Widerstand gesetzt werden.

Ich bevorzuge es hier die Stecker aus einem PC Gehäuse zu nehmen (die mit denen Resettaster, Powertaster, etc. am Mainboard angeschlossen sind) und den Widerstand somit steckbar zu machen.

Natürlich kann der Widerstand auch direkt an die Kontakte gelötet werden.


In meinem ersten Versuch an einer TS-451 sah das so aus (wenn es nicht nur ein Test wäre, hätte ich das schöner gemacht

pasted-from-clipboard.png

Hierzu ein Edit: Auf dem Bild sieht es so aus, als wäre Pin 2 (oben links) verwendet worden. Das ist nicht der Fall! Es wurde korrekterweise Pin 1 verwendet, was hoffentlich auf nachfolgendem Bild deutlicher wird.

pasted-from-clipboard.png

Sorry für die Verwirrung, die Fotos hatte ich einst nur für mich gemacht.


Was genau hierbei passiert kann ich leider nicht sagen, denn ich habe den LPC Bus nicht studiert.

Fest steht für die Bay Trail und Apollo Lake Familie allerdings, dass das Problem nur dann auftritt, wenn der LPC Bus konstruktionsbedingt mit High-Signalen außerhalb (vermutlich oberhalb) von 1,8V (die Range ist 1,71V bis 3,6V) arbeitet.

Ich vermute dass die High-Signalspannung durch den Widerstand auf das "unkritische" Niveau von ~1,8V herabgesetzt wird, sodass die Funktion wiederhergestellt ist.


Im englischen Forum kursiert auch das Gerücht, dass unter Umständen andere Widerstandswerte im Bereich von 80-350 Ohm erforderlich sein könnten, was logisch klingt um die Signalspannung dem Einzelfall entsprechend anpassen zu können.

In den meisten Fällen scheint aber der 100 Ohm Widerstand die erste Wahl zu sein. Sollte man damit keinen Erfolg haben könnte ein anderer Widerstand Abhilfe schaffen. Im englischen Forum (siehe unten) ist auch beschrieben, wie man überhaupt ausfindig macht, ob man von dem Bug betroffen ist.


"Langzeiterfahrungen" mit dem Workaround (nicht nur an QNAP NAS) zeigen, dass die Geräte damit noch einige weitere Jahre ihre Arbeit verrichten, es kommt dennoch vor dass die Geräte nach einigen Monaten ihren Dienst verweigern. Es sollte daher nur als temporäre Lösung betrachtet werden.


Quellen (an die ich mich erinnere )

- diverse Errata/ Korrekturverzeichnisse von Intel

- engl. Forum

https://forum.qnap.com/viewtop…=135089&start=150#p767546

https://forum.qnap.com/viewtopic.php?t=157459

Auch lassen sich hier im Forum viele Threads finden, auch mit weiteren Bildern und weiterführenden Links. Suchworte können sein "Intel Bug" "Clock Bug", "LPC_CN1" "100 Ohm". Hier eine kleine Auswahl:

QNAP TS-853 Pro startet nicht mehr

QNAP TS 453Be macht gar nix mehr

NAS defekt nach FW-Update

QNAP TS-451+ startet nach ca. 70 s automatisch einen reboot

Gehäufte Fehler bei QNAP TS-*Be Geräten?

NAS startet nicht mehr



Ach Mensch... für mich fängt heute schon das Wochenende an, geil!

Ich werde mir noch etwas Zeit lassen, sage aber trotzdem schonmal "cheers!"

Navigation

  1. News
  2. Forum
  3. QNAPclub
  4. User Blogs
    1. Artikel
    2. Testberichte
  5. Galerie
  6. Hilfe
  7. Downloads
  1. Forenregeln
  2. Timeline
  3. Credits
  4. Nutzungsbedingungen
  5. Datenschutzerklärung
  6. Benutzerprofil löschen
  7. Kontakt
  8. Impressum

Aktueller Ort

Diese Seite verwendet Cookies. Durch die Nutzung unserer Seite erklären Sie sich damit einverstanden, dass wir Cookies setzen.