Hardwaredefekte - (Offene) Geheimnisse aus der Bastelecke

[PROLOG]

Probleme mit der Software gehören fast schon zum Alltag und sind meist relativ schnell erkannt und eventuell sogar schnell behoben. Lästig, aber so wirklich Bauchweh hat man dabei kaum. Anders sieht es aus, wenn offensichtlich ein Hardwareproblem vorliegt, denn diese sind nicht nur sehr schwer auszumachen, sondern oftmals ebenso schwer zu beheben, wenn es nicht mal eben mit dem Austausch von RAM oder Netzteil getan ist.


Als Elektrotechnikermeister interessiere ich mich zwar für solche Defekte, doch derartige Elektronik hat nichts mit dem zu tun was ich gelernt habe und beruflich ausübe. Die Fehlersuche und -behebung stellt mich also auch immer wieder vor Herausforderungen, die ich oftmals nur mit Hilfe des Internets und dem Wissen Anderer meistern kann. Mit der Zeit habe ich so die ein oder andere Erfahrung mit Hardwaredefekten theoretischer und praktischer Natur gemacht und mir eine kleine Sammlung dazu erstellt. Manches wird sicherlich schon bekannt sein, aber zumindest über meine letzte Entdeckung schweigen sich diejenigen, die eine Lösung für das Problem haben bisher aus.


Ich möchte hier nicht zu weit ins Detail gehen, aber ich möchte meine Erfahrungen und mein Wissen über die Hardwarereparatur hier einmal zusammenfassen und die teils offenen Geheimnisse lüften.



[DER INTEL CLOCK BUG]

Das ist der Klassiker schlechthin, dem ich hier Der "Intel Clock Bug" - Massensterben bei QNAP mit Intel Prozessoren einen eigenen Artikel gewidmet habe.


Fehlerbild:

NAS lässt sich einschalten, ist allerdings nicht erreichbar und die LEDs nehmen nicht ihren Betriebszustand ein.

Geräte mit Display zeigen dauerhaft „System booting….“. Monitore liefern keine Ausgabe.

Der Fehler kann schleichend sein, d.h. dass sich das Problem über längeren Zeitraum auf andere Weise bemerkbar machen kann. Bei einem TS-251+ äußerte sich das so, dass sich das Gerät manchmal gar nicht einschalten ließ und manchmal ein RAM-Modul nicht erkannt wurde.


Betroffene Modelle:

Intel Modelle mit Celeron CPU aus der „Apollo Lake“ oder „Bay Trail“ Familie, vornehmlich TS-x51 und TS-x53 Modelle.


Fehlergrund:

Aufgrund eines prozessorseitigen Fehlers funktioniert der LPC-Bus nicht mehr korrekt, wodurch (offensichtlich) der BIOS-Chip nicht mehr angesprochen werden kann (meine einstige Theorie, dass insbesondere der DOM (USB) nicht mehr angesprochen werden kann ist mittlerweile widerlegt).


Maßnahme:

100 Ohm Widerstand auf „LPC_CN1“ zwischen Pin 1 und 8 (CLK und GND) setzen.

Unter Umständen sind andere Widerstandswerte zwischen 80 und 250 Ohm erforderlich, ich hatte bislang aber immer mit 100 Ohm Erfolg.


Info:

Nicht alle Modelle verfügen über den „LPC_CN1“ Anschluss.

Bei den meisten Modellen sind diese als „Dupont-Steckerpfosten“ ausgeführt, bei manchen Modellen gibt es nur Lötpunkte.
In wenigen Fällen erreicht man die erforderlichen Kontakte über die Steckerleiste „DEBUGCN1“.

In allen Fällen wird das Clock-Signal des Super-I/O ICs, der für die Kommunikation mit u.a. dem BIOS zuständig ist mittels Widerstand mit Masse verbunden. Theoretisch könnte dies auch direkt am Super-I/O Chip gemacht werden, allerdings ist es nahezu unmöglich das zu löten.


Ich weiß nicht wie viele Geräte ich auf diese Weise schon reanimiert habe, selbst habe ich davon zwei in Betrieb (TS-251+ und TS-253pro).

Es ist davon auszugehen, dass durch diese Maßnahme keine negativen Auswirkungen entstehen und die Geräte viele Jahre derart betrieben werden können.



[DER BACKPLANE BUG]

Ein weiterer Klassiker sind defekte Backplanes, welche oftmals durch Backen im Ofen „repariert“ wurden. Davon halte ich nicht allzu viel und kann mir auch nicht vorstellen, dass dies eine dauerhafte Lösung ist.


Fehlerbild:

Disks in Slot 3 bis Slot n werden (auch einzeln) nicht mehr erkannt.

Der Fehler kann schleichend sein, sodass die Disks sporadisch und temporär, insbesondere bei höhrerer Last bzw. Temperatur auf der Backplane (Anschlussplatine für SATA-Disks) nicht erkannt werden.


Betroffene Modelle:

Mir sind keine Modelle bekannt, bei denen der Fehler zweifelsfrei ausgeschlossen werden kann. Aktuellstes Modell bei dem mir der Fehler bekannt ist: TVS-473(e)


Fehlergrund:

Die MOSFET, über die die Spannungsversorgung der Disks gesteuert wird, sind mit einem falsch bemessenen Vorwiderstand versehen, sodass die MOSFET nicht vollständig durchschalten und die angeschlossenen Disks nicht mit ausreichend Spannung versorgt werden.


Maßnahme:

Als Workaround können „source“ und „drain“ der MOSFET überbrückt werden, sodass die Disks direkt mit ausreichend Spannung versorgt werden. Dies ist allerdings mit Vorsicht zu genießen, denn die wesentliche Aufgabe der MOSFET ist es, das Einschalten der Disks zu verzögern, sodass nicht alle Disks auf einmal anlaufen, was einen unter Umständen zu hohen Einschaltstrom zur Folge hat, wodurch andere Defekte entstehen können. Beim Einsatz von SSD in den betroffenen Slots sehe ich dieses Problem allerdings nicht.


Als Endlösung muss der Vorwiderstand verringert werden, was in der Regel mit einem 10 kOhm Widerstand möglich ist, der parallel zum vorhandenen Widerstand geschaltet wird. Da es sich um kleine SMD Bauteile handelt, ist dies allerdings eher etwas für Leute mit Erfahrung im Löten.


Info:

Auch wenn scheinbar alle Backplanes betroffen sind, sind diese vom Aufbau nicht immer identisch, sodass man nicht pauschal sagen kann, wo der betroffene MOSFET oder Widerstand sitzt.


Ich habe zwar selbst ein Gerät das von dem Problem betroffen ist, bin das Problem bislang aber noch nicht angegangen, da der Ausfall von in meinem Fall Disk 4 sehr selten auftritt und hier ohnehin nur eine SSD eingebaut ist, die nur temporär als Zwischenspeicher verwendet wird. Irgendwann gehe ich das Thema aber an.



[DEFEKTER DOM]

Für mich hat die „QNAP-Hardware-Reise“ einst mit diesem Problem bei einem TS-251+ (welches zusätzlich vom Clock-Bug geplagt ist) angefangen.


Fehlerbild:
Gerät bootet nicht mehr, bei Geräten mit Display wird stets „System booting…“ angezeigt; das NAS ist nicht erreichbar.

Es ist kein Firmware Update möglich (Fehler FW014 und / oder FW999).


Betroffene Modelle:

Mir sind keine Modelle bekannt, bei denen der Fehler zweifelsfrei ausgeschlossen werden kann, allerdings tritt dieses Problem relativ selten auf.


Fehlergrund:

Der DOM ist aus mir unbekannten Gründen schreibgeschützt (FW Update nicht möglich) oder kann gar nicht mehr gelesen werden (Booten nicht möglich).


Maßnahme:

Sofern das Gerät einen autauschbaren DOM hat, muss der DOM ersetzt werden. Dies kann mit einem passenden DOM aus einem beliebigen QNAP NAS (die Kapazität muss jedoch stimmen) erfolgen oder mittels einem 3rd-party DOM z.B. von Mouser. Alternativ kann auch ein USB Stick verwendet werden, welcher mittels passendem Stecker am DOM-Anschluss angeschlossen wird.

Bei Geräten mit festem DOM kann dieser unter Umständen ausgelötet und ersetzt werden, hierzu habe ich allerdings keinerlei Infos. Alternativ kann auch hier ein USB Stick an einem USB Port verwendet werden, dazu muss allerdings die Bootreihenfolge im BIOS umgestellt werden, was nur bei Geräten mit Monitoranschluss oder Console-Port möglich ist.


In jedem Fall muss die Kapazität des Ersatz-Speichers mindestens so groß sein, wie die Kapazität des original DOM, anschließend ist ein Firmware-Recovery erforderlich:

Firmware Recovery - Es geht nicht immer so, wie QNAP sagt .


Info:

Bislang habe ich nur den DOM beim TS-251+ durch ein DOM aus einem anderen Modell ersetzt. Bei einem TS-470U habe ich den DOM zwar temporär durch einen USB Stick ersetzt, allerdings betreibe ich hier mittlerweile ein anderes Betriebssystem ohne DOM: Alternatives Betriebssystem TrueNAS: Aufrüstung und Inbetriebnahme eines TS-470U .


Beim Einsatz eines USB Stick an einem der Ports kann es sein, dass die Bootreihenfolge im BIOS jedes Mal umgestellt werden muss, wenn das NAS von der Spannungsversorgung getrennt wurde, oder gar nach jedem Neustart.


[DER LOAD SWITCH BUG]
Lange Zeit habe ich dieses Problem nur bei ARM Modellen gesehen, nach meinen jüngsten Erkenntnissen sind allerdings auch Intel Modelle betroffen.


Fehlerbild:

Das NAS lässt sich nicht einschalten. Je nach Modell blinkt die Status LED rot, die LED nehmen nicht ihren Betriebszustand ein oder es ertönt nur ein sehr leiser Beep-Ton.


Betroffene Modelle:

ARM der Reihe TS-x28, x30 und x31 sowie Intel TS-x53B und BE. Weitere Modelle sind nicht auszuschließen.


Fehlergrund:

Aufgrund eines mir unbekannten Konstruktionsfehlers des Schaltkreises oder der eingesetzten Bauteile gehen die Lastschalter (load switches) kaputt, über die die Spannungsversorgung einiger Komponenten des Mainboards erfolgt.


Maßnahme:

Als Workaround können die betroffenen Lastschalter wie die MOSFET beim Backplane Bug einfach überbrückt werden. Doch auch hier ist Vorsicht geboten, denn die Lastschalter übernehmen neben dem Ein- und Ausschalten von Versorgungsspannungen auch den Überlast- und Kurzschlussschutz. Durch Überbrücken werden die Schutzmaßnahmen ausgehebelt, wodurch weitere Defekte entstehen können.


Als Endlösung müssen die Lastschalter ersetzt werden, was allerdings Kenntnisse im Umgang mit Heißluftlöten erfordert, da die Lastschalter (Abmessungen ca. 2x2 mm) unmöglich mit einem Lötkolben gelötet werden können.

Je nach Modell und Ausmaß des Defekts ist nur ein Lastschalter betroffen oder zwei, in der Regel scheint allerdings der Lastschalter des Typs „ZSA0“ am anfälligsten zu sein.


Info:

Bei ARM Geräten ist es nach dem Workaround nicht mehr möglich das Gerät abzuschalten. Fährt man es herunter oder schließt es an Netzspannung an, fährt es automatisch (wieder) hoch.

Bei x53B/BE Modellen ist dies nicht der Fall, allerdings kommt man auch hier nicht ganz ungeschoren davon: Schließt man das Gerät erstmals an Netzspannung an, laufen auch die Disks an, obwohl das Gerät abgeschaltet ist. Sporadisch läuft der Lüfter auch im abgeschalteten Zustand weiter, manchmal sogar dauerhaft auf Hochtouren, allerdings stellte sich dieses Verhalten bei mir nach ein paar Stunden ein, sodass der Lüfter ordnungsgemäß direkt mit abgeschaltet wird.


Den Austausch der Lastschalter bin ich noch nicht angegangen, obwohl mir die passenden Bauteile längst vorliegen, der Austausch ist leider nicht so einfach. Beim x53B/BE gehe ich davon aus, dass nur ein Lastschalter getauscht werden muss, auch wenn als Workaround zwei überbrückt werden müssen, ähnlich könnte es auch bei den ARM Modellen aussehen.
Den Workaround habe ich bislang an einem TS-253BE und TS-231(P2?) erfolgreich durchgeführt. In beiden Fällen mussten zwei Lastschalter überbrückt werden.



[DEFEKTES BIOS]
Das Problem ist zwar eher softwareseitiger Natur, ist aber nur mit hardwaretechnischen Eingriffen zu lösen. Im Regelfall sollte dieses Problem nicht von selbst auftreten, sondern nur dann wenn ein BIOS Update, welches nicht für alle Modelle verfügbar ist, schief geht.


Fehlerbild:

Gerät lässt sich nicht einschalten oder die LEDs nehmen nicht den Betriebszustand ein. Die Symptome sind ähnlich wie beim Clock Bug.


Betroffene Modelle:

Prinzipiell alle wofür BIOS Updates vorliegen, zuletzt insbesondere allerdings x53B/BE Modelle.


Fehlergrund:

Bei x53B/BE Modellen schlägt das Update auf QY47AR58 fehl, da der BIOS-Chip nicht ausreichend Kapazität aufzuweisen scheint und das BIOS nicht vollständig geflasht wird. Das Problem ist allerdings im beiliegenden Flashtool begründet. Grundsätzlich kommt das Problem durch fehlerhafte oder fehlerhaft durchgeführte BIOS Updates zustande.


Maßnahme:

Das BIOS muss neu geflasht werden. Da das Gerät selbst allerdings nicht mehr in der Lage ist dies eigenständig zu tätigen, muss man sich einem Gerät zum Flashen von (BIOS)-Chips bedienen. Dies ist u.a. mit Raspberry Pis mit GPIO Anschlüssen möglich (z.B. Pi2B). Dabei wird das NAS spannungsfrei gemacht und die GPIO Pins des Pi mit „JSPI1“ auf dem NAS Mainboard verbunden. Mit dem Tool „flashrom“ wird dann das BIOS neu aufgespielt.


Info:

Die Belegung und Ausführung des JSPI1-Anschlusses und BIOS-Chips variiert je nach Modell, unter Umständen muss der Pi direkt mit dem BIOS-Chip verbunden werden. In jedem Fall sollte die Belegung von BIOS-Chip und JSPI1 vorher geprüft werden.

Bei einigen Modellen sind BIOS-Chips mit einer Betriebsspannung von 1,8V (max 1,95V) verbaut, der Pi liefert allerdings 3,3V. Ich hatte keine Probleme damit 1,8V Chips zu flashen, und habe auch keine vernommen, allerdings können die Chips dabei auch zerstört werden!


Ich habe auf diese Weise erst zwei Geräte geflasht, ein TS-251A und ein TS-253BE. Beide Male verlief das Flashen erfolgreich, allerdings war ein defektes BIOS in beiden Fällen nicht das Problem.



[QUELLEN UND DANKSAGUNGEN]

Clock Bug:

TS-251C - 100Ohm ?

Dank an miriiii und fredf für den Hinweis auf anderweitig erreichbare Kontakte!

https://forum.qnap.com/viewtop…=135089&start=150#p767546


Backplane Bug:

QNAP TS-563 Backplane defekt / Serienfehler / Reparatur im Backofen

Festplatte wird nicht angenommen

Dank an Lighthammer777 für die detailierte Beschreibung!


Defekter DOM:

R/W Fehler beim FW Update und wie ich damit klar gekommen bin - Austausch des DOM


Load Switch Bug:

https://www.eevblog.com/forum/…repairing-a-qnap-ts-431x/

https://www.eevblog.com/forum/…rs/what-ic-is-this-s8920/

Dank nochmals an Ferrari70m für die Bereitstellung des defekten TS-253BE!

Dank auch an Crazyhorse der mich dazu verleitet hat den Fehler bei dem Gerät weiter zu suchen!


Defektes BIOS:

Neues Bios für TS-253B, TS-453B, TS-253Be, TS-453Be

Dank an developicus für die Beschreibung!

https://forum.qnap.com/viewtopic.php?t=133898



[EPLIOG]

Ich hoffe es ist deutlich geworden, dass eine ausführliche Beschreibung der Maßnahmen ob der vielen Unterschiede bei den Modellen an dieser Stelle kaum möglich ist. Vielmehr hoffe ich aber, Betroffenen neue Hoffnung zur Wiederbelebung defekter NAS gegeben zu haben!

Ich bin mir auch sicher, dass ein Kollege aus dem polnischen Forum etwas traurig darüber sein wird, dass er nun nicht mehr der vermeintlich Einzige ist, der den Load Switch Bug beim x53B/BE als streng behütetes Geheimnis kennt und damit umzugehen weiß… sorry, aber das Wohl der Community geht vor ;).


Fotos zu den einzelnen Reparaturen liegen mir leider nicht immer vor, werde ich aber ggf. nach und nach in der Galerie nachreichen.



Ich weiß nicht wie es euch geht, aber mich hat das Schreiben ein wenig inspiriert, sodass ich direkt nochmal ein bisschen basteln will.

Bevor ich zu Schraubendreher, Lötkolben und Multimeter greife, gehe ich aber nochmal am Kühlschrank vorbei. Cheers! :beer:

Kommentare 7

  • Hier als Ergänzung Informationen zum Spezialfall HS-251+:

    Clock Bug: HS-251+ - Der Arbeitsbereich am Fintek F71869AD

  • Hallo,


    der LOAD SWITCH BUG klingt interessant. Hast jemand mehr Infos dazu? Eventuell speziell zur TS-653B / x53B?

    D.h. welcher Chip ist es, welchen muss man wechseln?

    Danke

  • Hi zusammen,

    bin erst soeben an dieses Forum geraten und dies ist nun der erste Artikel, den ich total gespanntt gelesen habe.

    Einerseits hat es mich erschreckt, dass einige QNAP-NAS fiese Bugs beinhalten, andererseits gibt dieses Wissen auch Hoffnung, dass nicht immer alles nur ausschliesslich den Bach runter geht.


    @tiermutter

    Danke für das Zusammenfassen und Teilen dieser sehr interessanten und hilfreichen Infos!

    na dann prost!

    PANQada

    • Zumindest für den Intel Bug kann QNAP ja nichts, aber die Sache mit den Lastschaltern und Backplane ist schon recht übel, da sich die ja über viele Modelle und somit auch über viele Jahre ziehen.

      Das Backplane Problem bei mir werde ich demnächst angehen, kommt mittlerweile doch deutlich öfter vor dass die Disk ausgeworfen wird...

    • Die Frage hierbei ist netürlich, wieviel Prozent der NAS die Probleme trifft. Ich habe verschiedene QNAP NAS zum Teil seit mehr als 10 Jahren in Betrieb und hatte bisher keines der oben genannten Probleme.


      Viele Grüße


      Teka

    • Ich glaube es sind auch eher neuere Geräte von diesen "Massendefekten" betroffen. Ich kann mich nicht daran erinnern, dass ein x09, x59 oder x69 größere Probleme hatte, zumindest nicht annähernd in solchem Ausmaß. Diese alten Modelle sind halt noch deutlich robuster gewesen. Wie viele Geräte relativ betroffen sind mag ich nicht einschätzen, ich kann nur sagen, dass ich bei fünf 4-bay Geräten eins mit Backplane Fehler habe und bei vier vom Clock Bug bedrohten Geräten bereits zwei betroffen sind. Bei dem Lastschalter Problem sind bei mir 2 Geräte von 3 potentiell bedrohten Geräten betroffen.

      Insgesamt findet man auch ziemlich viele Posts von Betroffenen sowie ständig defekte Geräte auf den unterschiedlichen Verkaufsplattformen.