ata errors mit jeder einzelnen Disk?

  • hi,

    ist das normal oder liegt ein Fluch auf mir?

    Hatte heute endlich zeit, die storagepools in meinem neuen tvs-1282 einzurichten. ein raid 10 mit 4 samsung evo ssd`s, 1 raid 5 mit 4 wd red. 1 single disk static volume mit einer wd purple.

    alles sah gut aus. dann fiel mir ein ncq error in den Systemprotokollen auf:

    ncq error.jpg


    ok, was solls. dann einmal kurz den kernel analysator laufen lassen:

    ata errors.jpg


    wtf? ein paar Minuten später nochmal laufen lassen, jetzt sind auch segfaults dabei:

    ata errors 2.jpg


    Hä? Es sieht so aus, als sei jede einzelne Platte betroffen. Ich habe 9 Platten drinn, plus 2 m.2 ssd`s und den cqache auf 2 nvme-m.2`s. Da es insgesamt 9 versch. ata errors sind, gehe ich davon aus, dass die 9 Platten betroffen sind. Habe mir jetzt nicht die Mühe gemacht, genauer nachzuforschen, welche Platten da ssind, weil es eh nach allen aussieht.


    Liegt ein Fluch auf mir und ist auch dieses NAS defekt? Alle Platten sind vor dem Einbau mit dem lifeguard tool gecheckt worden und ok.

  • Habe vor kurzem ähnliche Probleme mit meinem TS-453 Pro gehabt. Das ging soweit bis das Volume nur noch schreibgeschützt gemountet wurde. Jegliche Reparaturversuche (FSCheck usw.) haben nichts gebracht. Im Endeeffekt hat sich dann rausgestellt dass ein RAM Modul fehlerhaft war. Eventuell bei dir auch mal einen Test mit einem bootfähigen USB Stick durchführen.

    Gruß Christian

  • was soll ich mit einem bootfähigen USB stick testen?

    In dem gerät befindet sich übrigens nur der original-ram.

    Das teil ist wie gesagt total neu. Ich habe auch noch 1 Woche widerrufsrecht.

  • Einen bootbaren USB Stick mit MemTestX86 erzeugen und damit booten. Den Test länger laufen lassen und schauen ob es Speicherfehler anzeigt.

  • Ah, OK.

    Ich habe heute keinen Bock mehr auf den ganzen Mist. Habe auch ein ticket beim support gemacht. Vielleicht habe ich ja morgen schon eine Antwort.

    Dann sehe ich weiter.

  • ist das normal oder liegt ein Fluch auf mir?

    Na wohl eher auf der TVS.


    Ich habe heute keinen Bock mehr auf den ganzen Mist.

    Hätte ich auch nicht.

    RAM-Test gut und schön, da du aber nur den originalen drin hast, hilft dir das auch nicht.

    Solange es noch möglich ist, einpacken und zurück mit der Kiste.

  • Ja, es ist nur der Original-RAM drinn. Die Erweiterungskarten können ja wohl nicht ursächlich für sowas sein, oder?

    Da offenbar alle bays betroffen sind, ist ein Fehler im RAM schon ein heißer Tipp, denke ich. Ich meine, darüber läuft ja alles. Oder könnte es auch am cache liegen? ich habe read/write auf einer qm2-karte (2x nvme ssd raid1) read/write eingerichtet.


    Der Shop glaubt ja ich bin nicht mehr ganz normal, wenn ich jetzt schon wieder reklamiere.

    Ich habe noch bis Sonntag 12.5 23Uhr59 Widerrufsrecht da online-Kauf. Dann sind die 14 Tage vorbei.

    Leider habe ich noch keine Antwort vom Qnap Support. Das beste wäre, wenn die den Defekt bestätigen, dann könnte ich leichter umtauschen.


    Ich bin mittlerweile echt schon depremiert wegen der ganzen Geschichte.

  • dann deaktivier doch mal den cache und rupf die Karte raus....

    Nicht, dass die wirklich nen Treffer hat

  • hi,

    also es ist eine qnap Lan-10G2SF-MLX Karte, eine qnap qm2-2p-344 Karte und eine asus xg--c100c 10gbe-Karte drinn.


    Auf der m2-Karte ist mit 2 nvme ssds ein read/write cache angelegt.


    Die 2 qnap Karten stehen in der compatibility list, die asus nicht, aber die verwendet den aquantia chip, der wiederum bei anderen qnap-10gbe+Karten auch verwendet wird. Insofern alles kompatibel. Es werden auch alle Karten korrekt erkannt und angezeigt.


    Ich kann heute abend ohne Karten den storagepool löschen und neu machen und dann sehen, ob es wieder zu Fehlern kommt. Neu initialisieren ohne Karten will ich nicht, weil dann das Qnap Ticket nweg ist und das kernel Protokoll wieder leer. Und ich brauche diese Infos vielleicht noch, auch wegen dem support.



    Also, mein plan wäre:

    Zuerst nur den read/write cache deaktivieren. Dann den storagepool bzw die storagpools löschen und neu erstellen. Dann schauen im kernel log, ob die ATA error counts hoch gehen.das kann ich per teamviewer vom Arbeitsplatz aus machen. Karten entfernen etc natürlich nicht. Also ich probiere mal, ohne cache den storagepool neu zu machen.sag dann bescheid, was rauskam.


    update:

    habe jetzt über teamviewer den cache entfernt, die storage pools (bis auf den storagepool, wo das system drauf ist) gelöscht und erstelle gerade neue storagepools. bisher hat sich der count der ata hard resetting errors nicht geändert.


    noch ein gedanke dazu:

    weil es ja auch 2 segfault errors gab, und in der Vergangenheit hatte ich bei einem anderne nas segfaults mit eine rexternen usb-Platte, und ich keine externen Speichergeräte angeschlossen habe, außer eben die 2 nvme-ssd´s auf der pcie-Karte (wenn man diese als externe Geräte bezeichnen will), denke ich nach meine rLogik, dass es doch am cahce bzw. den nvme-Platten liegen könnte.

    Nur: was hat de rcache (den man ja für volumes macht bzw auf diesen aktivierne kann), mit der verbindung zu den Platten zu tun (ata hard resetting link kommt doch, wenn die verbindung zu einer Platte gestört ist)? auf den Platten sbzw. den aus den Platten gemachten storagepools sind außerdem noch gar keine Volumes.

    Wäre super, wenn jemand, der sich da besser auskennt, was dazu sagen könnte. Denn vielleicht ist das NAS bzw. der Original_RAM ja ok, aber die qm2-karte und/oder die nvme-ssd`s sind fehlerhaft.

    --------------------------------------------------------------------------------------------------------------


    hallo!

    also, warum alle bays betroffen waren, ist mir jetzt klar. Da war ich echt dumm, muss ich zugeben. Ich habe die platten nämlich im laufenden Betrieb eingesteckt und das ergibt offenbar hard resetting links. Mein Fehler. Habe dann nochmal neu initialisiert und die Platten dann im ausgeschalteten Zustand eingesteckt. Dann gab es erstmal keine hard resetting links.

    Dann habe ich ein raid 5 (ohne vorher einen cache einzurichten) mit 4 wd red 4tb (bay2-5) gemacht) und nach 3 Stunden synchronisieren des raids gabe es wieder in bay 4 NCQ disabled timeout Meldung in den Systemprotokollen. Im kernel analyzer auch wieder 2 hard resetting links ata43 (bay 4), die sichaus dem ncq disabled ergeben haben (wenn man das dump file anschaut, kommt zuerst der ncq disabled und dann wird hart resettet). der Qnap support war keine Hilfe. Der meinte nur, dass wenn es sonst keine Fehler gibt (Daten verloren usw), dann kann man das ignorieren. Stimmt das?


    Was mir noch komisch vorkommt:

    ich dachte, dass das kernel log rotierend überschrieben wird. Also dass nach spätetestens 3 reboots alle Fehlermeldungen weg sind,solange keine neuen dazu kommen. Ist offenbar nicht so.

    ata43: hard resetting link -- Count: 2

    exception -- Count:1

    bleibt bei mir stehen, auch nach 3 reboots.


    auch miz

    Code
    dmesg -c

    bekomme ich es nicht hin, dass der kernel log analyzer keine Fehler mehr anzeigt.


    Was meint ihr? Nachdem ich bei den 2 vorherigen Qnap auch immer ncq timeout mit folgendem ata hard resetting hatte bei 1 bzw 2 disks/bays beim erstellen synchronisieren eines storagepools, glaube ich mittlerweile selbst, dass das normal ist. google bringt mich nicht weiter und alles was ich hier im forum gefunden habe zu ncq, wo andere user die selben fehlermeldungen hatten, ist nicht beantwortet.

    Bin jetzt echt mit meinem Latein am Ende. Habe auch nur Halbwissen, was Linux und die Hintergründe bei Qnap Geräten angeht. Und habe mich da vielleicht in was verrannt. Was meint ihr zu der ganzen Sache? Liegt es an den wd red 4tb? warum nur in einem bay? ach, ich weiss nicht weiter.

  • hier der teil des Kernel log, wo während der Synchronisierung des raid 5 die Fehler auf ata43 (disk bay 4 auftauchen). die uninteressaten teile habe ih mit "..." rausgekürzt. Bitte sagt was dazu:


  • netzteil glaube ich nicht.

    Aber du bringst mich auf eine Idee, vor allem da ich die gleichen Probleme mit dem vorherigen nas auch hatte.

    Wenn ich überlege, was bei beiden nas gleich war, abgesehen von den Platten, dann ist es das usv.

    Werde das usv mal wegnehmen und schauen.

    Danke für den Tipp, vielleicht ist das ja die Lösung.

  • Ja, hatte einfach mal deinen Fehler ausm LOG gegoogelt und bin über den Forenbeitrag gestolpert.... Und klar, wenn der stromstecker am Netzteil nen Treffer hat... Klnnte bei dir auch der Stromstecker an der Backppane sein.


    Aber wenns das Alte NAS ja auch schon hatte, ist das mit der USV zwar krass aber nen Versuch wert..

  • hallo!

    habe es getestet. Das war es leider auch nicht.

    Habe über Nacht einen neuen storagepool erstellt (inkl. disk bay 4), diesmal anderes Kaltgerätekabel und direkt an steckdose (ohne usv). Auch andere festplatte in bay 4 (die vorher in bay 5 war und keine Probleme dort machte). stromstecker an der backplane habe ich auch überprüft auf festen Sitz.


    wieder ncq disabled timeout auf disk bay 4. Der fehler tritt immer erst nach mehreren Stunden Synchronisierung des Raids bzw. Speicherpools auf). In dem Fall nach ca 4-5 Stunden.



    jetzt weiss ich auch nicht mehr. auch der Umstand, dass es immer disk bay 4 ist, das ja schon bei anderen defekt war, macht mir Sorgen. Vielleicht kündigt sich hier bereits ein defekter sata Port an.

    Gerät zurück schicken?

  • scheint ja ein highend Gerät von Qnap zu sein mit maximaler Bestückung. In diesem Fall würde ich bei qnap support das klären lassen.


    Grundlegend in solchen Fällen sollte man das Teil schrittweise aufbauen und testen weil es sonst unklar wird wo und wie der Fehler nun herkommt


    wo braucht man denn so ein Monster NAS?

  • der qnap support war in dem Fall keine Hilfe.

    Nur die übliche Aussage, die Platten extern zu testen. Aber:

    Ich habe die Platten extern getestet, und zwar alle und das schon bevor sie in das NAs kamen (danach dann nochmal).Sie sind alle in Ordnung. Außerdem habe ich verschiedene disks in bay 4 gehabt. Und ALLE erzeugen den selben Fehler, aber nur in dieser bay. Die selbe Platte in einer anderen bay erzeugt keine Fehler. Eine Platte, die vorher fehlerfrei in einer anderen bay war, erzeugt, sobald in bay 4, auch den Fehler. Es liegt also definitv nicht an den Platten.

    Der Support meinte noch, solange das raid selbst nicht crasht, wäre es ja eh egal und man solle sich über Fehlermeldungen nicht weiter Gedanken machen. Bei einem 3000-Euro gerät sehe ich das anders. Da will ich, dass es fehlerfrei ist. Was, wenn sich bay 4 in ein paar Monaten komplett verabschiedet und ein backplane tausch via RMA ansteht. Darau fkann ich verzichten.

    Ich habe noch bis Ende der Woche Zeit, das teil zurück zu senden bzw einen Widerruf zu schicken. und ich werde auch spätestens morgen, eher noch heute Abend. sollte sich nicht doch noch eine Lösung finden, einen Widerruf an den Shop schicken.

    Ich kann und will bei 3000 Euro einfach kein Risiko eingehen. Leider hat sich der Support nicht mehr gemeldet und ich habe nicht mehr lange Zeit, um die Widerrufsfrist nicht zu verpassen.


    Wäre super, wenn andere TVS-1282 Besitzer hier sagen könnten, ob sie auch ncq Fehler haben. Vielleicht mal die systmeprotokolle checken und kernel analysator auf hart resetting link Fehler kontrollieren. Vor allem während der Erstellung eines storagepools.


    ich habe noch ein billiges TS-253a, an dem auch noch ein tr-004 hängt. Und das läuft und läuft ohne Fehler.


    update:

    habe in meiner Verzweiflung (und weil ich in Eile bin wegen der Widerrufsfrist) neben dem deutschen Support auch den us support kontaktiert und eben antwort bekommen. US Support meint, dass bay 4 eine Macke hat und ich das gerät einschicken muss. Da es aber neu ist und ich noch Widerrufsrecht habe, werde ich es einfach zurück senden.

    Weiss jetzt nicht, ob ich es dem Verkäufer überhaupt erwähnen soll, dass das gerät eine Macke hat. Ich will sichert nicht einen RMA Prozess durchlaufen mit einem neuen gerät, sondern Austausch oder Geld zurück. Was meint ihr?



    update:

    So, Widerruf versendet. Gerät geht heute zurück.

    Ich habe sehr mit mir gerungen, ob ich die kernel Fehler einfach ignorieren soll, aber das Gerät war einfach zu teuer. Trotzdem bin ich gerade traurig, weil es jetzt sicher ewig dauert, bis das alles bearbeitet st und ich ein neues Gerät bestellen kann.

    ich hoffe, dass bei amazon bald die x82-Reihe wieder verfügbar ist. dann bestelle ich dort.

  • Im Prinzip war es den Aufwand nicht wert. Du hast nun so viele Stunden wegen einem "Minifehler" verbraten welcher eventuell niemals zum Tragen gekommen wäre


    Wirtschaftlich Sinnvoller ist es sowas zu ignorieren

  • oder direkt zu reklamieren und ein neued anschaffen...

  • immo2014

    Deine Aussage ist echt der Hammer. Das lässt nur den Schluss zu dass du dir scheinbar Geld technisch keine Gedanken machen musst (oder du mit Geld einfach nicht umgehen kannst).

    Vielleicht solltest du dich aufgrund deiner Aussage dass „der Fehler eventuell niemals zum Tragen kommt“ einfach mal auf dem nächsten Jahrmarkt als Wahrsager bewerben...

    Genauso gut könnte das ganze auch kurz nach dem Ablauf der Garantie für einen Totalschaden sorgen.


    Dabei ist es doch so einfach: wenn ist der Hersteller nicht schafft fehlerfreie Geräte zu liefern hat dieser einfach Pech und nicht der Kunde. Somit ist es völlig richtig einfach vom Kauf zurückzutreten.


    Robertson23 alles richtig gemacht....