Schreiben auf QNAP-NAS mit Windows verursacht defekte Daten.

  • Hi,
    ich habe seit zwei Monaten ein QNAP TVS-872xt mit 8x16tb Iron Wolf Pro im RAID 6. Vorher habe ich auf einem lokalen DAS-RAID gearbeitet. Da lief alles problemlos. Inzwischen habe ich sämtliche Projekt-Daten übers 10 GBE -Netzwerk auf das NAS kopiert und das DAS-RAID formatiert.
    Jetzt ist mir immer häufiger aufgefallen, dass einfach so Dateien beschädigt sind. Darum habe ich mir angewöhnt, mit Teracopy Daten überprüfen zu lassen, wenn ich sie kopiere.
    Und tatsächlich kommen Prüfsummenabweichungsfehler!!
    Ich will nicht wissen wie viele Daten unbrauchbar sind, weil ich es damals einfach mit dem Windows Explorer kopiert habe :(
    Im QTS gibt es keinerlei Fehler und ich lasse regelmäßig alle Platten "umfassend" bei "Datenträgerstatus" testen.
    Was kann ich denn jetzt machen? Alle Festplatten tauschen? Bei der groben Fehlerbeschreibung nimmt doch kein Support die Platten zurück.
    Ich kopiere die Daten meist mit einen Windows 10 PC mit QNAP QXG-10G1T-Netzwerkkarte. Momentan ist die Firmware 4.4.1.1216 auf dem TVS installiert. Die Iron Wolf sind als NTFS formatiert. Hätte ich lieber EXT4 nehmen sollen?


    Beste Grüße und danke schon mal, für jeden Ratschlag!

    PS: Ich habe echt keine großen Anforderungen an das Gerät. Es soll einfach nur die Daten zuverlässig speichern. Aber selbst das macht Probleme. Was soll der Mist?

    Einmal editiert, zuletzt von no1dea ()

  • Ist von der Ferne immer etwas schwer zu Analysieren ...


    Ich habe drei QNAP-NAS bei mir daheim in in Verwendung, bei keinem davon habe ich Fehler durch das Kopieren der Dateien mit Windows!

    Allerdings verwende ich "nur" die 1Gb Anbindung und habe kein 10Gb Netzwerk daheim.


    Um den Fehler einzugrenzen müsstest du verschiedene Testszenarien durchlaufen und nachvollziehbare Fehler produzieren können.

    • Sind es immer die gleichen Filetypen (.docx, .xlsx, .txt, ...)
    • Ab einer gewissen Größe, oder alle Dateigrößen?
    • Wie äußert sich der Fehler, nur Prüfsumme, oder kann die Datei nicht mehr geöffnet werden?
    • Ist sie am Anfang, am Ende, oder rein zufällig fehlerhaft?
    • Wie ist die Prüfsumme nach dem zurückkopieren und Vergleich auf dem PC mit der original-Datei?
    • ...
  • Hmm, ich hatte so ein Problem bisher nicht zum Glück, glaube aber erstmal nicht an ein Problem der Platten. Interessant wäre, ob Du Deine 8 Platten alle in einem gemeinsamen Verbund hast, oder ob Du mehrere Verbünde hast. Also bspw 2x4. Ein erster Versuch wäre mal sowas wie ein Schreib-Stresstest. Wenn die Platten das Problem wären, dann würde Dein System wahrscheinlich total instabil laufen, weil ja anzunehmen wäre, dass bspw. auch die Systemapps auf dem Systemvolume von Bitfehlern betroffen wäre. Das scheint ja erstmal nicht der Fall zu sein. Eher ist anzunehmen, dass vielleicht die Daten beim Senden vom Windows kaputtgehen ( oder beim Empfang am NAS ) . Wenn möglich solltest Du mit einem separaten PC ebenfalls testen, ob das Verhalten auftritt. Das wäre jetzt erstmal ein grober erster Schritt, so weit möglich alle möglichen Fehlerquellen zu isolieren und einzeln zu testen. Möglicherweise ist das ein krudes Treiberproblem im Windows, oder das RAM im PC macht bei den hohen Transferraten probleme. Wobei ich gerade nochmal gelesen habe, dass Du momentan 10GBe gar nicht nutzt. Wobei man auch da abklären sollte, ob da nicht ggf. der Transfermodus zur Sicherheit "festgenagelt" werden sollte. Eigentlich ist ja alles mit Prüfsummen abgesichert, so dass Übertragungsfehler bemerkt werden müssten.

  • Danke für die Hinweise, das werde ich demnächst mal kontrollieren. Es sind unterschiedliche Dateitypen. Bspw. auch zip-Dateien. Mov-Videos sind mir bis jetzt aber noch nicht negativ aufgefallen. Da ich aber viele 3D-exr-Bildsequenzen rendere, fällt es mir vor allem bei ihnen auf. Also wenn ich 500-Bilder kopiere, sind mitten drin min. 2-4 fehlerhaft. Ihnen fehlen dann streifenweise in der Datei Informationen. Also sind es Bilder mit schwarzen Streifen drin. Diese Dateien sind meist so 30-80 mb groß. Bei sehr großen Dateien ist mir der Fehler noch nicht aufgefallen. Ich muss das auf jeden Fall genauer beobachten und schauen, ob das auch bei anderen Computern passiert. Wenn ich sie zurückkopiere, sind sie immer noch beschädigt.
    Als ich zuvor mit einem Thunderbolt-DAS gearbeitet habe, gab es keine Probleme trotz hoher Transferraten (800mb/s)

  • NAS Platten mit NTFS?

    Läßt die FW v4.4.x das zu?


    Gruss

  • Die Iron Wolf sind als NTFS formatiert. Hätte ich lieber EXT4 nehmen sollen?

    Bin jetzt ein wenig irritiert. Du meinst hier schon die intern verbauten Festplatten des NAS? Die können meines Wissen gar nicht intern mit NTFS Formatierung verwendet werden. Aber vermutlich wurden die beim Initialisieren des NAS wieder auf EXT4 umgebogen.

    Ihnen fehlen dann streifenweise in der Datei Informationen. Also sind es Bilder mit schwarzen Streifen drin.

    Verstehe ich dies richtig, dass Du die Bilder rendern lässt, aber die Originale zuerst auf die lokale Festplatte gespeichert werden. Dort sind die Bilder ohne diese Streifen. Erst wenn Du diese Bilder per Windows Explorer auf das NAS KOPIERST sind die Bilder danach beschädigt. Die Streifen entstehen also nicht schon beim Rendern? Habe ein wenig Erfahrung mit Rendering. Bei mir entstanden solche Streifen meist schon beim Rendern selbst - Problem bei den Berechnungen - oder wenn die Netzwerkverbindung Probleme hatte und das Ergebnis nicht fertig geschrieben werden konnte. Manche Programme sind da nicht sehr geduldig.

    Da gerenderte Bilder dieser Größe zum Berechnen sehr viel Arbeitsspeicher benötigen: Wie sieht es mit dem Arbeitsspeicher Deines PCs aus? Gegeben Falls wird auch zwischengespeichert - wenn der Arbeitsspeicher ausgeht. Bei einigen Programmen kann man definieren wohin dies geschehen soll. Verwendest Du da das NAS oder die lokale Festplatte?


    Von Heise gibt es hier ein kleines Progrämmchen, welches das Schreiben testet und das Resultat gleich wieder zurückliest und überprüft. Wurde eigentlich zum Testen von USB-Sticks gemacht, funktioniert aber auch mit Festplatten und Netzwerklaufwerken.

    https://www.heise.de/download/product/h2testw-50539

    Lass dies mal mit verschiedenen Größen auf Dein NAS los.

  • Ja, ich rendere lokal und kopiere die Bilder anschließend. Lokal sind sie unbeschädigt. Erst nach dem kopieren sind die Streifen zu sehen. Was NTFS angeht, bin ich mir jetzt gar nicht mehr so sicher. Finde die Information gerade nicht. Vielleicht ist es doch EXT. Die 64GB Ram sind während des Kopiervorgangs nicht mal ansatzweise ausgelastet.

    Einmal editiert, zuletzt von no1dea ()

  • Das ist sehr eigenartig. So ein Verhalten würde ich am ehesten dem Arbeitsspeicher zuordnen. Da das Problem erst seit Einführung des QNAP-NAS auftritt, würde ich den RAM des NAS eher als Problemursache als den des PCs sehen. Hast Du den Arbeitsspeicher des NAS nachträglich aufgerüstet?

  • Das ist sehr eigenartig. So ein Verhalten würde ich am ehesten dem Arbeitsspeicher zuordnen.

    Hmm, aber ehrlich, wenn der Speicher so unzuverlässig läuft müssten da ständig irgendwelche Prozesse abschmieren. Es kann natürlich nicht schaden, mal sich im Helpcenter die Dumplogs runterzuladen und zu schauen, ob da komische Meldungen zu finden sind. Ich könnte mir auch vorstellen, dass es vielleicht ein Locking Problem mit SMB ist. Da gab es früher durchaus auch mal Sambaversionen, bei denen auf die Art Daten korrumpiert wurden. Aber die Firmware und das OS sind ja eigentlich so neu, dass das kein Problem sein dürfte. Und es gibt ja eigentlich nur einen Schreibprozess, soweit ich das sehe.


    Also zunächst müsste man wirklich mal mit synthetischen Daten und auch von verschiedenen Rechnern testen, ob das Problem in jeder Konfiguration mit dem NAS auftritt, damit man erstmal die Quelle eingrenzen kann.

  • Hmm, aber ehrlich, wenn der Speicher so unzuverlässig läuft müssten da ständig irgendwelche Prozesse abschmieren.

    Nicht zwingend. Wenn der Fehler nur bei einem bestimmten Bereich des RAM auftritt, kann es durchaus sein, dass das System selbst nicht betroffen ist, da diese im unbeschädigten Bereich liegt und die Probleme erst bei höherem RAM-Verbrauch, also beim Kopieren, auftritt.


    Ich denke auch, dass hier erst mal Testen angesagt ist.

    Festplattentests können mit der Helpdesk-App aus dem App-Center gemacht werden:

    Dienstprogramme – Helpdesk: Das Ticket zum Ticket


    Mit dem QNAP Diagnostic Tool konnte man auch den Arbeitsspeicher testen. Leider gibt es dieses nicht mehr offiziell im QNAP-Store. Die letzte Version lässt sich für Intel-CPU hier noch herunterladen:

    https://download.qnap.com/QPKG…ticApp_1.1.3_20171226.zip

    Vielleicht funktioniert es ja noch. Wie aussagekräftig dieser Test ist kann ich leider auch nicht exakt sagen. Weitere Infos hier:

    Dienstprogramme – QNAP Diagnostic Tool: Dem NAS auf den Zahn fühlen


    Wenn Du dem NAS per Konsole auf den Zahn fühlen willst hilft dies auch weiter:

    Erste Hilfe - Wenn das NAS nicht mehr will (Teil 2): Für Fortgeschrittene


    Nicht ganz zu vergessen, dass das Problem auch im Netzwerk oder im PC zu suchen ist, vor allen da ja die Netzwerkkarte im PC neu zu sein scheint. Hier erster Versuch wäre mal sicher die Onboard-NIC zum Testen zu verwenden. Auch am NAS auf 1 GbE wechseln und direkter Verbindung zwischen NAS und PC mit neuen Kabel versuchen, um anderen Komponenten als Fehler auszuschließen. Wie schon mehrfach erwähnt einen anderen PC / Notebook zum Bestätigen des Problems auf anderer Hardware wäre wichtig.

    Security Software auf dem PC ist auch nicht auszuschließen. Auch die kann immer wieder richtig Ärger verursachen, möglicherweise im Zusammenspiel mit neuer Hardware / Treiber oder dem neuen hohen Durchsatz per 10 GbE.

  • 10Gbit würde ich nie über einen Unamaged Switch laufen lassen!


    Zu hoch sind hier die Ansprüche an Kabel und Übergänge, ein wenig Staub und schon hast du Datensalat.

    Managed Switch werfen dann Logeinträge und lassen Errorcounter hoch laufen, da kann man das leicht finden.


    Zudem handeln die meist gar nix aus, was nicht den Test am Anfang besteht.

    Hier kann man verschiedene Schwellwerte einstellen und damit wie genau der Switch die Strecke prüft.


    Hier würde ich also auch bei der Verkabelung ansetzen und diese ganz genau prüfen, am besten ist dazu ein Messgerät was die Strecke zertifizieren kann.

    Die sind aber für privat unbezahlbar.

  • Danke für die Tipps! Ich werde das weiter untersuchen.
    Ich verwende ein prosafe xs712t. Also Managed-Switch.

  • Also mit anderen PCs kommt es an anderen 10Gbit Switch-Steckplätzen mit anderen cat6a-Kabeln auch zu solchen Fehlern(Ø350mb/s). 1Gbit macht übrigens anscheinend keine oder so selten Probleme, dass man es nicht merkt. Ich wollte es dann mit Tunderbolt direkt am NAS probieren. Anscheinend kann man aber seit Windows 1903 nicht mehr problemlos mit Thunderbolt aufs NAS schreiben. :/ (Tolles Feature)

    So und dann habe ich aber noch probiert einen Laptop mit Thunderbolt-10GBE-Adapter direkt mit dem 10Gbit-Anschluss vom NAS zu verbinden. Und Siehe da: Dann gab es keine Prüfsummenabweichungsfehler mehr( trotz Ø 400mb/s). Also würde ich behaupten, dass das Problem am Netzwerk oder Switch liegt. Das ist wie gesagt ein Netgear prosafe xs712t. Leider kenne ich mich damit nicht besonders aus. Kann mir jemand sagen, wie ich mit dem Webinterface dem Problem auf die Spur kommen könnte? Firmwareupdate habe ich sicherheitshalber schon mal gemacht. Hat natürlich nichts gebracht und das NAS habe ich übrigens auch schon an andere Anschlüsse angeschlossen.

  • Wie ist denn die Verkabelung, NAS - Switch direkt oder ist da Tertiärverkabelung dabei?


    Wenn PC - NAS Fehlerfrei, NAS - Switch - PC aber dann Fehler zeigen, dann ist entweder ein Kabel defekt, was sich ja mit dem Test NAS - PC direkt einfach feststellen lässt, oder aber der Switch ist ne Gurke.


    Ich halte von Netgear nicht sonderlich viel was deren große Kisten angeht. Mag sein das die viel Garantie und wenig € mitbringen, aber die scheinen auch so zu funktionieren. Bin halt vom Job Cisco und HP gewöhnt.

    Dann aber auch nur CLI, auf der GUI sucht man sich ja tot.


    Einige Hersteller geben 10G Base-T ja auch nur für 30m Streckenlänge frei, da liegst du nicht drüber oder?

  • Bin halt vom Job Cisco und HP gewöhnt.

    :thumbup::)

    Dann aber auch nur CLI, auf der GUI sucht man sich ja tot.

    Wenn man täglich damit arbeitet ist CLI sicher schneller, aber wenn man 2 mal im Jahr etwas machen muss ist CLI doch etwas mühsam. Bin ein Freund davon, wenn ich alles mit beidem machen kann. ;)

    1Gbit macht übrigens anscheinend keine oder so selten Probleme, dass man es nicht merkt.

    Hmm. MTU, überall gleich? Oder sind die bei den 10GbE anders konfiguriert?

    Einmal editiert, zuletzt von Mavalok2 ()

  • Danke für die Rückmeldung. MSU ist überall 1500 und Prüfsummenabweichungsfehler kommt auch wenn ich PC und NAS mit verschiedenen (kurzen, cat6a) Kabeln direkt ans Switch stecke. Wie gesagt, direkt am NAS nicht.
    Dass es mit dem Virtual Switch durcheinander kommt, kann nicht sein? Wundert mich auch, dass es nur beim Schreiben aufs NAS passiert. Thunderbolt-Bridge schreiben geht ja auch überhaupt nicht. Vielleicht gibt es da einen Zusammenhang...
    Ich werde als nächstes mal die Firma kontaktieren, die den Switch installiert hat. Die kennen sich damit mehr aus.

  • Dann ist der Switch hier wohl das Problem.

    Andere Ports testen wenn weiterhin Defekte auftreten ist der Switch die Ursache.

  • Und vielleicht sollte man auch den Threadtitel anpassen.

    Hier ist es ja eindeutig mal nicht QNAP, das für fehlerhafte Daten schuldig ist 8).


    Aber wie im richtigen Leben Storage ist IMMER Schuld. :P


    Gruss

  • Mal nebenbei, auch wenn scheinbar das LAn bereits identifiziert wurde:

    Läuft auf dem Windows PC während des Kopiervorgangs ein Virenscanner?

    Falls ja, würde ich den zum testen mal abschalten.

    Über Thunderbolt scheint das Problem zwar nicht aufzutreten, aber viellecht gilt der Windows intern nicht als LAN Adapter und der Scanner beachtet den deswegen nicht beim on demand scan...


    Gruß

    Martin