DA Drive Analyzer : Laufwerksausfälle vorhersagen - Die neue App unter der Lupe

[PROLOG]

Vor einigen Wochen hat QNAP die QTS 5.0 Beta veröffentlicht, natürlich habe ich mir nicht entgehen lassen, diese zunächst einmal auf meinem Bastelsystem anzusehen. Sei es drum. Mit der QTS 5.0 Beta wurde auch die App „DA Drive Analyzer“ vorgestellt, die sich ebenfalls noch im Betastatus befindet. Selbstredend habe ich mir diese App ebenfalls angeschaut und möchte meine Eindrücke nun hier teilen.


[ALLGEMEINES]

Diese App wurde zwar mit der QTS 5.0 Beta vorgestellt, ist aber auch für Geräte mit QTS ab 4.5.2 verfügbar und soll Laufwerksausfälle vorhersagen können. Dabei beruft sich die App nicht (nur) auf die reinen S.M.A.R.T Werte, sondern sammelt Nutzungsdaten und vergleicht diese mit allen zur Verfügung stehenden Datensätzen, welche in einer Cloud (3rd party) bereitgestellt werden. Ein wirklich umfassender Erfahrungsbericht wird sicherlich erst in mittlerer Zukunft möglich sein, denn zunächst kann mir die App ja viel erzählen, den Wahrheitsgehalt jedoch werde ich so schnell kaum beurteilen können.


Die App muss zunächst 14 Tage lang Daten sammeln, damit sie überhaupt etwas anzeigt. Die verwendeten Datenträger müssen zudem von der App unterstützt sein, weshalb ich die App testweise auf zwei Produktivsystemen installiert habe, da ich im Bastelsystem "ältere" Desktop-Datenträger verwende und daher wenig Hoffnung habe, dass diese unterstützt werden, auch wenn die Kompatibilitätsliste ellenlang ist. Die Installation der Beta-App offenbart schon, dass es ein Lizenzsystem geben und die Nutzung der App nicht kostenlos sein wird, denn für die Beta muss ich zunächst eine kostenlose Lizenz beantragen, diese ist drei Monate gültig und man kann je QNAP Account bis zu drei Beta-Lizenzen beantragen.

Das ist nicht verwunderlich, denn der Softwareentwickler "ULINK" ist auf Prüfsoftware für Datenträger spezialisiert und wie es sich für hochwertige Spezialsoftware gebührt, sind auf der Homepage auch keine Preise angegeben. Klingt jedenfalls vielversprechend.


[STARTEN DER APP]

Nach der Aktivierung und dem Starten von DA Drive Analyzer wird man zunächst aufgefordert, die HDD Analysedaten mit QNAP zu teilen (diese Funktion besteht schon seit geraumer Zeit unter Storage und Snaphsots).

Verweigert man dies, wird die App direkt beendet. Ein späteres Deaktivieren der "Daten-Teilen-Funktion" bewirkt dass man erneut aufgefordert wird die Funktion zu aktivieren. Viele mögen dem skeptisch gegenüberstehen, aus meiner Sicht ist das aber durchaus gerechtfertigt, denn nur so funktioniert dieses Prinzip überhaupt!


Erwartungsgemäß zeigt die App zunächst nicht viel an, außer dass noch 15 Tage lang Daten gesammelt werden müssen.


da_analysis.PNG      DA_drive_pred_syncing.PNG


[WEB-OBERFLÄCHE : ÜBERSICHT]

Mit dem Ablauf der 15 Tage können durch die App endlich Informationen bereitgestellt werden. Auf der Übersichtsseite erfährt man auf einen Blick den Status der im System verbauten Datenträger. Unterschieden wird hier zwischen den Zuständen „fehlerhaft“, „kritisch“, „Warnung“, „normal“, „Datenanalyse läuft“ und (nicht auf dem Screenshot zu sehen) „nicht unterstützte Datenträger“.

Der Schweregrad richtet sich nach der Ausfallwahrscheinlichkeit der Datenträger, eine Warnung gibt es bei 70% Ausfallwahrscheinlichkeit, den Status „Kritisch“ gibt es bei 90%. Ob der Status „fehlerhaft/ defekt“ bedeutet, dass der Datenträger bereits unbrauchbar ist, konnte ich nicht testen.


Unten links auf der Seite werden auffällige Datenträger übersichtlich aufgelistet.

Dazu habe ich eine HDD hinzugefügt, bei der ich einen S.M.A.R.T. Fehler drin habe (198 uncorrectable_sector_count = 1). Eine schlechtere HDD habe ich leider nicht gefunden und wollte ich auch nicht „herstellen“ 😉.


Nachfolgende Screenshots stammen aus zwei unterschiedlichen Systemen, also nicht wundern.


Übrigens:

Logischerweise ist die anfängliche Sammlung von Nutzungsdaten je Datenträger erforderlich. Baut man also später einen Datenträger ein, so muss für diesen ebenfalls zunächst 15 Tage lang gesammelt werden.

gui_overview.PNG     gui_overview_faulty.PNG


[DRIVE PREDICTION]

Auf dieser Seite erfährt man die ersten Details zu den Datenträgern, welche sich hier auswählen lassen. Dabei wird auch gleich danach gruppiert, wo sich die Datenträger befinden, also im NAS selbst, in einem Erweiterungsgehäuse, in eventuellen M.2 Slots oder vermutlich auch an Erweiterungskarten. Neben allgemeinen Infos zum Datenträger wird hier der „Prediction Score“, also „Vorhersagewert“ samt grafischem Verlauf angezeigt. Je niedriger dieser Wert ist, desto höher ist die Wahrscheinlichkeit eines Ausfalls. Mit dem Button „Maßnahme ergreifen" (Take Action) bei auffälligen Datenträgern erhält man ein Popup, welches kurz und knapp empfiehlt ein Backup zu erstellen und das Laufwerk zu ersetzen, dabei wird auch auf entsprechende Docs von QNAP verwiesen.


So richtig schlüssig ist das alles für mich noch nicht, was aber auch daran liegen mag, dass ich keine Datenträger in schlechterem Zustand habe, um hier vergleichen und das Verhalten verstehen zu können.


gui_driveprediction.PNG     gui_driveprediction_faulty.PNG


Mehr Aufschluss könnte aber der „extra Cloud Bericht“ liefern, den man hier abrufen kann:

Neben dem grafischen Verlauf des Vorhersagewertes finden sich hier grafische Verläufe zu Temperatur sowie IOPS-Tests (R/W), welche offensichtlich täglich durchgeführt werden. Ich bin da nicht so im Thema, aber ist das nicht etwas stressig für die Datenträger? Was mir jedenfalls auffällt: Alle Datenträger sind beim Schreiben schneller als beim Lesen… ich denke mal da ist ein kleiner Fehler in der Grafik… Außerdem werden hier auch S.M.A.R.T. Werte mit Wochenverlauf angezeigt, auf den ersten Blick werden hier mehr Parameter ausgewertet, als es unter Storage und Snapshots der Fall ist. Näher betrachtet scheint dies an den Werten „Logical Read“ und „Logical Write“ zu liegen, bei denen ich allerdings keinen Bezug zu S.M.A.R.T. finden kann.


gui_extracloudreport.PNG     gui_extracloudreport_faulty.PNG

[E-MAIL WARNUNGEN]

In diesem Menüpunkt kann man unterschiedliche Benachrichtigungen konfigurieren, welche offensichtlich nicht vom NAS selbst, sondern aus der ULINK-Cloud verschickt werden, in der sich übrigens sämtliche Ergebnisse befinden und lediglich von der App abgerufen werden.


[VORHERSAGEVERLAUF]

Hier gibt es nochmal eine Übersicht zu allen Datenträgern, welche den Status „kritsch“ oder „Warnung“ aufweisen. Die Liste lässt sich in eine .CSV exportieren.


gui_predictionhistory_faulty.PNG


[ULINK-WEBSITE]

Neben der Web-Oberfläche der App gibt es die Möglichkeit detailiertere Informationen auf der Website des Softwareherstellers einzusehen. Hier meldet man sich mit seinem QNAP Konto an; die Seite macht den Eindruck, als würde die Software für oder mit QNAP entwickelt worden sein, was ULINK auf der Homepage auch bestätigt. Der Informationsgehalt scheint wesentlich umfangreicher zu sein, natürlich wird auch hier nichts angezeigt, bis die Datensammlung abgeschlossen ist. Sollte man DA Drive Analyzer auf mehreren Geräten verwenden, werden hier alle Systeme samt Erweiterungsgehäuse übersichtlich aufgelistet, sodass man einen guten Überblick über alle Datenträger-Zustände sämtlicher Systeme erhält.


Auf der Startseite erhält man eine Übersicht über den Status der Datenträger in allen Systemen.


web_overview_allsys.PNG


Wählt man ein System, so erhält man die entsprechenden Zustände sowie Systeminformationen für das gewählte Gerät. Hier scheint etwas nicht zu passen, denn mir wird angezeigt, dass ein Datenträger eine SSD sei, obwohl keine verbaut ist.


web_overview_sys.PNG


Geht man im Navigationsbaum links weiter auf das Rack 0, welches hier das NAS selbst ist, erhält man einen Überblick über die darin befindlichen Datenträger. Würde ich ein Erweiterungsgehäuse haben, so würde dies vermutlich unter „Rack 1“ separat aufgeführt sein. Hier erfahre ich nun erste allgemeine Details zu den Datenträgern sowie über die RAID Konfiguration.


web_overview_rack.PNG


Hat man im Navigationsbaum letztlich einen Datenträger ausgewählt, fängt es so langsam an spannend zu werden:

Auf der ersten Seite „AI Predictions“ wird wieder der Status-Verlauf der letzten 7 Tage aufgeführt (AI Predictions).

Über die Info Buttons erhält man nun auch weitere Informationen, die etwas darüber aussagen, wie der DA Drive Analyzer funktioniert. Die hier angezeigte HDD weist ein moderates Ausfallrisiko (Moderate Risk of Failure) auf, was seitens ULINK eine Vorhersage darüber trifft wie wahrscheinlich es ist, dass der Datenträger in einen schlechten Gesundheitszustand verfällt, aber noch nicht defekt ist.


Direkt darunter folgt die Übersicht „Detected Faults“ in der 7 Tage Übersicht. Hier würde aufgeführt werden (meine Test-HDD betrifft es noch nicht), dass ein Datenträger Anzeichen eines schlechten Gesundheitszustands übermittelt hat, der auf einen baldigen Defekt des Datenträgers hindeutet.

Die Begriffe „Fault“ und „Failure“ müssen hier also strikt voneinander getrennt werden.


Oben rechts wird angezeigt, wie viel Daten für den Datenträger in den letzten Tagen zur Bewertung verfügbar waren. Bei diesem Datenträger sind es noch keine 100%, da dieser erst seit drei Tagen mit der Datensammlung fertig ist.


web_overview_drive.PNG


Auf der zweiten Seite „Operating Summary“ erhält man einen schicken Überblick, über verschiedene Parameter, die wir schon in der Web-Oberfläche der App kennengelernt haben. Wenn ich nicht völlig falsch liege, kann das Ergebnis der IOPS auch hier nicht korrekt dargestellt sein.


web_opsummary.PNG


Weiter auf der Seite „Alerts and Drive Stats“ bekommt man die volle Wucht an Statistiken und Parametern übergebügelt. Neben den bereits bekannten S.M.A.R.T. Parametern bekommt man nun auch weitere Einblicke in die Funktionsweise vom DA Drive Analyzer: Unter „Other Drive Stats“ werden zusätzliche Parameter (teilweise sicherlich auf S.M.A.R.T. basierend) bezüglich Laufzeit und täglichen Änderungen ausgewertet. Darauf basierend werden entsprechende Alarme ausgelöst, welche in „General“ (eher gutartig) und „Warning“ (eher bösartig) unterteilt sind und sich entsprechend auf Gesundheitszustand und Ausfallrisiko auswirken. Hier wird also nicht wie bei S.M.A.R.T. der totale Wert eines Parameters ausgewertet, sondern auch, wie häufig/ stark sich Werte ändern bzw. Ereignisse wiederholen. Zu sämtlichen Parametern gibt es einen grafischen 7-Tages-Trend.

Außerdem sei angemerkt, dass die Anzahl der auswertbaren Parameter je nach Datenträger-Modell variiert. So hat die im Screenshot gezeigte alte Desktop HDD nur 19 auswertbare Parameter, eine WD Red (EFRX) hingegen 31.


web_drivestats.PNG


[FAZIT]

Das offene Geheimnis vom DA Drive Analyzer ist (unter anderem) offensichtlich die Auswertung täglicher Parameteränderungen und Vergleich mit den vorliegenden Daten aller weltweit eingesetzen Datenträgern. Wie gut und wie zuverlässig hiermit Aussagen getroffen werden können, mag ich nach so kurzer Testzeit nicht beurteilen. Für mich daheim mit meinen immerhin vier Produktivsystemen brauche ich den DA Driver Analyzer sicherlich nicht und kann weiterhin auf die reinen S.M.A.R.T.-Daten vertrauen. Hier hat sich während dem Test aber direkt etwas in meinem Kopf getan: Für mich stand bislang fest, dass ich Datenträger mit einem oder mehreren „uncorrectable sectors“ schnellstmöglich austauschen sollte. Bestimmt werde ich das auch beibehalten, der DA Drive Analyzer sieht das aber noch nicht ganz so eng, denn für die eingesetze HDD mit diesem Problem gibt es zunächst lediglich eine nicht-kritische Warnung. Dies würde sich garantiert ändern, wenn sich der Wert in nächster Zeit erhöht, allerdings nicht, weil der Totalwert angestiegen ist, sondern weil der Anstieg innerhalb einer gewissen Zeit erfolgt. Dies könnte ich tagtäglich selbst prüfen und bewerten, was mir jedoch schon bei einem Datenträger zu viel Arbeit wäre. Genau dies übernimmt der DA Drive Analyzer für einen.


In Szenarien mit vielen Systemen und noch mehr Datenträgern hingegen ist der DA Drive Analyzer sicherlich ein richtig gutes und mächtiges Feature, hier hat mich vor allem die Übersichtlichkeit aller Systeme und Datenträger auf der ULINK-Website überzeugt. Sicherlich spielt auch hier der Preis eine große Rolle, sollte dieser aber vertretbar sein und ich müsste ein großes Storage aus vielen Systemen und vor allem unzähligen Datenträgern betreuen: Ich würde den DA Drive Analyzer prinzipiell einsetzen wollen, auch wenn noch keine Erfahrungen zur Zuverlässigkeit vorliegen.


[EPILOG]

Der Vertrauenswürdigkeit vom DA Drive Analyzer stehe ich nach so kurzer Testzeit noch skeptisch gegenüber, bin mir aber recht sicher, dass der hinterlegte Algorithmus Hand und Fuß haben wird, schließlich ist ULINK darauf spezialisiert. Zwei Monate laufen meine Testlizenzen noch, so lange werde ich den DA Drive Analyzer auch noch laufen lassen und schauen, ob sich noch etwas ergibt.

Schade eigentlich, denn ich finde 3 Monate für so eine App etwas kurz bemessen, zumal ja noch ein halber Monat für das Datensammeln draufgeht.


Schade auch, dass heute schon wieder Montag ist… man kann sich natürlich über alles beklagen wenn man möchte… oder aktiv gegenwirken. Cheers! :beer:

Kommentare 12

  • Die zuvor genannten Probleme halten nun seit etwa drei Wochen an, die Lizenz läuft nur noch etwa zwei Wochen und ich gehe nicht davon aus, dass ich nochmal die Möglichkeit haben werde hier nochmal Einsicht zu erlangen. Der Test ist für mich somit leider vorzeitig beendet und die App wurde auf den beiden Geräten deinstalliert.

  • Momentan scheint es wohl ein paar Probleme seitens ULINK zu geben, seit letzter Woche erhalte ich beim Starten der App die Fehlermeldung


    An unexpected system error has occurred. Contact the QNAP customer service if the issue persists.(Error code: -256)

    Auch ein Login auf der ULINK Seite mit dem QNAP-Konto wird mit "User not found" abgewiesen.


    Die Testlizenzen laufen noch einen Monat, ich hoffe dass ich bis dahin nochmal die Möglichkeit habe zu sehen, was sich hier noch so getan hat.

  • Interessantes Teil. Aber ich frage mich gerade, wo und wer dies wohl einsetzen wird. Ich denke mal, das die Entwicklung und das Betreiben der dazugehörigen Clouddienste nicht ganz kostenfrei sein werden. Also wird es schon einen entsprechenden Betrag kosten. Zahlt eine Privatperson für so etwas? Ist auch eher technisch / statistisch das Ganze.

    In Firmen in deren Racks duzende Systeme mit noch mehr Festplatten stecken finden dies schon eher interessant und sind da möglicherweise auch bereit entsprechend zu bezahlen. Allerdings frage ich mich gerade: Dort liegen doch sicher schachtelweise Ersatzfestplatten in den Schränken, die dann bei Defekt einfach reingeschoben werden. Brauchen die eine Vorhersage, wann dies sein könnte?


    Auf das Backup für die Datensicherheit und auf das entsprechende RAID für Ausfallsicherheit wird wohl niemand auf Grund einer möglichen Vorhersage verzichten wollen, weder im privaten Bereich noch im geschäftlichen Umfeld.


    Nettes Teil für Statistikliebhaber, aber der wirkliche Nutzen will sicher mir noch nicht so ganz erschließen.

    • Sehe ich genauso. Halt eher für große Storage mit vielen HDD, eventuell um Kosten zu sparen, damit nicht gleich beim ersten nicht korrigierbarem Sektor getauscht wird. Eine HDD muss ja kein Verbrauchsmaterial sein... so wegen Eco und so :)


      Als ich anschließend ein kurzes Feedback über das entsprechende Formular abgegeben habe, hatte es den Anschein als solle die Lizenzierung Stufenweise nach Anzahl überwachter Datenträger erfolgen.


      Eventuell ist es für ein paar Datenträger ja gratis, ULINK muss ja auch an Statistiken kommen.

  • Hm... Also ich finde die App ja sehr interessant und konnte sie doch direkt wieder löschen. Leider ist sie nicht nutzbar, da der Zeitraum, wo diese Beta getestet werden konnte, abgelaufen ist am 1.8.2021. Von daher ist es eine App, die absolut null Wert bringt in der aktuellen Form

    • Dass die Betaphase bzw. die Anmeldefrist für den DA zum 1.8.21 endet wusste ich gar nicht... unter diesen Umständen ist die App natürlich vorerst nutzlos, wenn man nicht schon eine Lizenz besitzt.

    • Naja sie wird hoffentlich irgendwann entweder in einer weiteren Testphase kommen oder wir sehen uns dann das fertige Modell an :) Aber interessant sind die Ansätze auf jeden Fall

    • Das ist ja wohl der größte Quark mit diesem hochgelobtem Ulink Drive Analyzer! Auf der QNAP QTS 5.0 Webseite wird das groß als Key-Feature beworben und dann ist es im App-Center gar nicht aufgelistet, obwohl extra steht für ALLE Nas mit QTS 5.0. Und meine TVS-473e zähle ich jetzt nicht zu den Billig-Teilen.

    • Mit der App oder der Kooperation mit ULINK scheint zuletzt irgendwas faul zu sein, die App hatte zuletzt ja nicht funktioniert und selbst direkt bei ULINK war kein Login mehr möglich. Ist schon kurios, dass die App nun im Appcenter verschwunden ist... Hinweise darauf, dass das Projekt eingestellt ist finden sich zumindest nicht, da könnte man allenfalls beim Support nachfragen... mache ich mal, mein letztes Ticket ist schon etwas her :D

    • Anbei die Antwort vom Support (ich frage mich was manche dort über lange Wartezeiten klagen ;) )


      Zitat von QNAP Support

      Sehr geehrter Herr xxx


      vielen Dank für Ihre Nachricht. Ja der Betatest ist abgeschlossen. Momentan wird die KI angelernt und sobald dieser Prozess abgeschlossen ist,
      wird die DA App wieder zur Verfügung stehen.