Fehlerhafte Festplatte finden

  • Hallo Zusammen,


    Ich habe seit einigen Tagen immer wieder unerwartete Reboots meines NAS. Nach dem Reboot ist das Raid out of sync und muss sich jedes Mal neu synchronisieren. Bislang konnte ich noch keine genaue Ursache dafür finden, warum das NAS ohne zu fragen komplett neustartet.


    Nach etwas Wühlen in den Logfiles konnte ich folgende Zeilen vor jedem Reboot finden:

    Code
    <3>[25036.214804] ata1.00: exception Emask 0x10 SAct 0x7fffffff SErr 0x280100 action 0x6 frozen<3>[25036.222982] ata1.00: irq_stat 0x08000000, interface fatal error<3>[25036.228895] ata1: SError: { UnrecovData 10B8B BadCRC }<3>[25036.234034] ata1.00: failed command: READ FPDMA QUEUED<3>[25036.239173] ata1.00: cmd 60/80:00:88:80:29/02:00:41:00:00/40 tag 0 ncq 327680 in<3>[25036.239173]          res 40/00:e0:08:94:29/00:00:41:00:00/40 Emask 0x10 (ATA bus error)<3>[25036.254535] ata1.00: status: { DRDY }<3>[25036.258197] ata1.00: failed command: READ FPDMA QUEUED<3>[25036.263341] ata1.00: cmd 60/00:08:88:85:29/04:00:41:00:00/40 tag 1 ncq 524288 in<3>[25036.263341]          res 40/00:e0:08:94:29/00:00:41:00:00/40 Emask 0x10 (ATA bus error)<3>[25036.278706] ata1.00: status: { DRDY }<3>[25036.282371] ata1.00: failed command: READ FPDMA QUEUED<3>[25036.287511] ata1.00: cmd 60/80:10:08:74:29/00:00:41:00:00/40 tag 2 ncq 65536 in<3>[25036.287511]          res 40/00:e0:08:94:29/00:00:41:00:00/40 Emask 0x10 (ATA bus error)



    Offenbar hat eine Festplatte Probleme. Es ist auch immer der Anschluss "ata1.00". Ich denke / hoffe dass es mit einem Festplattentausch getan ist, leider weiß ich nicht welche Festplatte an diesem Anschluss hängt. Wie kann ich das rausfinden?


    Vielleicht helfen folgende Ausgaben noch weiter:


    Code
    [/mnt/HDA_ROOT/.logs] # cat /proc/mdstatPersonalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]md0 : active raid10 sdg3[15] sdj3[14] sdi3[13] sda3[12] sdb3[11] sdd3[10] sdc3[4] sdf3[3] sde3[2] sdh3[1]      14643487680 blocks super 1.0 64K chunks 2 near-copies [10/10] [UUUUUUUUUU]      [>....................]  resync =  3.4% (503077504/14643487680) finish=1238.9min speed=190224K/secmd256 : active raid1 sdj2[9](S) sdi2[8](S) sda2[7](S) sdb2[6](S) sdd2[5](S) sdc2[4](S) sdf2[3](S) sde2[2](S) sdh2[1] sdg2[0]      530112 blocks super 1.0 [2/2] [UU]      bitmap: 0/1 pages [0KB], 65536KB chunkmd13 : active raid1 sdg4[0] sdj4[9] sdi4[8] sda4[7] sdb4[6] sdd4[5] sdc4[4] sdf4[3] sde4[2] sdh4[1]      458880 blocks [10/10] [UUUUUUUUUU]      bitmap: 0/57 pages [0KB], 4KB chunkmd9 : active raid1 sdg1[0] sdj1[9] sdi1[8] sda1[7] sdb1[6] sdd1[5] sdc1[4] sdf1[3] sde1[2] sdh1[1]      530048 blocks [10/10] [UUUUUUUUUU]      bitmap: 3/65 pages [12KB], 4KB chunkunused devices: <none>

    Über jegilichen Tipp würde ich mich sehr freuen :love:

  • Geh in den Speichermanager , da kannst Du jede einzelne Platte anklicken
    Eventuell sagt die Smart Info direkt was aus
    Wenn nicht, lass jede Platte einzeln mal testen.

  • Hallo,


    Sorry diese Information habe ich vergessen:
    Alle Smartwerte und alle Informationen die ich über die Weboberfläche finden kann sind "gut". Deswegen bin ich ja auch erst auf die Idee gekommen die Logs zu durchschauen, weil die Weboberfläche mir nicht die geringsten Probleme (außer dass das NAS unerwartet rebootet worden ist) anzeigt.


    Hallo,


    Nach viel Rumsuchen habe ich nun, denke ich, die Lösung gefunden:


    Schritt 1: ATA1.00 zu Adresse mappen:


    Der Befehl: ls -l /sys/class/ata_port/ liefert folgende Ausgabe:

    Code
    ls -l /sys/class/ata_port/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata1 -> ../../devices/pci0000:00/0000:00:1f.2/ata1/ata_port/ata1/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata10 -> ../../devices/pci0000:00/0000:00:1c.4/0000:05:00.0/ata10/ata_port/ata10/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata11 -> ../../devices/pci0000:00/0000:00:1c.5/0000:06:00.0/ata11/ata_port/ata11/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata12 -> ../../devices/pci0000:00/0000:00:1c.5/0000:06:00.0/ata12/ata_port/ata12/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata13 -> ../../devices/pci0000:00/0000:00:1c.6/0000:07:00.0/ata13/ata_port/ata13/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata14 -> ../../devices/pci0000:00/0000:00:1c.6/0000:07:00.0/ata14/ata_port/ata14/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata2 -> ../../devices/pci0000:00/0000:00:1f.2/ata2/ata_port/ata2/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata3 -> ../../devices/pci0000:00/0000:00:1f.2/ata3/ata_port/ata3/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata4 -> ../../devices/pci0000:00/0000:00:1f.2/ata4/ata_port/ata4/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata5 -> ../../devices/pci0000:00/0000:00:1f.2/ata5/ata_port/ata5/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata6 -> ../../devices/pci0000:00/0000:00:1f.2/ata6/ata_port/ata6/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata7 -> ../../devices/pci0000:00/0000:00:1c.3/0000:04:00.0/ata7/ata_port/ata7/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata8 -> ../../devices/pci0000:00/0000:00:1c.3/0000:04:00.0/ata8/ata_port/ata8/lrwxrwxrwx    1 admin    administ         0 Nov 29 09:59 ata9 -> ../../devices/pci0000:00/0000:00:1c.4/0000:05:00.0/ata9/ata_port/ata9/


    Hier sieht man: ata1 hat die Adresse: pci0000:00/0000:00:1f.2/ata1/
    Dies ist wichtig und diese merken wir uns für Schritt 2.


    Schritt 2: Adresse zu Device mappen


    Befehl: ls -l /sys/block/sd*


    Man erhält eine lange Liste zu jedem SDx - Festplattendevice:



    Code
    ls -l /sys/block/sd*/sys/block/sda:-r--r--r--    1 admin    administ      4096 Nov 29 10:17 alignment_offsetlrwxrwxrwx    1 admin    administ         0 Nov 29 10:17 bdi -> ../../devices/virtual/bdi/8:0/-r--r--r--    1 admin    administ      4096 Nov 29 10:17 capability-r--r--r--    1 admin    administ      4096 Nov 29 10:17 devlrwxrwxrwx    1 admin    administ         0 Nov 29 10:17 device -> ../../devices/pci0000:00/0000:00:1f.2/ata1/host0/target0:0:0/0:0:0:0/-r--r--r--    1 admin    administ      4096 Nov 29 10:17 discard_alignment-r--r--r--    1 admin    administ      4096 Nov 29 10:17 events-r--r--r--    1 admin    administ      4096 Nov 29 10:17 events_async-rw-r--r--    1 admin    administ      4096 Nov 29 10:17 events_poll_msecs-r--r--r--    1 admin    administ      4096 Nov 29 10:17 ext_rangedrwxr-xr-x    2 admin    administ         0 Nov 29 10:17 holders/-r--r--r--    1 admin    administ      4096 Nov 29 10:17 inflightdrwxr-xr-x    2 admin    administ         0 Nov 29 10:17 power/drwxr-xr-x    3 admin    administ         0 Nov 29 10:17 queue/-r--r--r--    1 admin    administ      4096 Nov 29 10:17 range-r--r--r--    1 admin    administ      4096 Nov 29 10:17 removable-r--r--r--    1 admin    administ      4096 Nov 29 10:17 rodrwxr-xr-x    4 admin    administ         0 Nov 29 10:08 sda1/drwxr-xr-x    4 admin    administ         0 Nov 29 10:17 sda2/drwxr-xr-x    4 admin    administ         0 Nov 29 00:36 sda3/drwxr-xr-x    4 admin    administ         0 Nov 29 10:17 sda4/-r--r--r--    1 admin    administ      4096 Nov 29 10:17 sizedrwxr-xr-x    2 admin    administ         0 Nov 29 10:17 slaves/-r--r--r--    1 admin    administ      4096 Nov 29 10:17 statlrwxrwxrwx    1 admin    administ         0 Nov 29 10:17 subsystem -> ../../block/-rw-r--r--    1 admin    administ      4096 Nov 29 10:07 uevent

    Man sieht in Zeile 2, hier in meinem Ausschnitt wird "sda" behandelt. In Zeile 7 finden wir unsere Adresse wieder aus Schritt 1. Wir wissen nun, dass das gesuchte Drive "sda" ist. Nun ist noch die Frage in welchem HDD Tray diese Festplatte hängt.


    Schritt 3: Device zu Festplatten Tray


    Leider zeigt die Qnap Weboberfläche im Speichermanager nicht an, welche Festplatte, welches Device ist. Da ich 10 gleiche Festplatten verbaut habe, sind diese nur schwer zu unterscheiden. Per: hdparm -I /dev/sda | grep Serial
    kann ich mir jedoch alle Informationen zu der Festplatte "sda" anzeigen lassen. Unter anderem auch die Seriennummer.



    Code
    hdparm -I /dev/sda | grep Serial
    Serial Number:      Z1Y0xxxK

    Diese merke ich mir ebenfalls und schaue im Speichermanager mit jede Festplatte an. Der Button "Datenträgerinfo" liefert mir dann, sogar visuell, welche Festplatte meine defekte ist.



    Ich hoffe das hilft jemanden, falls er mal in der gleichen Bredulie ist, wie ich.

  • Entschuldige, dass ich hier nach 1,5 Jahre einfach so antworte.


    Auch mein QNAP stürzt seit ein paar Tagen regelmässig ab und verzeichnet in den Logs die exakt gleiche Fehlermeldung. Mit deiner Anleitung konnte ich bereits die betroffene Festplatte ausfindig machen. Vielen Dank für die Hilfestellung. Nur noch eine kleine Nachfrage: war bei dir das Problem nach dem Austauschen der Festplatte gelöst oder war etwas anderes die Ursache für die regelmässigen Neustarts?