TS-869 Pro -Raid6 -Plötzlich 2 Platten aus dem Raid offline

  • Hi



    Hallo erst mal an alle aus dem Forum. Leider treibt mich ein Problem hier her :(


    Es handelt sich um ein TS-869 Pro
    RAID6 - mit 5 Festplatten -
    Seagate ST3000DM001-9YN1CC4B (3 TB) - also passend gemäß Hardwarecomp. Liste - und auch für den 24/7 Einsatz.
    Das Ding hängt auch gut gekühlt an einer USV.


    Jetzt habe ich gerade eine Email erhalten - da ich die automatischen Benachrichtigung eingeschaltet habe -


    Level: Warning
    Raid6 Disk Volume: Drive 1 2 3 4 5 Rebuilding skipped.


    Die NFS Freigabe war auch gleichzeitig nicht mehr online :(


    Ich habe das gute Stück jetzt mal neu gestartet. Die NFS Freigabe ist zwar wieder online. Allerdings nur lesend :cry:
    Aber ich habe im Log die Einträge:


    LOG:

    Code
    2013-05-05325 19:50:29 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5] Rebuilding skipped.  2013-05-05324 19:50:14 System 127.0.0.1 localhost Lan 2 link is Up.  2013-05-05323 19:48:29 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5 Hot Spare Disk: 5] Mount the file system read-only.  2013-05-05322 19:48:26 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5 Hot Spare Disk: 5] Mount the file system read-only.  2013-05-05321 19:48:19 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 5 added into the volume.  2013-05-05320 19:48:19 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 4 added into the volume.  2013-05-05319 19:48:06 System 127.0.0.1 localhost System started.  2013-05-05318 19:46:14 System 127.0.0.1 localhost System was shut down on Sun May 5 19:46:14 CEST 2013.  2013-05-05317 19:43:42 admin 192.168.0.4 --- [Power Management] System will be restart now.  2013-05-05316 17:39:09 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5] Error occurred while accessing the devices of the volume in degraded mode.



    Der Smart Status aller Platten ist ok. Ebenso die Temp.


    Unter dem Raid Management sehe ich nur:


    RAID 6 Disk Volume: Drive 1 2 3 5
    8313.05 GB No In degraded mode Read only , Failed Drive(s): 2 No operation can be executed for this drive configuration.


    Ich kann also im Moment nix machen. Und der Rebuild läuft nicht.
    Wie komme ich überhaupt darauf, welche Disks jetzt beide defekt sind?
    Oder kann ich das Rebuild irgendwie manuell anwerfen? Ich kann im Raid Menü ja wirklich gar nix anklicken...



    cat /proc/mdstat

    Code
    [/] # cat /proc/mdstatPersonalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multi           path]md0 : active (read-only) raid6 sde3[4](S) sdd3[3](F) sda3[0] sdc3[2] sdb3[1]      8786092608 blocks super 1.0 level 6, 64k chunk, algorithm 2 [5/3] [UUU__]md8 : active raid1 sde2[2](S) sdd2[3](S) sdc2[4](S) sdb2[1] sda2[0]      530048 blocks [2/2] [UU]md13 : active raid1 sda4[0] sde4[4] sdd4[3] sdc4[2] sdb4[1]      458880 blocks [8/5] [UUUUU___]      bitmap: 40/57 pages [160KB], 4KB chunkmd9 : active raid1 sda1[0] sde1[4] sdd1[3] sdc1[2] sdb1[1]      530048 blocks [8/5] [UUUUU___]      bitmap: 56/65 pages [224KB], 4KB chunkunused devices: <none>[/] #



    dmesg



    Besten dank für jeden Tipp


    viele Grüße

  • Moin,


    Tja, nen Backup hast du ja sicher, von daher erstmal alles halb so Wild


    interresant wäre noch zu wissen was vorher im LOG steht.


    ansonsten die Platten rausnehmen und in einem PC platt machen und checken. Anschließend wenn i.O. wieder einbauen.

  • Danke für deine Antwort.
    Also auf dem NAS liegen eigentlich die Backups. Zum Großteil gibt es schon noch eine zweite Sicherung.


    Aber das NAS ganze sollte ja doch dauerhaft stabil laufen - Das ganze Raid platt machen und neu erstellen? Geht das wirklich nicht anders?
    Es würde zwar vermutlich funktionieren - aber es stärkt nicht gerade das Vertrauen in das Raid...
    Ich würde deshalb gerne die Ursache finden und beheben.


    Log:





    Also laut log sind die Platten 2 + 3 defekt? Aber warum hab ich dann nur noch lese Zugriff?!
    Im Raid6 dürften mir doch 2 Platten abrauchen...
    Bis gestern war auf alle Fälle schreibender Zugriff auf das NAS möglich.


    Dann Probiere ich mal die "Plattmach" Lösung an diesen beiden Platten!

  • Also hier schon mal, ein möglicher Auslöser,.... auch wenn es ein paar Tage früher passierte ist, toff ist das allemal nicht.

    Code
    296 12:46:53 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5] The file system is not clean. It is suggested that you run "check disk". 2013-04-24295 12:46:39 System 127.0.0.1 localhost System started. 2013-04-24294 12:46:38 System 127.0.0.1 localhost The system was not shut down properly last time.

    Das System würde nicht sauber runtergefahren tippe mal auf einen Stomausfall, daher meine Empfehlung zur Anschaffung einer USV,...



    Du sollst nur die beiden Platten die Probleme machen im PC platt machen, also die Partiotion löschen, so das das NAS diese (wenn sie den keine weiteren Fehler zeigen nach Wiedereinbau) als jungfreulich erkennt, und wieder in das RAID interiert.


    Warum wurde der Rebuild abgebrochen?

    Code
    2013-05-05
    325 19:50:29 System 127.0.0.1 localhost [RAID6 Disk Volume: Drive 1 2 3 4 5] Rebuilding skipped.
  • Also eigentlich hängt das gute Stück schon an einer USV. Aber es gab tatsächlich einen Stromausfall, bei dem es nicht mehr ganz heruntergefahren werden konnte.


    Also der Rebuild wurde von mir nicht abgebrochen. Das muss automatisch passiert sein.


    Sehe ich das jetzt schon richtig, dass Drive 2 + 3 die Probleme verursachen? Nicht, dass ich die falschen ziehe :)


    Unter Volume Management sehe ich nämlich jetzt:
    RAID 6 Disk Volume: Drive 1 2 3 5 EXT4


    Also fehlt mir da irgendwie die Disk4.


    Über die 2 "verdächtigen" Platten habe ich auch vorher noch einen Bad Block Scan gestarte.


    Vielen dank für die Hilfe! :thumb:

  • Zitat von "randyh"

    Also eigentlich hängt das gute Stück schon an einer USV. Aber es gab tatsächlich einen Stromausfall, bei dem es nicht mehr ganz heruntergefahren werden konnte.


    Zu klein dimensioniert, Akku platt oder einfach nur leergelaufen (falsch konfiguriert),.... :?:


    Zitat von "randyh"

    Sehe ich das jetzt schon richtig, dass Drive 2 + 3 die Probleme verursachen? Nicht, dass ich die falschen ziehe :)


    Laut protokoll würde ich das so sehen.




    Zitat von "randyh"

    Unter Volume Management sehe ich nämlich jetzt:
    RAID 6 Disk Volume: Drive 1 2 3 5 EXT4


    Also fehlt mir da irgendwie die Disk4.


    haste mal nen Screenshot

  • Hm, da bin ich mir jetzt aber auch unsicher

  • Zitat von "randyh"
    Code
    # cat /proc/mdstat
    Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
    md0 : active (read-only) raid6 sde3[4](S) sdd3[3](F) sda3[0] sdc3[2] sdb3[1]
          8786092608 blocks super 1.0 level 6, 64k chunk, algorithm 2 [5/3] [UUU__]


    Hi,
    hiert steht sdd3, also FP4 auf faulty.

  • Zitat von "frosch2"

    hiert steht sdd3, also FP4 auf faulty.


    ...und interessanter Weise Platte 5 (sde3) auf Spare. :-/
    Da hat es wohl zusätzlich was in der RAID-Konfiguration zerbröselt.

  • Stimmt, ich würde alles Weitere auf der Konsole machen, denn das GUI scheint da etwas durcheinander zu bringen.

  • danke euch für die tolle Hilfe.


    Also der Bad Block Scan hat wirklich was gebracht!




    Das gute Stück ist wieder soweit online. Und auch unter den logical Volumes finde ich jetzt wieder:
    RAID 6 Disk Volume: Drive 1 2 3 4 5


    Das ist schon alles komisch.
    Die Platten müssen alle Fälle getauscht werden. Es ist auch irgendwie ungewöhnlich, dass zwei Platten wirklich innerhalb von zwei Minuten nacheinander aufgeben.


    Und was mich wundert - wieso ich nur noch Read Only Zugriff hatte :shock:

  • Zitat von "randyh"

    wieso ich nur noch Read Only Zugriff hatte


    Das ist ein "Schutzmechanismus" des RAID's