[TS-439] Raid5 wird sporadisch nicht erkannt

  • Moin, moin,


    mein TS-439 muckt seit gestern ein wenig rum.


    Meine Konfiguration: TS-439 im Raid5 mit 4 Platten Samsung HE103UJ Raidplatten und FW 3.3.3 Build0928


    Mein Problem ist dass das Raid5 beim Hochfahren des Systems nicht erkannt wird sondern 4 Einzelplatten. Dieser Fehler ist aber nicht dauernd, vielleicht bei 30% der Einschaltvorgänge.


    Wenn das Raid5 erkannt wird steht im WebGui :


    Code
    [RAID5 Disk Volume: Drive 1 2 3 4] The file system is not clean. It is suggested that you run "check disk".


    Ich hab dann mal das Raid über die Datenträgerverwaltung des WebGui überprüft (Lief ca. 1Std.) aber das Problem bleibt. Nach einem Neustart werden das Raid gar nicht erkannt bzw. die Fehlermeldung im Systemprotokoll erscheint.
    Wenn das Raid erkannt wird dann läuft der NAS ohne Probleme.


    Hier mal ein paar Protokolle:


    dmesg / das Raid5 wird erkannt:


    Code
    .00 TB/931 GiB)Check proc_name[mvSata].sd 8:0:0:0: [sdc] Write cache: enabled, read cache: enabled, supports DPO and FUAsd 9:0:0:0: Attached scsi generic sg3 type 0 sdb:sd 9:0:0:0: [sdd] Write Protect is offsd 9:0:0:0: [sdd] Mode Sense: 23 00 10 00 sdb1 sdb2 sdb3 sdb4sd 9:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA sdc: sdc1 sdc2 sdc3 sdc4 sdd: sdd1 sdd2 sdd3 sdd4sd 6:0:0:0: [sda] Attached SCSI disksd 7:0:0:0: [sdb] Attached SCSI disksd 8:0:0:0: [sdc] Attached SCSI disksd 9:0:0:0: [sdd] Attached SCSI diskusbcore: registered new interface driver usbfsusbcore: registered new interface driver hubusbcore: registered new device driver usbehci_hcd: USB 2.0 'Enhanced' Host Controller (EHCI) Driver  alloc irq_desc for 23 on node -1  alloc kstat_irqs on node -1ehci_hcd 0000:00:1d.7: PCI INT A -> GSI 23 (level, low) -> IRQ 23ehci_hcd 0000:00:1d.7: setting latency timer to 64ehci_hcd 0000:00:1d.7: EHCI Host Controllerehci_hcd 0000:00:1d.7: new USB bus registered, assigned bus number 1ehci_hcd 0000:00:1d.7: using broken periodic workaroundehci_hcd 0000:00:1d.7: debug port 1ehci_hcd 0000:00:1d.7: cache line size of 32 is not supportedehci_hcd 0000:00:1d.7: irq 23, io mem 0xfe83bc00ehci_hcd 0000:00:1d.7: USB 2.0 started, EHCI 1.00hub 1-0:1.0: USB hub foundhub 1-0:1.0: 8 ports detecteduhci_hcd: USB Universal Host Controller Interface driveruhci_hcd 0000:00:1d.0: PCI INT A -> GSI 23 (level, low) -> IRQ 23uhci_hcd 0000:00:1d.0: setting latency timer to 64uhci_hcd 0000:00:1d.0: UHCI Host Controlleruhci_hcd 0000:00:1d.0: new USB bus registered, assigned bus number 2uhci_hcd 0000:00:1d.0: irq 23, io base 0x0000bc00hub 2-0:1.0: USB hub foundhub 2-0:1.0: 2 ports detecteduhci_hcd 0000:00:1d.1: PCI INT B -> GSI 19 (level, low) -> IRQ 19uhci_hcd 0000:00:1d.1: setting latency timer to 64uhci_hcd 0000:00:1d.1: UHCI Host Controlleruhci_hcd 0000:00:1d.1: new USB bus registered, assigned bus number 3uhci_hcd 0000:00:1d.1: irq 19, io base 0x0000b880hub 3-0:1.0: USB hub foundhub 3-0:1.0: 2 ports detecteduhci_hcd 0000:00:1d.2: PCI INT C -> GSI 18 (level, low) -> IRQ 18uhci_hcd 0000:00:1d.2: setting latency timer to 64uhci_hcd 0000:00:1d.2: UHCI Host Controlleruhci_hcd 0000:00:1d.2: new USB bus registered, assigned bus number 4uhci_hcd 0000:00:1d.2: irq 18, io base 0x0000b800hub 4-0:1.0: USB hub foundhub 4-0:1.0: 2 ports detecteduhci_hcd 0000:00:1d.3: PCI INT D -> GSI 16 (level, low) -> IRQ 16uhci_hcd 0000:00:1d.3: setting latency timer to 64uhci_hcd 0000:00:1d.3: UHCI Host Controlleruhci_hcd 0000:00:1d.3: new USB bus registered, assigned bus number 5uhci_hcd 0000:00:1d.3: irq 16, io base 0x0000b480hub 5-0:1.0: USB hub foundhub 5-0:1.0: 2 ports detectedInitializing USB Mass Storage driver...usbcore: registered new interface driver usb-storageUSB Mass Storage support registered.usb: create proc systemp successfullyusb: create proc systemp successfullykjournald starting.  Commit interval 5 secondsEXT3-fs (sda1): mounted filesystem with writeback data modekjournald starting.  Commit interval 5 secondsEXT3-fs (sdb1): mounted filesystem with writeback data modekjournald starting.  Commit interval 5 secondsEXT3-fs (sdc1): mounted filesystem with writeback data modekjournald starting.  Commit interval 5 secondsEXT3-fs (sdd1): mounted filesystem with writeback data modemd: md9 stopped.md: bind<sdb1>md: bind<sdc1>md: bind<sdd1>md: bind<sda1>raid1: raid set md9 active with 4 out of 4 mirrorsmd9: bitmap initialized from disk: read 5/5 pages, set 0 bitscreated bitmap (65 pages) for device md9md9: detected capacity change from 0 to 542769152 md9: unknown partition tablekjournald starting.  Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modemd: md13 stopped.md: bind<sdb4>md: bind<sdc4>md: bind<sdd4>md: bind<sda4>raid1: raid set md13 active with 4 out of 4 mirrorsmd13: bitmap initialized from disk: read 4/4 pages, set 0 bitscreated bitmap (57 pages) for device md13md13: detected capacity change from 0 to 469893120 md13: unknown partition tablekjournald starting.  Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modekjournald starting.  Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modekjournald starting.  Commit interval 5 secondsEXT3-fs (md13): using internal journalEXT3-fs (md13): mounted filesystem with writeback data modeusbcore: registered new interface driver hiddevusbcore: registered new interface driver usbhidusbhid: USB HID core driverICH7/ICH9R rtc control driver.iTCO_vendor_support: vendor-support=0iTCO_wdt: Intel TCO WatchDog Timer Driver v1.05iTCO_wdt: Found a ICH7-M or ICH7-U TCO device (Version=2, TCOBASE=0x0860)iTCO_wdt: initialized. heartbeat=120 sec (nowayout=0)usbcore: registered new interface driver usblpufsd: module license 'Commercial product' taints kernel.Disabling lock debugging due to kernel taintufsd: driver U82 (Sep 28 2010 03:25:17) with acl LBD=OFF with ioctl loaded at f839c000NTFS read/write support includedHfs+/HfsX read/write support includedkjournald starting.  Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modemd: bind<sda2>raid1: raid set md4 active with 1 out of 1 mirrorsmd4: detected capacity change from 0 to 542769152 md4: unknown partition tableAdding 530040k swap on /dev/md4.  Priority:-1 extents:1 across:530040k md: bind<sdb2>RAID1 conf printout: --- wd:1 rd:2 disk 0, wo:0, o:1, dev:sda2 disk 1, wo:1, o:1, dev:sdb2md: recovery of RAID array md4md: minimum _guaranteed_  speed: 5000 KB/sec/disk.md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.md: using 128k window, over a total of 530048 blocks.md: bind<sdc2>md: bind<sdd2>active port 0 :139active port 1 :445active port 2 :20md: md4: recovery done.RAID1 conf printout: --- wd:2 rd:2 disk 0, wo:0, o:1, dev:sda2 disk 1, wo:0, o:1, dev:sdb2md: md0 still in use.md: bind<sdb3>md: bind<sdc3>md: bind<sdd3>md: bind<sda3>raid5: device sda3 operational as raid disk 0raid5: device sdd3 operational as raid disk 3raid5: device sdc3 operational as raid disk 2raid5: device sdb3 operational as raid disk 1raid5: allocated 67552kB for md00: w=1 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=03: w=2 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=02: w=3 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=01: w=4 pa=0 pr=4 m=1 a=2 r=4 op1=0 op2=0raid5: raid level 5 set md0 active with 4 out of 4 devices, algorithm 2RAID5 conf printout: --- rd:4 wd:4 disk 0, o:1, dev:sda3 disk 1, o:1, dev:sdb3 disk 2, o:1, dev:sdc3 disk 3, o:1, dev:sdd3md0: detected capacity change from 0 to 2995794739200 md0: unknown partition tablekjournald starting.  Commit interval 5 secondsEXT3-fs (md0): warning: mounting fs with errors, running e2fsck is recommendedEXT3-fs (md0): using internal journalEXT3-fs (md0): mounted filesystem with ordered data modee1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TXe1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TXactive port 0 :139active port 1 :445active port 2 :20 Set Adpater:port=0:0 standby to 241 (1800 secs). Set Adpater:port=0:1 standby to 241 (1800 secs). Set Adpater:port=0:2 standby to 241 (1800 secs). Set Adpater:port=0:3 standby to 241 (1800 secs).rule type=2, num=0Loading iSCSI transport class v2.0-871.iscsi: registered transport (tcp)


    dmesg / das Raid5 wird nicht erkannt:


    Code
    >usbcore: registered new interface driver usbfsusbcore: registered new interface driver hubusbcore: registered new device driver usbehci_hcd: USB 2.0 'Enhanced' Host Controller (EHCI) Driveralloc irq_desc for 23 on node -1alloc kstat_irqs on node -1ehci_hcd 0000:00:1d.7: PCI INT A -> GSI 23 (level, low) -> IRQ 23ehci_hcd 0000:00:1d.7: setting latency timer to 64ehci_hcd 0000:00:1d.7: EHCI Host Controllerehci_hcd 0000:00:1d.7: new USB bus registered, assigned bus number 1ehci_hcd 0000:00:1d.7: using broken periodic workaroundehci_hcd 0000:00:1d.7: debug port 1ehci_hcd 0000:00:1d.7: cache line size of 32 is not supportedehci_hcd 0000:00:1d.7: irq 23, io mem 0xfe83bc00ehci_hcd 0000:00:1d.7: USB 2.0 started, EHCI 1.00hub 1-0:1.0: USB hub foundhub 1-0:1.0: 8 ports detecteduhci_hcd: USB Universal Host Controller Interface driveruhci_hcd 0000:00:1d.0: PCI INT A -> GSI 23 (level, low) -> IRQ 23uhci_hcd 0000:00:1d.0: setting latency timer to 64uhci_hcd 0000:00:1d.0: UHCI Host Controlleruhci_hcd 0000:00:1d.0: new USB bus registered, assigned bus number 2uhci_hcd 0000:00:1d.0: irq 23, io base 0x0000bc00hub 2-0:1.0: USB hub foundhub 2-0:1.0: 2 ports detecteduhci_hcd 0000:00:1d.1: PCI INT B -> GSI 19 (level, low) -> IRQ 19uhci_hcd 0000:00:1d.1: setting latency timer to 64uhci_hcd 0000:00:1d.1: UHCI Host Controlleruhci_hcd 0000:00:1d.1: new USB bus registered, assigned bus number 3uhci_hcd 0000:00:1d.1: irq 19, io base 0x0000b880hub 3-0:1.0: USB hub foundhub 3-0:1.0: 2 ports detecteduhci_hcd 0000:00:1d.2: PCI INT C -> GSI 18 (level, low) -> IRQ 18uhci_hcd 0000:00:1d.2: setting latency timer to 64uhci_hcd 0000:00:1d.2: UHCI Host Controlleruhci_hcd 0000:00:1d.2: new USB bus registered, assigned bus number 4uhci_hcd 0000:00:1d.2: irq 18, io base 0x0000b800hub 4-0:1.0: USB hub foundhub 4-0:1.0: 2 ports detecteduhci_hcd 0000:00:1d.3: PCI INT D -> GSI 16 (level, low) -> IRQ 16uhci_hcd 0000:00:1d.3: setting latency timer to 64uhci_hcd 0000:00:1d.3: UHCI Host Controlleruhci_hcd 0000:00:1d.3: new USB bus registered, assigned bus number 5uhci_hcd 0000:00:1d.3: irq 16, io base 0x0000b480hub 5-0:1.0: USB hub foundhub 5-0:1.0: 2 ports detectedInitializing USB Mass Storage driver...usbcore: registered new interface driver usb-storageUSB Mass Storage support registered.usb: create proc systemp successfullyusb: create proc systemp successfullykjournald starting. Commit interval 5 secondsEXT3-fs (sda1): mounted filesystem with writeback data modekjournald starting. Commit interval 5 secondsEXT3-fs (sdb1): mounted filesystem with writeback data modekjournald starting. Commit interval 5 secondsEXT3-fs (sdc1): mounted filesystem with writeback data modekjournald starting. Commit interval 5 secondsEXT3-fs (sdd1): mounted filesystem with writeback data modemd: md9 stopped.md: bind<sdb1>md: bind<sdc1>md: bind<sdd1>md: bind<sda1>raid1: raid set md9 active with 4 out of 4 mirrorsmd9: bitmap initialized from disk: read 5/5 pages, set 0 bitscreated bitmap (65 pages) for device md9md9: detected capacity change from 0 to 542769152md9: unknown partition tablekjournald starting. Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modemd: md13 stopped.md: bind<sdb4>md: bind<sdc4>md: bind<sdd4>md: bind<sda4>raid1: raid set md13 active with 4 out of 4 mirrorsmd13: bitmap initialized from disk: read 4/4 pages, set 0 bitscreated bitmap (57 pages) for device md13md13: detected capacity change from 0 to 469893120md13: unknown partition tablekjournald starting. Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modekjournald starting. Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modekjournald starting. Commit interval 5 secondsEXT3-fs (md13): using internal journalEXT3-fs (md13): mounted filesystem with writeback data modeusbcore: registered new interface driver hiddevusbcore: registered new interface driver usbhidusbhid: USB HID core driverICH7/ICH9R rtc control driver.iTCO_vendor_support: vendor-support=0iTCO_wdt: Intel TCO WatchDog Timer Driver v1.05iTCO_wdt: Found a ICH7-M or ICH7-U TCO device (Version=2, TCOBASE=0x0860)iTCO_wdt: initialized. heartbeat=120 sec (nowayout=0)usbcore: registered new interface driver usblpufsd: module license 'Commercial product' taints kernel.Disabling lock debugging due to kernel taintufsd: driver U82 (Sep 28 2010 03:25:17) with acl LBD=OFF with ioctl loaded at f839c000NTFS read/write support includedHfs+/HfsX read/write support includedkjournald starting. Commit interval 5 secondsEXT3-fs (md9): using internal journalEXT3-fs (md9): mounted filesystem with writeback data modemd: bind<sda2>raid1: raid set md4 active with 1 out of 1 mirrorsmd4: detected capacity change from 0 to 542769152md4: unknown partition tableAdding 530040k swap on /dev/md4. Priority:-1 extents:1 across:530040k md: bind<sdb2>RAID1 conf printout:--- wd:1 rd:2disk 0, wo:0, o:1, dev:sda2disk 1, wo:1, o:1, dev:sdb2md: recovery of RAID array md4md: minimum _guaranteed_ speed: 5000 KB/sec/disk.md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.md: using 128k window, over a total of 530048 blocks.md: bind<sdc2>md: bind<sdd2>active port 0 :139active port 1 :445active port 2 :20md: md4: recovery done.RAID1 conf printout:--- wd:2 rd:2disk 0, wo:0, o:1, dev:sda2disk 1, wo:0, o:1, dev:sdb2EXT3-fs error (device sda3): ext3_check_descriptors: Block bitmap for group 1920 not in group (block 264249728)!EXT3-fs (sda3): error: group descriptors corruptedEXT3-fs (sdd3): error: couldn't mount because of unsupported optional features (4001800)e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TXe1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TXactive port 0 :139active port 1 :445active port 2 :20warning: `proftpd' uses 32-bit capabilities (legacy support in use)TARGET_CORE[0]: Loading Generic Kernel Storage Engine: v3.1.0 on Linux/i686 on 2.6.33.2TARGET_CORE[0]: Initialized ConfigFS Fabric Infrastructure: v2.0.0 on Linux/i686 on 2.6.33.2SE_PC[0] - Registered Plugin Class: TRANSPORTPLUGIN_TRANSPORT[1] - pscsi registeredPLUGIN_TRANSPORT[2] - stgt registeredCORE_STGT[0]: Bus Initalization completePLUGIN_TRANSPORT[4] - iblock registeredPLUGIN_TRANSPORT[5] - rd_dr registeredPLUGIN_TRANSPORT[6] - rd_mcp registeredPLUGIN_TRANSPORT[7] - fileio registeredSE_PC[1] - Registered Plugin Class: OBJPLUGIN_OBJ[1] - dev registeredInitiate iscsi target log successfully.Linux-iSCSI.org iSCSI Target Core Stack v3.1.0 on Linux/i686 on 2.6.33.2<<<<<<<<<<<<<<<<<<<<<< BEGIN FABRIC API >>>>>>>>>>>>>>>>>>>>>>Initialized struct target_fabric_configfs: e1eec200 for iscsi<<<<<<<<<<<<<<<<<<<<<< END FABRIC API >>>>>>>>>>>>>>>>>>>>>>LIO_TARGET[0] - Set fabric -> lio_target_fabric_configfsiscsi_allocate_thread_sets:195: ***OPS*** Spawned 4 thread set(s) (8 total threads).TARGET_CORE[iSCSI]: Allocated Discovery se_portal_group_t for endpoint: None, Portal Tag: 1CORE[0] - Allocated Discovery TPGLoading Complete.iscsi_log_rcv_msg: get log pid = 3591.Set Adpater:port=0:0 standby to 241 (1800 secs).Set Adpater:port=0:1 standby to 241 (1800 secs).Set Adpater:port=0:2 standby to 241 (1800 secs).Set Adpater:port=0:3 standby to 241 (1800 secs).rule type=2, num=0Loading iSCSI transport class v2.0-871.iscsi: registered transport (tcp)CE: hpet increasing min_delta_ns to 15000 nsec


    Kann jemand die Ursache für das Verhalten erkennen?


    hier noch ein cat /proc/mdstat bei erkanntem Raid


    Code
    Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] md0 : active raid5 sda3[0] sdd3[3] sdc3[2] sdb3[1]2925580800 blocks level 5, 64k chunk, algorithm 2 [4/4] [UUUU]md4 : active raid1 sdd2[2](S) sdc2[3](S) sdb2[1] sda2[0]530048 blocks [2/2] [UU]md13 : active raid1 sda4[0] sdd4[3] sdc4[2] sdb4[1]458880 blocks [4/4] [UUUU]bitmap: 0/57 pages [0KB], 4KB chunkmd9 : active raid1 sda1[0] sdd1[3] sdc1[2] sdb1[1]530048 blocks [4/4] [UUUU]bitmap: 0/65 pages [0KB], 4KB chunkunused devices: <none>



    Danke für eure hilfe
    MerlinK




    EDIT:


    noch ein paar Infos:


    Ich habe 3 absolut gleiche Festplatten mit gleicher Firmware "1AA01113" (Platte #1 #2 #3)
    und eine Festplatte gleichen Typs jedoch mit der Firmware "1AA01114" (Platte #4)


    Ich habe das Gefühl, dass die #4-Platte ein Problem ist, deshalb habe ich die Platte im laufenden Betrieb entfernt und eine neue HE103UJ (also wieder der gleiche Typ) eingesetzt. Diese Platte hat die Firmaware "1AA01118".


    Die Rekonstruktion läuft gerade (seit 3Std.) und ist bei 70% und in ca. 1,5Std fertig.


    hier ein cat /proc/mdstat




    Mal sehen was herauskommt!!!

    4 Mal editiert, zuletzt von MerlinK ()

  • Hi,


    seltam ist das auf jedenfall.
    Was mir auffällt ist, dass es ab und zu mal Probleme mit den Filesystem gibt.
    Klicke da mal "Prüfen" im AdminCP an (wenn der RAID gebaut ist). Das könnte durchaus ein Grund für das verhalten sein. Wer weiss, was nach dem Test herauskommt....
    Das dauert aber ziemlich lange, je nachdem was er findet und versucht zu fixen. (Tage)


    Grüsse, David

  • Hab ich gestern gemacht über die Datenträgerverwaltung im WebGui, aber keine Veränderung. Lief aber jetzt nicht so lange, ich meine das waren 1 oder 2 Std.!!! Ich habe aber auch erst wenige Daten auf dem NAS, vielleicht 3GB. Deshalb läuft die Prüfung vielleicht so schnell.


    EDIT:
    So, die Raid-Rekonstruktion ist abgeschlossen. Ich hab das NAS neu gestartet, das Raid wurde erkannt und der Fehler im Protokoll ist auch wieder da.


    Code
    [RAID5 Disk Volume: Drive 1 2 3 4] The file system is not clean. It is suggested that you run "check disk".


    An der #4-Platte lag es also nicht. Ich starte jetzt mal ein paar Mal, um zu sehen ob das Raid immer noch sporadisch nicht erkannt wird. Ich gehe mal davon aus. :(

    2 Mal editiert, zuletzt von Terz () aus folgendem Grund: Volltext Zitat entfernt, Doppelte beiträge vermeiden

  • Ich denke auch nicht, dass es an den Platten liegt.
    So etwas kenne ich eigentlich nur von RAID migrationen.
    Wenn e2fsck nix gefunden hatte / es aber eventuell auch nicht reparieren konnte...


    Ich würde bei einem Dateisystemfehler aber immer das neuaufsetzen vom NAS empfehlen. Unabhängig davon, was e2fsck noch machen konnte / finden konnte. So würde ich es zumindest auch machen solange man noch an die Daten herankommt.


    Grüsse, David

  • Hab grad noch einmal die Datenträgerprüfung im WebGui durchgeführt (hat nur 45min gedauert) und jetzt ist der Fehler behoben. Ist schon ein wenig komisch.


    Ist die Prüfung via WebGui eigentlich das selbe wie e2fsck über die Konsole?


    Ich glaube ich gehe jetzt doch mal auf ext4 und probiere noch ein wenig.

    Einmal editiert, zuletzt von christian () aus folgendem Grund: Volltextzitat entfernt!