TS-879U-RP findet 2x REXP1620 nicht mehr

  • Setup:
    + TS-879U-RP
    |--- Fw: 4.3.3.0154
    |--- 4/8 Schächten bestück mit 4TB WD Red
    |--- QNAP SAS-12G2E-U 12G SAS Expansion Card |--- QNAP Dual-port 10GbE SFP+ network card (2x INTEL E10GSFPSR)


    + QNAP REXP-1620U-RP 16-Bay Expansion (via SAS)
    |--- 16/16 Schächten bestückt mit Seagate ST8000NM0075 (Raid6 ~ 100TB)


    + QNAP REXP-1620U-RP 16-Bay Expansion (via SAS)
    |--- 8/16 Schächten bestückt mit Seagate ST8000NM0075 (Raid6 ~ 50TB)


    Fehlerbeschreibung:
    - NFS Server funktionierte nicht mehr war der eigentliche Fehler (Ticket #IVC-273-29586)
    - Server lief mit einer Load Average von > 80.00
    - Software Restart ausgeführt -> nach >35min keine Reaktion -> Shutdown via Powerbutton
    - Erneuter Start = TS-879U-RP findet die beiden REXP nicht mehr! (Ticket #WIK-649-41094)
    - Vermutung: SAS Controller / mpt3sas Fehler


    Versuche zur Fehlerbehebung:
    - Alles runterfahren, TYP C (Kaltgerätestecker) & SAS Kabel gezogen, 5min Stromlos, Neustart = Fehler besteht noch!
    - Festplatten am Server gezogen, Systemstart zum HW-Test = HW Test OK, Fehler besteht noch!
    - QNAP Support Tip: Upgrade auf Firmware 4.3.3.0188 = Fehler besteht noch!
    - QNAP Support Fernwartung: Downgrade auf Firmware 4.2.5 = Fehler besteht noch!


    Weitere Feststellungen:
    - TS-879U-RP + darin befindliche Festplatten funktionieren
    - Die beiden REXP1620 sind betriebsbereit und zeigen keine Fehler (LED Indicator).
    - lsiutil Ausgabe via ssh: LSISAS3008: FWVersion(12.00.00.00), ChipRevision(0x02), BiosVersion(08.15.00.00))
    - DMESG Ausgabe via ssh wenn REXP verbunden beim booten:

    Code
    [ 26.383357] mpt3sas0: _config_request: timeout…snip…[ 27.327548] mpt3sas0: failure at drivers/scsi/mpt3sas/mpt3sas_scsih.c:4395/_scsih_sas_host_add()![ 27.329313] mpt3sas0: port enable: FAILED with (ioc_status=0x00000004)


    - DMESG Ausgabe via ssh wenn REXP verbunden nach boot:

    Code
    „mpt3sas0: _ctl_do_mpt_command: waiting for operational state(count x)“,

    Vermuteter Fehler:
    Mir scheint als würde zwar der SAS Controller vom Treiber geladen zu werden, wenn dieser jedoch den SAS Port anschaltet rennt er in Timeouts bzw. Fehler.


    Offene Fragen:
    - Wie stelle ich schnell wieder Produktiven Betrieb her, so langsam gehen mir die Ideen aus :/
    - Ich versuche morgen die jetzigen NAS Systemplatten zu ziehen und das ganze nochmal mit frischen Platten und leeren REXP versuchen zu Troubleshooten


    Ich habe bereits seit Mittwoch ein Ticket bei Qnap dazu auf, nachdem ich jeden Tag im 2std. Takt die Hotline angerufen habe hat mich heute jemand zurückgerufen und mit mir
    zusammen eine Fernwartung gemacht (Downgrade auf 4.2.5), Fehler besteht immer noch :/


    Ich bin für jeden Hinweis dankbar!

  • Alptraumvorstellung....
    1. Je eine REXP an einem Port des SAS-HBA angeschlossen oder Daisy-Chain?
    2. Mal nur mit je einer REXP versucht und die Ports am Controller/REXP getauscht?
    3. Steckplatz der NIC mit dem HBA gewechselt?


    @christian: Gibt es hier eigentlich auch eine Business-Support Anlaufstelle bei QNAP?

  • ...in der tat :/


    1) Je eine REXP an einem Port des SAS-HBA angeschlossen keine Daisy-Chain.
    2) Schon getestet, sowohl mit Port & Kabeltausch an REXP & und Controller, Fehler bleibt bestehen.
    3) Nein bisher noch nicht, guter Hinweis wird getestet!


    Soweit ich weiß ist das die gleiche Hotline, ist aber leider aufgrund der nicht ganz so gut getesteten 4.3.3 Firmware im Moment überlastet und kommt den intern gesetzten SLA`s nicht hinterher.


    Hier auch noch ein Auszug von DMESG bezgl. mpt3sas:


  • Gefährliches 1/10 Wissen in Verbindung mit Google:


    https://discussions.citrix.com…0-mpt3sas-config-timeout/


    Letzter Post.


    Alternativ mal das QNAP mit einer jungfräulichen Festplatte und entweder der letzten 4.2.x oder 4.3.x aufsetzen und schauen, ob der Fehler immer noch besteht. Wobei die ersten Phänomene (Dienste nicht erreichbar, ohne Änderung...wurde zumindest keine erwähnt) schon auf die Hardware hinweisen.

  • Danke für die Hinweis auch wenn es nur gefährliches Halbwissen ist, solange die Platten gezogen sind kann da nicht viel passieren, da die REXP ja keine Logik verbaut haben und ich sehr froh wäre wenn das NAS die REXP wieder sieht.


    EDIT:
    Finde gar keine mpt3sas.conf Ein "find / -name mpt3sas*" fördert nichts dergleichen zutage, bei "find / -name *.conf" war auch nichts brauchbares dabei. Bin aber auch kein Experte was den LSI Controller & mpt3sas angeht und weiß nicht ob das bei Qnap irgendwo anders implementiert ist.


    Was die ersten Phänomene angeht, denke ich das diese auf die 4.3.3 Firmware zurückzuführen sind, da dort meines Wissens auf 64Bit umgestellt wurde. Das der SAS Controller den SAS Port nicht mehr hoch schalten (enable) will könnte das gleiche Problem sein oder mit dem Shutdown zusammenhängen. Ich würde im Moment jeden raten nicht über 4.2.5 upzudaten!


    EDIT:
    Wenn ich den Server ganz ohne angeschlossene REXP starte, kann mpt3sas den port hoch schalten, was der fault state am Anfang aussagt ist mir nicht klar.


    In Gedanken kaufe ich schon eine 2.NAS mit identischen SAS Controller, dann müsste ich aber die notwendigen Informationen migrieren d.h. REXP, Raid und Volume Informationen. Weitere Dienste etc. konfiguriere ich wenn die REXP wieder im Zugriff sind gerne von Hand neu. Gibt es irgendwo schon eine Zusammenfassung welche Config`s dafür notwendig sind um die Volumes auf ein 2.tes NAS zu migrieren oder reicht eine Config Sicherung? Bin nebenbei schonmal am Sammeln (LVM`s fehlen noch) oder nehme ich einfach /etc/ komplett mit ?
    - /etc/enclosure_0.conf /etc/enclosure_1.conf - /etc/enclosure_2.conf
    - /etc/volume.conf
    - /etc/config/raid.conf

    4 Mal editiert, zuletzt von d0b ()

  • Wenn die REXP samt der Volumes/Speicherpools in Ordnung sind, dann sollte ein Umzug fast nur aus anklemmen und loslegen bestehen. Freigaben und gg. die Zuordnung von iSCSI-LUNs muss händisch erfolgen, ebenso NFS-Zugriff.
    Bei dem Fehlerbild würde ich mich hüten etwas von der alten Konfiguration mit rüber zunehmen.


    Nachfolgervariante wäre eine TVS-871U-RP bzw. TVS-1271U-RP mit CPU/RAM nach Wahl/Verfügbarkeit.


    Ich hoffe mal, dass die beiden TS-831xU nächste Woche kommen. Abgesehen von fehlender Snapshotunterstützung, 16GB RAM max und keiner Möglichkeit auf m2 SSD-Cache finde ich die bzgl. Preis-(und hoffentlich) Leistung mehr als interessant. Die 12-Bay sind im Vergleich so günstig mit 10GBe onboard, dass ich da nicht an Erweiterungsgehäuse denken würde! :D

  • Wenn die REXP samt der Volumes/Speicherpools in Ordnung sind, dann sollte ein Umzug fast nur aus anklemmen und loslegen bestehen. Freigaben und gg. die Zuordnung von iSCSI-LUNs muss händisch erfolgen, ebenso NFS-Zugriff.

    Ich gehe bisher davon aus das die Volumes auf den REXP OK sind. Das ich die Freigabeordner manuell wieder einstellen kann ist klar, aber woher weiß das neue NAS den welche Festplatten in der jeweiligen REXP wie konfiguriert sind (Raid & Volume), da diese Informationen nicht auf der REXP selbst gespeichert werden, sondern auf dem System?


    Bei benötigten 100TB als Raid 6 wird es aber knapp mit 12Bay`s ;)

  • Dann werde ich das mal testen (müssen). Bin gerade dabei mit einer frischen Platte (alle anderen 3cm gezogen) das NAS auf Werkseinstellung zurückzusetzen um zu sehen ob es dann hoffentlich wieder die REXP erkennt, falls das scheitert bin ich mit meinen Latein am Ende und werde am Montag schnellstmöglich neue Hardware besorgen müssen. Ich hab noch ein Funken Hoffnung das ich es irgendwie hinbekomme am WE.


    EDIT:
    Hat auch nicht geholfen, Fehler besteht nach wie vor. Bleibt nur noch Server ausbauen & SAS-Controller Slot wechseln. Weiß jemand wie ich testen kann ob der SAS-Controller wirklich noch funktioniert - mittlerweile hab ich fast das Gefühl das Ding ist doch kaputt. Ich konnte bisher auch nicht in Erfahrung bringen was die Fehler von mpt3sas mir im Detail sagen wollen.


    Btw. Das NAS dient als 4K Filmdaten Projekt Schnittserver 100TB waren Voraussetzung. 2 iMacs sind via Thunderbolt2SFP+ 10GBe über LWL direkt mit dem Server verbunden und greifen via NFS zu, da FinalCut SMB & AFP Freigaben nicht mag und iSCSI bei 2 Clients keine Option ist.


    EDIT2:
    Den PCIe Slot tauschen des SAS-Controllers hat auch nicht zum erfolg geführt, Fehler besteht weiterhin. Was ich aber nach "Werkseinstellung" und gezogenen Platten des ursprünglichen Setups nicht mehr verstehe sind die immernoch persistenten Daten aus dem ursprünglichen Setup wie z.B. Systemlogs. Dort kann ich noch Einträge aus 2016 sehen!? Wenn das so ist, wie kann ich der NAS beibringen auch den DoM auf Factory Settings zurückzusetzen damit dann vielleicht sich auch was mit dem SAS-Controller tut? I don`t get it...

    3 Mal editiert, zuletzt von d0b ()

  • 1. die 4 internen Festplatten ziehen und die REXP abklemmen
    2. neue Festplatte rein, wenn nötig Firmware (DOM und "neue HDD") auf einen konsistenten Stand bringen.
    3. Über System-->Systemkonfiguration-->Werksstandards wiederherstellen und alle (REXP abgeklemmt?!) Volumes formatieren
    4. Mittels QFinder und Firmware der Wahl neu beginnen.

  • Ich dachte das hätte ich schon?! Ich glaub da musst mir nochmal auf die Sprünge helfen, ich steh grad auf dem Schlauch :/


    1) Habe ich gemacht
    2) Dann hab ich hier was falsch gemacht - Wie sorge ich dafür das auch das DoM auf Factory zurückgesetz wird? Ich bin wie folgt vorgegangen: System gestartet ohne jegliche HDD & REXP -> nachdem der Server gebootet hat frische Platte rein -> System auf Werkseinstellung zurücksetzen ausgewählt, Server startet neu.
    3) Ich dachte der Schritt wäre in 2) enthalten?
    4) Habe ich nicht gemacht.

  • Nennen wir es Erfahrung, wenn die Festplatte nicht jungfräulich ist oder sich das System "seltsam" verhält, dann bin ich immer so vorgegangen und bis dato erfolgreich. Eigentlich sollte es bei deiner Vorgehensweise auch klappen, aber uneigentlich.....;)
    Wichtig ist etwas Geduld zu haben nach/während Schritt 3, formatieren, Neustart etc. dauert halt etwas.

  • Ich hab jetzt Deine Variante auch erprobt, leider mit dem gleichen Ergebnis nach wie vor, der Fehler besteht noch.


    Also kann es ja nur noch so sein das...


    A) der Treiber für den SAS-Controller sich im DoM befindet einen Fehler hat und durch o.g. Verfahren auch nicht zurückgesetzt wird, denn es hat ja bis zum Tag X wunderbar funktioniert.


    B) der SAS-Controller einen Defekt hat, einzige weitere Option wäre das beide REXP einen Weg haben, dagegen spricht aber das der LED Indicator keine Fehler anzeigt und beide auf gleichzeitig kaputtgegangen wären.


    Also am Montag beim Großhändler via Express einen neuen Controller + NAS kaufen um dann endlich wieder im Normalzustand zu sein.


    Weitere Vorschläge zum Troubleshooting sind weiterhin willkommen, bis hierhin schonmal vielen Dank Ezekiel666 für Deine Postings, auch wenn die Kiste immer noch nicht will.

  • Ich halte es für unwahrscheinlich, dass nur der Treiber für den SAS HBA im Controller defekt ist. Wenn ein DoM defekt ist, dann gibt es i.d.R. noch andere Begleiterscheinungen.
    Komplettes Firmwarerecovery könnte man noch durchführen (siehe Wiki), aber das musste ich auch noch nie machen.



    Hoffentlich ist der Kram verfügbar, ich hatte vorhin schon einmal geschaut und bei den beiden Nachfolgegeräten musste man schon Abstriche bei der CPU machen bzw. größere nehmen (Verfügbarkeit)

  • Es wurmt mich auch nicht genau zu Wissen was der Fehler ist und ich da Support seitig keine Infos erhalte, ich überlege schon ich auch noch eine REXP1620 mitzubestellen um das als Fehlerquelle auch noch definitiv auszuschließen. Ich werde sehr stark überlegen ob ich für das Enterprise Segment weiterhin auf Qnap Technik setzen möchte. Der Produktive Ausfall der zeitliche Aufwand des Troubleshootings und die Kosten für die Neugeräte ist nicht gerade unerheblich.


    Mal schauen was der Montag bringt...

  • Direkt die passende Garantieverlängerungen bzw Austauschservice mit ordern. Bzw so kritische Systeme redudnant auslegen.

  • Neuer Server + SAS Controller + REXP sind bestellt, die beiden zuletzt genannten sind jedoch erst ab Mittwoch wieder auf Lager :/


    Der ASR ist für diesen Server & den jetzt bestellten nicht verfügbar, für REXP1620 schon - aber die ist noch ganz denke ich zumindest.
    https://www.qnap.com/service/5-year-warranty-ar/en/index.php


    SAS Controller + 2x REXP1620 sind kein halbes Jahr alt, wenn etwas davon kaputt ist wäre das auch ne kurze Lebensdauer. Redundante Auslegung baue ich jetzt, jedoch nur bedingt, da die iMac s via 10Gbe LWL darauf zugreifen und das Setup dann zumindest kurz umgebaut werden müsste - aber immerhin besser als gar nicht darauf zugreifen zu können und nicht zu wissen warum.


    QNAP Support hat das Problem jetzt an die Entwickler weitergeleitet/eskaliert.

  • Bei 6 Monaten müsste der gesamte Spaß aber noch unter Garantie fallen. Ich drücke die Daumen, dass es "nur" der Controller ist. Selbigen würde ich als erstes tauschen oder halt Migration auf die komplett neue Hardware samt alten REXP.
    REXP angeblich ab 24.05. und SAS-HBA 31.05...ich tippe mal auf den gleichen Distri! :D

  • Aktueller Stand:
    - Neuer Server kommt morgen (QNAP TVS-871U-RP i5 8G)
    - Die Lieferzeiten für die anderen Artikel hatte Ezekiel666 schon gepostet ;)


    Der Qnap Support (Entwickler) wollten heute noch Seriennummer & Mainboard Version der REXP1620 haben sowie einen IOtest des Expanders (Controller).
    - Die Seriennummer findet man auf dem Aufkleber auf der Rückseite der REXP.
    - Um die Mainboard Version zu finden muss man die REXP SAS Stecker & Kaltgerätestecker entfernen dann auf der Rückseite 2 Rändelschrauben lösen und dann das Mainboard nach hinten raus ziehen, die Nummer befindet sich dann von oben auf die REXp / Mainboard geschaut unten links.
    - IOtest des Expanders, interessant dachte ich mir, was da wohl bei raus kommt könnte...



    Code
    wget http://download.qnap.com/Storage/tsd/utility/qck
    chmod +x ./qck 
    ./qck all
    
    
    qcli_storage -d > report
    ./qck all >> report 
    iostat -x 1

    Der IOtest brachte natürlich wie zu erwarten keine neuen Erkenntnisse, da der Server die 2x REXP1620 nach wie vor nicht kennt und somit
    ein IOtest zu nichts bringt...aber naja.


    Also kann ich nur hoffen das es ein Softwarefehler ist, denn...
    ...morgen kommt der neue Server - im Idealfall war es das!?!
    ...der Controller kommt als letztes (31.05. frühestens)
    ...hab ich das Gefühl das der Controller da ist bevor die Entwickler/Support einen konkreten Fehler gefunden haben.

    2 Mal editiert, zuletzt von d0b ()