QuTScloud - Wie man mit einer VM sein Hostsystem abschießen kann

[PROLOG]

Ich gehöre ja zu den Menschen, die sich manches einfach reinfressen, statt darüber zu reden. Da es hier im Forum in den letzten Tagen ob des guten Wetters ziemlich langweilig geworden ist, mache ich heute mal eine Ausnahme und berichte kurz von meinem kleinen Problemchen, welches mir heute widerfahren ist. Eigentlich wollte ich es ja für mich behalten, aber euch sag ich's...


[DER ANFANG DES ÜBELS]

Ein Thread im Forum bei dem es um Storagepools geht veranlasste mich dazu mal schnell etwas auszuprobieren. "Mal schnell"... ich merke es schon :D.

Für sowas hatte ich ja kürzlich erst die QuTScloud als VM eingerichtet, die mittlerweile auch tatsächlich funktioniert.

Ich hatte der VM direkt 10 Datenträger mit je 250 GB zugewiesen, also insgesamt etwa 2,5 TB, auch wenn die VM und dessen Images auf einer SSD liegen, die nur 1 TB groß ist und außerdem noch andere VM und Daten beinhaltet. Das ist ja auch kein Problem, denn das Vorhandensein der Datenträger frisst noch keine Kapazität (naja, außer so ein paar KB). Kapazität wird erst verwendet, sobald auch Pools oder Volumes in der QuTScloud auf den Datenträgern erstellt werden, selbst dann, wenn noch keine Daten gespeichert werden.

So wächst das Disk-Image von wenigen Kilobyte auf fast einen Gigabyte, nur weil ein 250 GB großer Speicherpool in der VM erstellt wird.

Schmeißt man da nun noch ein Volume (ca. 120GB) rein, wächst das Image weiter auf etwa 2,5 GB an.

Wer nun denkt, dass die Imagegröße durch das Löschen eines Volumes wieder weniger wird, der irrt allerdings gewaltig! An der Imagegröße ändert sich nämlich überhaupt nichts, im Gegenteil: Erstellt man nun ein neues Volume, werden weitere etwa 2 GB fällig, sodass ein Diskimage, auf dem sich nichtmal mehr ein Speicherpool befindet, locker mal 5 bis 10 GB auf die Waage bringt. Alles wohlbemerkt bei Disks mit nur 250 GB Kapazität. Alles Kleckerbeträge, schon klar. Naja, nicht ganz... denn das Volume bot nur noch etwa 40GB an freier Kapazität.


[DAS ÜBEL NIMMT SEINEN LAUF]

Ich habe also die VM gestartet und fange an ein bissl was zu testen: Mal eben ein RAID 1 erstellt, parallel dazu nochmal ein RAID 5, anschließend das RAID 1 gelöscht, eine Single Disk erstellt, dem Pool ein neues RAID 1 zugewiesen, das RAID 5 wieder gelöscht, ... kein Wunder dass die Host-SSD da etwas ins Schwitzen kommt und mir eine erhöhte Temperatur per Email meldet. Aber alles gut, ich habe gesehen, was ich sehen wollte und die VM erstmal links liegen lassen und mich anderen Dingen gewidmet; ein paar RAID-resyncs standen durch die Spielerei noch aus, das sollte dann erstmal fertig werden.

Die SSD kühlte zwischenzeitlich wieder unter den Grenzwert, um sich anschließend wieder zu erwärmen, damit ich nochmals per Email informiert werden kann. Ich habe mein Smartphone u.a. für solche Meldungen so eingerichtet, dass ein lauter Sirenenton ertönt. Ziemlich penetrant, wenn das Ding mehrfach hintereinander losgeht.

Plötzlich ging es dann auch schon wieder los, ich war echt langsam genervt, doch diese Meldung teilte mir nicht mit, dass meiner SSD zu warm ist, sondern dass die Volumekapazität erschöpft ist (Storage & Snapshots wies mir sogar knapp über 100% Belegung aus). Und wieder geht der Alarm los. Nun hat auch noch der Speicherpool seinen Grenzwert erreicht, und plötzlich komme auch ich ins Schwitzen!


[VOM ÜBEL ZUR NORMALITÄT]

Die GUI der VM war längst nicht mehr erreichbar, das Ding ist komplett abgesch*****, vermutlich weil die ganzen Aktionen mit den RAIDs und Disks aufgrund mangelnder Kapazität auf dem Hostsystem nicht durchführbar war und die VM selbst keinen freien Raum zur Entfaltung mehr hatte...

Also habe ich die VM vorsorglich hart abgeschaltet und stand nun da, mit einem Volume auf dem drei weitere VM laufen und auf dem sämtliche QTS-Apps installiert sind. Damit es hier nicht zu Fehlfunktionen kommt, musste also unbedingt wieder Kapa frei werden, und wenn es erstmal nur ein paar MB sind! Ich habe dann direkt Nägel mit Köpfen gemacht und einfach alle Disk-Images der QuTScloud VM gelöscht. Leider habe ich nicht darauf geachtet, wie groß diese im Einzelnen geworden sind. Ein Blick auf das Volume in Storage & Snapshots brachte nach dem Aktualisieren dann erstmal Erleichterung: Es sind wieder etliche GB frei, sodass der Betrieb der anderen VM und Apps sichergestellt ist. So ganz fein war ich aus der Sache aber noch nicht raus, denn zwischenzeitlich wurde schon ein Snapshot aufgenommen und in wenigen Minuten wäre der nächste fällig, was dazu geführt hätte, dass der ganze soeben gelöschte Plunder im Storage Pool / neuem Snapshot gelandet wäre. Den alten Snapshot zu löschen hat allerdings sehr wenig Zeit gekostet, sodass die anstehende Aufnahme die zwischenzeitlichen Änderungen nicht berücksichtigt.


[EPILOG]

Was für eine dämliche Aktion! Mir war durchaus bewusst, dass ich nur noch 40 GB freie Kapazität habe, und tatsächlich habe ich erst wenige Wochen zuvor darüber nachgedacht, das Volume zu erweitern, damit ich nicht irgendwann in Probleme laufe. Die Analyse des Kapazitätsverlaufs ergab allerdings, dass mir diese Kapazität im regulären Betrieb noch lange ausreicht, entsprechend habe ich auch nichts unternommen (das Erweitern der Kapa hat zur Folge, dass alle Snapshots im Vault gelöscht werden müssen, was ich so lang wie möglich vermeiden wollte).


Was aber ist nun schief gelaufen?

Ganz oben auf der Liste muss ich meinen Fehler aufführen: Für Test- und Spiel- VMs habe ich eigentlich eine separate SSD, von der auch keine Snapshots erstellt werden. Alles was dort passiert ist unkritisch.

Dort hätte auch die QuTScloud VM liegen sollen. Dort wäre nicht nur ausreichend Kapazität gewesen, sondern egal was passiert wäre, wäre unkritisch gewesen. Warum sie auf "der guten" SSD (eigentlich sind es zwei im RAID 1) lag kann ich nur mutmaßen... ich habe zu Beginn lange mit der QuTScloud gekämpft, genauer gesagt mit der freien Lizenz. Vermutlich ist sie dabei irgendwann auf der falschen SSD gelandet (ich habe die VM etwa 10 bis 20 Mal neu aufgesetzt).

Dazu kommt die Problematik, dass die Disk-Images offensichtlich bis ins Unermessliche anwachsen, wenn man nur oft genug Volumes und Pools löscht und wieder erstellt. Damit habe ich nicht gerechnet und bin demnach auch nicht davon ausgegangen, dass die 40 GB freie Kapazität derart angetastet wird. Das werde ich mir irgendwann nochmal anschauen, dann aber natürlich auf der richtigen SSD ;)


Bis auf etwas Stress scheine ich ja ganz gut davon gekommen zu sein... naja auch nicht ganz. Zwei meiner Drei 24/7-VM haben ihren Dienst quittiert als das Volume vollgelaufen ist. Es blieb nichts außer sie hart abzuschalten und neu zu starten. Glücklicherweise hatte dies alles keine weiteren Auswirkungen, das hätte anders laufen können. Bei den Apps, die sich ebenfalls auf dem Volume befinden, konnte ich bislang keine Auffälligkeiten feststellen, hoffe da kommt nicht noch was.



So, das System ist wieder aufgeräumt und betriebsfähig, die SSD und ich sind dabei ganz schön ins Schwitzen gekommen. Der SSD geht es wieder gut, aber ich sollte dann doch lieber für eine frische Abkühlung für mich sorgen... cheers! :beer:

Kommentare 2

  • Zitat von tiermutter

    Storage & Snapshots wies mir sogar knapp über 100% Belegung aus

    =O Über 100% der verfügbaren Kapazität. Wie hast Du dies denn wieder geschafft. :)


    Ja, das hin und her hantieren mit Volumes etc. nimmt einem das NAS zuweilen übel. Habe unlängst selbst dadurch eine Neuinitialisierung des NAS dadurch gewonnen, Jackpot sozusagen.

    • Tjoa, keine Ahnung wie das ging. Es ist ein Thin Volume und im Pool war ja noch Kapazität frei. Entweder hat QTS dem Volume absichtlich mehr zugewiesen als es sollte, oder es ging einfach "zu schnell" und hupps... Wurde versehentlich etwas mehr als erlaubt zugewiesen.


      Dann bin ich heute aber froh, dass ich den Jackpot nicht gewonnen habe :D