11. Extinction d'un (des) noeuds (maintenance...coupures de jus ...) et Trucs et astuces

Pour éteindre un serveur du cluster pour maintenance :

mettre Ceph en mode noout (très important !)
migrer les vm
faire la maintenance du noeud
redémarrer le noeud,
attendre que Ceph soit à nouveau cohérent
recommencer sur un autre noeud

Arrêt complet du cluster :

arrêter les VM
mode noout
arrêter les noeuds

Arrêt par l'onduleur :

mode noout
eteindre les vm
shooter les vm qui ne veulent pas s'éteindre
éteindre les noeuds proprement

Attention! l'extinction programmée des vm est très loin d'être garantie.

C'est vraiment le truc à vérifier et à tester (apt install acpid, qemu-guest agent, ...).

Il ne faut surtout pas arrêter plus d'un noeud avant que toutes les vm soint tuées. Attention à la réserve de marche de l'onduleur.

Arrêt sauvage (coupure de courant sans onduleur!) :

Selon le type de cache utilisé, on peut avoir des pertes de données, et/ou des systèmes de fichiers corrompus. Mais en général cela se passe bien...

Perte du réseau entre les noeuds :

le cas le pire. Normalement ceph va bloquer les I/O, c'est bien car cela évite de foutre en l'air les données, mais du coup cela bloque les vm, qui ne peuvent donc pas s'éteindre. Au bout d'un moment proxmox va rebooter les noeuds pour essayer d'arranger le coup, mais cela peut empirer la situation... SI on est en mesure de rétablir le réseau, normalement tout rentre dans l'ordre, Ceph débloque dès qu'il a une redondance, et les vm se défigent ( ou pas, on peut aussi avoir de beaux écrans bleus windows).

ILO : console, disque virtuel etc...

sous linux, la console virtuelle fonctionne uniquement avec le paquet (à faire) oracle-java8-jre
Pour monter un floppy virtuel pour enregistrer des logs par exemple (dans le cas d'un demarrage pour maintenance de la carte raid par exemple) :
- la commande mkfs.msdos -C disk.img 1440 crée une disquette virtuelle sur votre station
- dans la console java, il suffit de monter cette disquette virtuelle pour qu'elle soit disponible sur le serveur (en particulier pour enregistrer les logs en bootant en "Intelligent Provisionning" pour aller dans la maintenance de la carte).

Ceph: un des pg est "inconsistent"

Si Ceph passe au rouge pour la partie "HEALTH", mais reste vert pour le fonctionnement, en indiquant un soucis au niveau d'un "scrub error", avec un des pg (par exemple le 1.17e) qui est inconsistent, alors il faut le réparer.

On peut faire rados list-inconsistent-obj 1.17e --format=json-pretty pour avoir plus d'infos sur le pg défecteux.

*On lance ensuite ceph pg repair 1.17e . On attend un peu que le pg se reconstruise. Tout devrait repasser au vert ensuite.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly