Mise à jour du firmware de votre cluster Nutanix

Base de connaissances

Mise à jour du firmware de votre cluster Nutanix


Icons/System/eye-open Created with Sketch. 920 vues 09.03.2023 Cloud / Nutanix on OVHcloud

Objectif

Ce guide vous présente les étapes de mise à jour des firmwares des clusters Nutanix en mettant à tout de rôle chaque nœud en maintenance puis en le redémarrant en mode rescue.

Nos services prendront le relais pour appliquer les mises à jour des firmwares et redémarreront le nœud une fois cela fait.

Avant d'entamer toute action, connectez-vous à votre espace client OVHcloud et créez un ticket de demande d'assistance pour demander une mise à jour du firmware et communiquer aux équipes d'assistance OVHcloud les éléments techniques concernant votre cluster.

Découvrez comment mettre à jour le firmware de votre cluster Nutanix.

Prérequis

En pratique

Avant toute action, connectez-vous à votre interface Prism Element et effectuez les tâches suivantes :

  • Vérifiez que le Data Resiliency Status du cluster est OK.

Vous pouvez le vérifier via le tableau de bord principal de votre interface Prism Element :

Prism element - Data Resiliency Status

  • Effectuez une vérification NCC

Dans l'interface Prism Element, cliquez sur Health depuis le menu principal.

Prism element - health

Cliquez ensuite sur Actions à droite puis sur Run NCC checks.

Prism element - Exécuter les vérifications NCC

Sélectionnez All Checks et cliquez sur Run.

Prism element - run vérifications

Un fichier de logs appelé /home/nutanix/data/logs/ncc-output-latest.log sera généré à la fin des vérifications.

Veuillez l'analyser attentivement. Si vous trouvez des erreurs concernant l'état du cluster ou du service, ne continuez pas et la procédure et contactez le support OVHcloud.

Vous pouvez également effectuer vérification NCC sur le CVM en tapant la commande suivante depuis un terminal :

ncc health_checks run_all

Activation du mode maintenance

Les nœuds seront mis à jour un par un, le cluster Nutanix continuera de fonctionner correctement.

Pour vous connecter à un CVM, vous pouvez lancer l'IPMI depuis votre espace client OVHcloud ou utiliser un terminal.

Avant de mettre l'hôte en maintenance, assurez-vous que les hôtes restants ont suffisamment de ressources pour héberger les VM migrées depuis l'hôte en maintenance (CPU, mémoire, stockage).

Connexion au CVM

À l'invite de connexion, connectez-vous avec les informations d'identification root pour accéder au terminal de l'hôte.
Ouvrez ensuite une connexion SSH à un CVM avec les identifiants Nutanix pour accéder ensuite au terminal CVM.

Connexion CVM

Vérifier l'état des nœuds

Une fois connecté, vérifiez que :

  • Node state a la valeur AcropolisNormal.
  • La colonne Schedulable a la valeur True pour tous les nœuds.

Exécutez ensuite la commande suivante pour vérifier :

acli host.list

Checking nodes state

Si toutes les vérifications sont OK, vous devez vérifier que l'état actuel de l'hôte peut être changé en maintenance. Pour ce faire, utilisez la commande suivante :

acli host.enter_maintenance_mode_check <Hypervisor_IP>

Checking nodes state

Mettre un nœud en mode maintenance

Les VM ayant des règles spécifiques (comme l'affinité, le passthrough CPU...) doivent être arrêtées manuellement avant l'exécution de la maintenance, car elles ne migreront pas.

Si tous les hôtes sont éligibles au mode maintenance, mettez un premier hôte en mode maintenance avec la commande suivante :

acli host.enter_maintenance_mode 192.168.0.1 wait=true

mode maintenance

Lorsque les hôtes entrent en mode maintenance, toutes les VM hébergées sont migrées sur les autres hôtes sans aucune interruption.

Arrêter le CVM

Une fois que l'hôte est en mode maintenance, le CVM peut être arrêté avec la commande suivante :

cvm_shutdown -P now

shutdown CVM

Avec les identifiants root, ouvrez un terminal sur le nœud qui héberge le CVM et validez l'arrêt du CVM :

virsh list --all

shutdown CVM

Sur le tableau de bord principal, le Data Resiliency Status deviendra Critical, le cluster fonctionne alors avec 2 nœuds.

shutdown CVM

Le CVM est à présent arrêté.

Redémarrer en mode rescue

Connectez-vous à l'espace client OVHcloud, accédez à l'onglet Hosted Private Cloud, choisissez Nutanix et sélectionnez votre cluster.

Espace client - accès au cluster

Identifiez le nœud à démarrer en mode rescue en utilisant l'appel API OVHcloud suivant :

  • serviceName : entrez le nom du cluster

Vous pourrez alors identifier le nom du nœud :

OVHcloud API - node name

Après avoir récupéré le nom du nœud à redémarrer en mode rescue, sélectionnez ce nœud dans votre espace client OVHcloud.

Dans la section Boot, cliquez sur le bouton ... puis sur Modifier.

Espace client - Boot

Changez le netboot en choisissant Booter en mode rescue, choisissez la version rescue-customer et cliquez sur Suivant.

Espace client - Boot

Confirmez votre choix.

Espace client - Boot

Une fois validé, un message vert vous confirmera la mise à jour du nouveau netboot.

Cliquez de nouveau sur le bouton ... et cliquez cette fois sur Redémarrer.

Espace client - Boot

Le serveur va redémarrer. Si vous le souhaitez, vous pouvez ouvrir une session IPMI pour suivre le redémarrage de votre nœud.

Lorsque le nœud est démarré sur rescue-customer, mettez à jour votre ticket d'assistance avec ces informations pour informer les équipes d'assistance OVHcloud qu'elles peuvent procéder à la mise à jour du firmware.

Nos équipes support finaliseront les mises à jour nécessaires, c'est-à-dire qu'elles vont :

  • redémarrer le nœud sur le disque local, ce qui lancera automatiquement le système Nutanix et le CVM.
  • mettre à jour le ticket pour vous informer que vous pouvez sortir le nœud du mode maintenance.

À ce moment-là, le nœud est opérationnel, poursuivez la lecture de ce guide pour quitter le mode maintenance.

Sortie du mode maintenance

Après la mise à jour du nœud, nos services redémarrent le nœud à partir du disque local. Le logiciel Nutanix chargera AOS et le CVM démarrera automatiquement.

Une fois le système de retour à la normale, connectez-vous au CVM et exécutez la commande suivante :

acli host.list

Comme vous pouvez le voir sur l'exemple ci-dessous, le premier nœud est toujours en mode maintenance.

sortie du mode maintenance

Pour sortir le nœud du mode maintenance, exécutez la commande suivante :

host.exit_maintenance_mode 192.168.0.1

L'hôte quitte l'état maintenance et revient à l'état Normal.

sortie du mode maintenance

Les machines virtuelles migrées à partir de ce nœud passent automatiquement d'autres nœuds à celui-ci.

Sur le tableau de bord principal, le Data Resiliency Status redeviendra à OK, le cluster retrouvant également son état nominal.

Data Resiliency Status

Répétez les mêmes étapes pour les nœuds restants, un à la fois.

Merci de ne pas ouvrir de nouveau ticket, il suffit de rajouter des commentaires sur le même ticket pour chaque nœud, en spécifiant le nom du serveur (par exemple ns123456.ip-169-254-10.eu).

Aller plus loin

Si vous avez besoin d'une formation ou d'une assistance technique pour la mise en oeuvre de nos solutions, contactez votre commercial ou cliquez sur ce lien pour obtenir un devis et demander une analyse personnalisée de votre projet à nos experts de l’équipe Professional Services.

Échangez avec notre communauté d'utilisateurs.

Articles associés