Gestion du RAID matériel
Objectif
Sur un serveur disposant d'une configuration RAID matériel, la matrice RAID est gérée par un composant physique appelé contrôleur RAID.
Prérequis
- Posséder un serveur dédié avec une configuration RAID matériel.
- Avoir accès à votre serveur via SSH en tant qu'administrateur (sudo).
Il est risqué de manipuler les commandes MegaCli et lsiutil si vous ne possédez pas les compétences adéquates. Vous risquez en effet de perdre vos données. Nous vous conseillons d'effectuer une sauvegarde avant de réaliser la moindre action.
En pratique
Utiliser le contrôleur RAID MegaRAID
Étape 1 : récupérer les informations du RAID
Avant tout, vérifiez que vous disposez d'un contrôleur MegaRAID :
Le résultat obtenu ci-dessus vous confirme que le serveur dispose d'un contrôleur MegaRAID installé.
Pour rassembler et lister les ensembles RAID disponibles, vous pouvez utiliser la commande MegaCli :
Vous pouvez voir ci-dessus deux disques virtuels composés de deux disques durs physiques, soit un total de quatre disques physiques. Dans ce cas, le statut du RAID montre qu’il est « optimal », ce qui signifie que le RAID fonctionne correctement.
Si l'état du RAID est « dégradé », nous vous recommandons de vérifier également l'état du disque dur.
Étape 2 : déterminer l'état du disque
En premier lieu, listez les device Id pour chaque disque dur afin de bien les tester avec l’outil Smarmontools :
Avec la commande smartctl de l’outil Smartmontools, vous pouvez tester chaque disque dur comme indiqué ci-dessous :
Dans cet exemple, /dev/sda est le premier RAID et /dev/sdb est le second.
Dans certaines situations, vous pouvez recevoir ce résultat :
Dans certaines situations, vous pouvez recevoir ce résultat :
console
/dev/sda [megaraid_disk_00] [SAT]: Device open changed type from 'megaraid' to 'sat'
Vous devez alors remplacer megaraid par sat+megaraid comme suit :
console
smartctl -d sat+megaraid,N -a /dev/sdX
Si l'un de vos disques durs affiche des erreurs SMART, vous devez effectuer une sauvegarde complète de vos données dès que possible et contacter notre équipe Support. Votre interlocuteur aura besoin du slot number et du device ID afin d'identifier le disque défectueux.
Étape 3 : vérifier l'état du contrôleur RAID
Pour vous assurer que votre contrôleur RAID fonctionne correctement, vous pouvez lister toutes les informations avec la commande suivante :
La partie la plus importante de la sortie est le compteur d'erreurs :
Si le nombre d'erreurs est supérieur à zéro, créez une sauvegarde de vos données et contactez le support avec la sortie complète. Notre équipe programmera ensuite une intervention pour le remplacement du contrôleur RAID.
Pour une sortie succincte des compteurs d'erreurs seulement, la commande peut être étendue par un grep :
Étape 4 : resynchronisation du RAID
Si un ou plusieurs disques durs ont été remplacés, le RAID se synchronisera automatiquement. Vous pouvez utiliser la commande ci-dessous pour voir quel disque dur est en cours de reconstruction :
Pour voir la progression de la reconstruction d’un disque, vous pouvez utiliser la commande suivante :
La commande récupérera l’enclosure ID et le slot ID, comme indiqué ci-dessus.
Étape 5a : utilisation de CacheCade
Le CacheCade est un module conçu par LSI pour améliorer les performances en lecture aléatoire des disques durs en utilisant un disque SSD comme périphérique frontal de cache.
Pour vérifier la configuration de CacheCade, utilisez les commandes suivantes :
Pour voir quel RAID est associé au CacheCade :
Étape 5b : vérification de l'état de l'unité de batterie de secours
Pour recevoir la liste complète des paramètres d'état du BBU, utilisez cette commande :
La valeur la plus importante à vérifier est l'état de la batterie, s'assurer que celui-ci est optimal. S'il existe des indicateurs d'une batterie défaillante, créez une sauvegarde de vos données et fournissez la sortie de cette commande lors de la création de votre ticket support.
Utiliser le contrôleur RAID LSI
Ce contrôleur RAID est déprécié est n'est plus disponible pour les nouveaux serveurs. Il est remplacé progressivement par un contrôleur MegaRAID.
Étape 1 : récupérer les informations RAID
Avant tout, vérifiez que vous êtes en possession d'un contrôleur RAID de type LSI en tapant la commande suivante :
Cela confirme la présence d'un contrôleur RAID LSI.
La commande grep -v megaraid sert à retirer le paramètre MegaRAID du résultat de la commande lspci car les cartes MegaRAID sont aussi fabriquées par LSI Corporation.
Pour rassembler et lister les ensembles RAID disponibles, vous pouvez utiliser la commande lsiutil :
Attention, les valeurs (1,0 21) peuvent être différentes selon les versions. Soyez vigilant lorsque vous manipulez ce type de commande.
Dans l'exemple ci-dessus, nous pouvons voir un disque virtuel, composé de deux disques durs physiques. Dans ce cas, le statut du RAID montre qu’il est « optimal », ce qui signifie que le RAID fonctionne correctement.
Si l'état du RAID est « dégradé », nous vous recommandons de vérifier également l'état du disque dur.
Dans le cas d'un serveur nouvellement provisionné, le message suivant peut s'afficher: « [In Progress: data scrub] ». Ce message n'est pas une erreur. Il s'agit plutôt d'un processus automatisé généré par le micrologiciel du contrôleur afin de réduire autant que possible les erreurs non corrigibles.
Étape 2 : déterminer l'état du disque
Pour vérifier l’état des disques à partir du contrôleur RAID, vous pouvez utiliser la commande suivante :
Dans ce cas, les deux disques s'affichent comme « optimal ».
Comme le contrôleur LSI utilise sg-map, nous devons tester le fichier /dev/sgX - « X » représentant le numéro du périphérique, comme /dev/sg1 - correspondant aux disques durs afin de les tester avec Smartmontools.
Voici la commande permettant de les lister :
Chaque ligne représente un périphérique sg, qui est mappé en fonction de l'ordre du périphérique affiché ci-dessous :
Afin d’obtenir le bon périphérique à l’aide d’une seule commande, vous pouvez utiliser celle-ci :
Avec la comande smartctl de l’outil Smartmontools, nous allons tester chaque disque dur individuellement comme indiqué ci-dessous :
Le numéro de périphérique sg est indiqué dans la commande ci-dessus.
Si l'un de vos disques durs affiche des erreurs SMART, vous devez effectuer une sauvegarde complète de vos données dès que possible et contacter notre équipe Support.
Étape 3 : resynchronisation du RAID
Si un ou plusieurs disques durs ont été remplacés, le RAID se resynchronisera automatiquement. Afin de vérifier si le RAID est en cours de resynchronisation et surveiller la progression de celle-ci, vous pouvez utiliser la commande ci-dessous :
Attention, les valeurs (3,0 21) peuvent être différentes selon les versions. Soyez vigilant lorsque vous manipulez ce type de commande.
La valeur en pourcentage indiquée dans le résultat de la commande n’est pas le pourcentage de progression, mais le pourcentage restant.
Contrôleur Raid 3Ware
Ce contrôleur RAID est déprécié et devient instable. Nous vous suggérons fortement de contacter le support OVHcloud pour planifier une intervention visant à remplacer ce contrôleur RAID par un contrôleur MegaRAID, puisque les contrôleurs RAID 3ware s’avèrent plutôt instables. Ce type d’intervention nécessite une réinstallation de votre serveur. Veillez alors à bien sauvegarder vos données au préalable.
Aller plus loin
Remplacement à chaud - RAID Matériel
Configurer votre MegaRAID en RAID 0
Remplacement à chaud - RAID logiciel
Échangez avec notre communauté d'utilisateurs.