Sostituire un disco a caldo su un server con RAID Software
Obiettivo
Alcuni server Top Gamma OVH consentono la sostituzione del disco senza interruzione di servizio. Nel caso in cui uno dei dischi del server risulti danneggiato o non funzioni correttamente è possibile sostituirlo a caldo, se il modello attivato è compatibile.
Questa guida ti mostra come sostituire a caldo un disco su una macchina con RAID software.
Prerequisiti
- Disporre di un server mHG, HG o BHG
- Disporre di un RAID Software (con scheda LSI)
- Avere accesso al server via SSH (Linux) o RDP (Windows)
- Aver installato l’utility sas2ircu (distribuita da Broadcom)
Procedura
Con Linux
Step 1: individua il disco malfunzionante
Le operazioni descritte in questa guida partono dal presupposto che l’utente abbia ricevuto un messaggio di alert per il disco /dev/sdb che, a causa di un malfunzionamento, richiede la sostituzione a caldo. Ricordati di sostituire i valori generici indicati nella procedura con le informazioni corrispondenti.
Per prima cosa, verifica il Serial Number del disco in questione.
La risposta restituita al comando eseguito mostra che:
- il disco SDB è fuori servizio a causa di errori non corretti (uncorrected errors)
- Il Serial Number coincide con quello dell’alert ricevuto (inviato dal datacenter o altri strumenti di monitoraggio)
Per ottenere soltanto il Serial Number esegui questo comando:
Step 2: recupera la collocazione del disco
A questo punto è necessario identificare lo Slot ID e l’Enclosure ID del disco. Per recuperare queste informazioni utilizza il tool sas2ircu installato sul server.
Per prima cosa, verifica che i dischi siano connessi tramite una scheda LSI.
In questo caso, identifica l’ID della scheda.
L’index corrisponde all’ID. Nel nostro esempio il valore dell’index (e quindi dell’ID) della scheda è pari a 0.
Con questa informazione è possibile recuperare, tramite il Serial Number, lo Slot ID e l'Enclosure ID del disco.
Questo comando permette di visualizzare le informazioni del disco, il cui Serial Number è K4GW439B.
Nel nostro esempio, abbiamo recuperato l'Enclosure ID (corrispondente a 1) e lo Slot ID (corrispondente a 3).
Step 3: accendi il disco
Con le informazioni recuperate negli step precedenti, accendi il LED del disco da sostituire utilizzando il comando ./sas2ircu 0 locate EncID:SlotID on (ricordati di sostituire i valori generici “EncID” e “SlotID” con le informazioni recuperate precedentemente):
Per disattivare la spia lampeggiante del disco, esegui il comando precedente sostituendo “on” con “off”.
Step 4: rimuovi il disco malfunzionante dal RAID
Se questa modalità non è già attiva, passa il disco difettoso in Faulty e verifica lo stato del RAID.
Nel nostro esempio, il disco malfunzionante fa parte di “md1” e “md2” (“sbd1” e “sdb2”). A questo punto, attiveremo lo stato Faulty rispettivamente su “sdb1” in “md1” e “sdb2” in “md2”.
Una volta completata l’operazione, verifica nuovamente lo stato del RAID.
Adesso che “sdb1” e “sdb2” risultano in Faulty (F) è possibile rimuovere il disco dal RAID.
Per verificare la corretta rimozione del disco, esegui questo comando:
A questo punto il disco malfunzionante è pronto per essere sostituito da un tecnico nel datacenter e, a intervento ultimato, non resta che risincronizzare il RAID. Per effettuare questa operazione, consulta la guida Configurare un RAID software.
Con Windows
Step 1: individua il disco malfunzionante
Le operazioni descritte in questa guida partono dal presupposto che l’utente abbia ricevuto un messaggio di alert per il disco /dev/sdb che, a causa di un malfunzionamento, richiede la sostituzione a caldo. Ricordati di sostituire i valori generici indicati nella procedura con le informazioni corrispondenti.
Per evitare errori è importante avviare il terminale come amministratore.
Per prima cosa, verifica il Serial Number del disco in questione. Nella schermata mostrata qui sotto, lo storage non è realmente danneggiato, ma faremo finta che lo sia.

La risposta restituita al comando eseguito mostra che:
- il disco SDB è fuori servizio a causa di errori non corretti (uncorrected errors)
- Il Serial Number coincide con quello dell’alert ricevuto (inviato dal datacenter o altri strumenti di monitoraggio)
Step 2: recupera la collocazione del disco
A questo punto è necessario identificare lo Slot ID e l’Enclosure ID del disco. Per recuperare queste informazioni utilizza il tool sas2ircu installato sul server.
Per prima cosa, identifica l’ID della scheda LSI.

Nel nostro esempio il valore dell’index (e quindi dell’ID) della scheda LSI è pari a 0.
Con questa informazione è possibile recuperare, tramite il Serial Number, lo Slot ID e l'Enclosure ID del disco.

Questo comando permette di visualizzare le informazioni del disco, il cui Serial Number è K4GW439B.
Nel nostro esempio, abbiamo recuperato l'Enclosure ID (corrispondente a 1) e lo Slot ID (corrispondente a 1).
Step 3: accendi il disco
Con le informazioni recuperate negli step precedenti, accendi il LED del disco da sostituire utilizzando il comando ./sas2ircu 0 locate EncID:SlotID on (ricordati di sostituire i valori generici “EncID” e “SlotID” con le informazioni recuperate precedentemente):

Per disattivare la spia lampeggiante del disco, esegui il comando precedente sostituendo “on” con “off”.
Step 4: rimuovi dal RAID il disco malfunzionante
Questa operazione può essere effettuata dall’interfaccia Gestione disco del server Windows.
A questo punto il disco malfunzionante è pronto per essere sostituito da un tecnico nel datacenter e, a intervento ultimato, non resta che risincronizzare il RAID. Per effettuare questa operazione, consulta la guida Configurare un RAID software.
Per saperne di più
Come configurare il software RAID di un server
Gestire il RAID Hardware (in inglese)
Contatta la nostra Community di utenti all’indirizzo https://community.ovh.com/en/.