Festplatte auf einem Server mit Software-RAID im laufenden Betrieb wechseln
Einleitung
Wenn eine Festplatte Ihres Servers nicht mehr funktioniert, können Sie diese im laufenden Betrieb austauschen, wenn Sie über einen kompatiblen High-End Server (HG) verfügen.
In dieser Anleitung werden Ihnen die notwendigen Schritte gezeigt, um die Festplatte eines Servers mit Software-RAID-Konfiguration im laufenden Betrieb zu wechseln (Hot Swap).
Voraussetzungen
- Sie verfügen über einen mHG, HG oder BHG Server.
- Sie haben ein Software-RAID (mit LSI-Karte).
- Sie haben Zugriff via SSH (Linux) oder RDP (Windows).
- Sie haben das Tool “sas2ircu” installiert (Sie finden dieses über die Suchmaschine Broadcom).
Beschreibung
Linux
Schritt 1: Festplatte ermitteln
Wir gehen in dieser Anleitung zunächst davon aus, dass wir einen Alarm für die Festpatte /dev/sdb erhalten haben. Sie ist defekt und wir möchten sie ersetzen. Passen Sie die Elemente dieser Anleitung entsprechend Ihrer Situation an.
Überprüfen Sie zuerst die “Serial Number” der betreffenden Festplatte.
Hier sehen Sie, dass:
- die Festplatte “sdb” aufgrund nicht korrigierter Fehler (“uncorrected errors”) fehlerhaft ist,
- die “Serial Number” der Festplatte mit der Seriennummer aus der Alarm-Nachricht (über das Datacenter oder einem anderen Monitoring-Tool) übereinstimmt.
Um nur die “Serial Number” zu erhalten, verwenden Sie folgenden Befehl:
Schritt 2: Position der Festplatte ermitteln
Als Nächstes müssen die “Slot ID” und die “Enclosure ID” der betreffenden Festplatte ermittelt werden. Verwenden Sie hierfür das zuvor installierte Tool “sas2ircu”.
Überprüfen Sie zunächst, dass alle Festplatten korrekt über eine LSI-Karte verbunden sind.
Ist das der Fall, ermitteln Sie die ID der LSI-Karte.
Der Index entspricht der ID. In unserem Beispiel ist der Index/die ID 0.
Mit dieser Information können Sie jetzt für die betreffende Festplatte (mithilfe ihrer “Serial Number”) die “Slot ID” und die “Enclosure ID” ermitteln.
Mit diesem Befehl erhalten Sie die Festplatteninformationen, darunter die “Serial Number”, hier K4GW439B.
Wir haben also nun die “Enclosure ID” (1) und die “Slot ID” (3) ermittelt.
Schritt 3: LED der Festplatte anschalten
Verwenden Sie die in den vorherigen Schritten ermittelten Informationen, um die LED der fehlerhaften Festplatte für deren Austausch mit dem Befehl ./sas2ircu 0 locate EncID:SlotID on anzuschalten. Passen Sie den Befehl wie im folgenden Beispiel an Ihre Situation an:
Sie können das Blinken der Festplatte deaktivieren, indem Sie im Befehl “on” durch “off” ersetzen.
Schritt 4: Fehlerhafte Festplatte aus dem RAID entfernen
Ist das noch nicht der Fall, dann versetzen Sie die Festplatte in den Status “Faulty”. Sehen Sie sich anschließend den RAID-Status an.
Im vorliegenden Beispiel gehört die defekte Festplatte zu md1 und md2 (sbd1 und sbd2). Wir werden diese also nun in den “Faulty”-Status versetzen, d. h. jeweils sdb1 in md1 und sdb2 in md2.
Wenn Sie mit diesen Aktionen fertig sind, überprüfen Sie erneut den RAID-Status.
Sowohl sbd1 als auch sbd2 sind nun auf Faulty (F) umgestellt. Jetzt können Sie die Festplatte aus dem RAID entfernen.
Überprüfen Sie, dass die Festplatte nicht mehr vorhanden ist.
Die defekte Festplatte kann jetzt von einem Techniker im Rechenzentrum ausgetauscht werden. Nachdem der Vorgang abgeschlossen ist, muss das RAID nur erneut synchronisiert werden. Verwenden Sie hierzu folgende Dokumentation: Software-RAID.
Windows
Schritt 1: Festplatte ermitteln
Wir gehen in dieser Anleitung zunächst davon aus, dass wir einen Alarm für die Festpatte /dev/sdb erhalten haben. Sie ist defekt und wir möchten sie ersetzen. Passen Sie die Elemente dieser Anleitung entsprechend Ihrer Situation an.
Es ist wichtig, dass Sie die Kommandozeile als Administrator ausführen, damit Sie keine Fehler erhalten.
Überprüfen Sie zuerst die “Serial Number” der betreffenden Festplatte. Im unten stehenden Screenshot ist der Speicher eigentlich nicht fehlerhaft. Wie werden jedoch so fortfahren, als wäre das der Fall.

Hier sehen Sie, dass:
- die Festplatte “sdb” aufgrund nicht korrigierter Fehler (“uncorrected errors”) fehlerhaft ist,
- die “Serial Number” der Festplatte mit der Seriennummer aus der Alarm-Nachricht (über das Datacenter oder einem anderen Monitoring-Tool) übereinstimmt.
Schritt 2: Position der Festplatte ermitteln
Als Nächstes müssen die “Slot ID” und die “Enclosure ID” der betreffenden Festplatte ermittelt werden. Verwenden Sie hierfür das zuvor installierte Tool “sas2ircu”.
Ermitteln Sie zunächst die ID der LSI-Karte.

In unserem Beispiel hat die LSI-Karte den Index/die ID 0.
Mit dieser Information können Sie jetzt für die betreffende Festplatte (mithilfe ihrer “Serial Number”) die “Slot ID” und die “Enclosure ID” ermitteln.

Mit diesem Befehl erhalten Sie die Festplatteninformationen, darunter die “Serial Number”, hier K4G187WB.
Wir haben also nun die “Enclosure ID” (1) und die “Slot ID” (1) ermittelt.
Schritt 3: LED der Festplatte anschalten
Verwenden Sie die in den vorherigen Schritten ermittelten Informationen, um die LED der fehlerhaften Festplatte für deren Austausch mit dem Befehl .\sas2ircu 0 locate EncID:SlotID on anzuschalten. Passen Sie den Befehl wie im folgenden Beispiel an Ihre Situation an:

Sie können das Blinken der Festplatte deaktivieren, indem Sie im Befehl “on” durch “off” ersetzen.
Schritt 4: Fehlerhafte Festplatte aus dem RAID entfernen
Führen Sie diese Aktion über das Interface “Datenträgerverwaltung” Ihres Windows Servers aus.
Die defekte Festplatte kann jetzt von einem Techniker im Rechenzentrum ausgetauscht werden. Nachdem der Vorgang abgeschlossen ist, muss das RAID nur erneut synchronisiert werden. Verwenden Sie hierzu folgende Dokumentation: Software-RAID.
Weiterführende Informationen
Erfahren Sie hier, wie Sie das RAID Array Ihres Servers rekonfigurieren
OVHcloud API and Storage (Englisch)
Managing hardware RAID (Englisch)
Hot Swap - Hardware RAID (Englisch)
Für den Austausch mit unserer User Community gehen Sie auf https://community.ovh.com/en/.