Santé disques (smartctl) Surveiller la santé des disques d'un serveur dédié HolyCloud avec smartmontools et smartctl, interpréter SMART et planifier le remplacement. ~9 min de lecture Débutant #smartctl #disques #smart #dedie Santé disques (smartctl) Les disques d'un serveur dédié finissent par défaillir. SMART (Self-Monitoring, Analysis and Reporting Technology) signale des secteurs réalloués, des erreurs de lecture et une usure SSD avant panne totale. L'outil smartctl fait partie du paquet smartmontools. Prérequis Serveur dédié Linux avec accès root Disques SATA/SAS/NVMe reconnus par le contrôleur (RAID matériel peut masquer SMART — voir ci-dessous) Aucun test destructif pendant les heures de production sans fenêtre maintenance Installation sudo apt update sudo apt install -y smartmontools sudo systemctl enable --now smartd Identifier les disques lsblk -d -o NAME,SIZE,MODEL,ROTA sudo smartctl --scan Exemples de chemins : | Type | Device | |------|--------| | SATA | /dev/sda | | NVMe | /dev/nvme0 | Première lecture SMART sudo smartctl -a /dev/sda sudo smartctl -a /dev/nvme0 Attributs critiques (HDD) : | Attribut | Signification | |----------|---------------| | Reallocated_Sector_Ct | Secteurs défectueux remappés — > 0 à surveiller | | Current_Pending_Sector | Secteurs instables en attente | | UDMA_CRC_Error_Count | Souvent câble/SAS défectueux | | Temperature_Celsius | Chaleur excessive | SSD NVMe : consultez Percentage Used, Media Errors, Available Spare. Test court (non destructif) sudo smartctl -t short /dev/sda # attendre ~2 min sudo smartctl -a /dev/sda | tail -20 Test long (HDD, plusieurs heures) : sudo smartctl -t long /dev/sda Planifiez une fenêtre maintenance — I/O élevé. smartd : alertes automatiques Éditez /etc/smartd.conf : /dev/sda -a -o on -S on -s (S/../.././02|L/../../6/03) -m root@localhost /dev/nvme0 -a -o on -S on -m root@localhost -s : tests planifiés (court quotidien, long hebdomadaire) -m : email (configurez postfix ou relay HolyCloud) sudo systemctl restart smartd sudo smartctl -i /dev/sda | grep -i smart RAID matériel (MegaRAID, etc.) Le disque physique peut être /dev/bus/0 — utilisez les outils du contrôleur : # exemple MegaRAID sudo apt install -y megacli # ou storcli depuis le vendor Demandez au support HolyCloud le modèle RAID pour la commande exacte smartctl -d megaraid,N -a /dev/sda. Interprétation rapide sudo smartctl -H /dev/sda | Résultat | Action | |----------|--------| | PASSED | Continuer surveillance | | FAILED | Sauvegarde immédiate, ticket remplacement disque | | Données incohérentes | Câble, backplane, contrôleur | Journalisation sudo smartctl -a /dev/sda > /root/smart-sda-$(date +%F).txt Conservez un historique mensuel pour voir la dérive des compteurs. Bonnes pratiques dédié Surveillez tous les disques du RAID, pas seulement le volume logique visible. Couplez SMART avec backups hors serveur (S3, autre DC). Après remplacement disque par HolyCloud, refaites un smartctl -t short. Dépannage | Problème | Piste | |----------|-------| | SMART Disabled | smartctl -s on /dev/sda | | Device open failed | Disque dans RAID sans option -d | | NVMe « unknown» | Mettre à jour smartmontools | Besoin d'aide ? Ouvrez un ticket avec la sortie complète smartctl -a, numéro de série disque (panel / IPMI) et slot concerné pour un remplacement sous garantie. Suite de la lecture Article précédent Réinstaller le serveur dédié Lire Article suivant Tuning carte réseau (ethtool) Lire