Retourner sur le site

Santé disques (smartctl)

Surveiller la santé des disques d'un serveur dédié HolyCloud avec smartmontools et smartctl, interpréter SMART et planifier le remplacement.

Santé disques (smartctl)

Les disques d'un serveur dédié finissent par défaillir. SMART (Self-Monitoring, Analysis and Reporting Technology) signale des secteurs réalloués, des erreurs de lecture et une usure SSD avant panne totale. L'outil smartctl fait partie du paquet smartmontools.

Prérequis

  • Serveur dédié Linux avec accès root
  • Disques SATA/SAS/NVMe reconnus par le contrôleur (RAID matériel peut masquer SMART — voir ci-dessous)
  • Aucun test destructif pendant les heures de production sans fenêtre maintenance

Installation

sudo apt update
sudo apt install -y smartmontools
sudo systemctl enable --now smartd

Identifier les disques

lsblk -d -o NAME,SIZE,MODEL,ROTA
sudo smartctl --scan

Exemples de chemins :

| Type | Device |

|------|--------|

| SATA | /dev/sda |

| NVMe | /dev/nvme0 |

Première lecture SMART

sudo smartctl -a /dev/sda
sudo smartctl -a /dev/nvme0

Attributs critiques (HDD) :

| Attribut | Signification |

|----------|---------------|

| Reallocated_Sector_Ct | Secteurs défectueux remappés — > 0 à surveiller |

| Current_Pending_Sector | Secteurs instables en attente |

| UDMA_CRC_Error_Count | Souvent câble/SAS défectueux |

| Temperature_Celsius | Chaleur excessive |

SSD NVMe : consultez Percentage Used, Media Errors, Available Spare.

Test court (non destructif)

sudo smartctl -t short /dev/sda
# attendre ~2 min
sudo smartctl -a /dev/sda | tail -20

Test long (HDD, plusieurs heures) :

sudo smartctl -t long /dev/sda

Planifiez une fenêtre maintenance — I/O élevé.

smartd : alertes automatiques

Éditez /etc/smartd.conf :

/dev/sda -a -o on -S on -s (S/../.././02|L/../../6/03) -m root@localhost
/dev/nvme0 -a -o on -S on -m root@localhost
  • -s : tests planifiés (court quotidien, long hebdomadaire)
  • -m : email (configurez postfix ou relay HolyCloud)
sudo systemctl restart smartd
sudo smartctl -i /dev/sda | grep -i smart

RAID matériel (MegaRAID, etc.)

Le disque physique peut être /dev/bus/0 — utilisez les outils du contrôleur :

# exemple MegaRAID
sudo apt install -y megacli
# ou storcli depuis le vendor

Demandez au support HolyCloud le modèle RAID pour la commande exacte smartctl -d megaraid,N -a /dev/sda.

Interprétation rapide

sudo smartctl -H /dev/sda

| Résultat | Action |

|----------|--------|

| PASSED | Continuer surveillance |

| FAILED | Sauvegarde immédiate, ticket remplacement disque |

| Données incohérentes | Câble, backplane, contrôleur |

Journalisation

sudo smartctl -a /dev/sda > /root/smart-sda-$(date +%F).txt

Conservez un historique mensuel pour voir la dérive des compteurs.

Bonnes pratiques dédié

  • Surveillez tous les disques du RAID, pas seulement le volume logique visible.
  • Couplez SMART avec backups hors serveur (S3, autre DC).
  • Après remplacement disque par HolyCloud, refaites un smartctl -t short.

Dépannage

| Problème | Piste |

|----------|-------|

| SMART Disabled | smartctl -s on /dev/sda |

| Device open failed | Disque dans RAID sans option -d |

| NVMe « unknown» | Mettre à jour smartmontools |

Besoin d'aide ?

Ouvrez un ticket avec la sortie complète smartctl -a, numéro de série disque (panel / IPMI) et slot concerné pour un remplacement sous garantie.