Une petite note pour réparer un PG sur un cluster CEPH. Message d'erreur : Possible data damage: 1 pg inconsistent.
Problème rencontré
Le retour de la commande ceph -s affiche un état de santé dégradé du cluster CEPH avec le message Possible data damage: 1 pg inconsistent.
root@FE-CEPH02:~# ceph -s cluster: id: 3d910cc6-e908-4b0f-95b5-c695337f6080 health: HEALTH_ERR 4 scrub errors Possible data damage: 1 pg inconsistent services: mon: 3 daemons, quorum FE-CEPHADM,FE-CEPH01,FE-CEPH02 mgr: FE-CEPHADM(active), standbys: FE-CEPH01, FE-CEPH02 osd: 5 osds: 5 up, 5 in data: pools: 1 pools, 200 pgs objects: 246.25k objects, 942GiB usage: 1.82TiB used, 13.6TiB / 15.4TiB avail pgs: 199 active+clean 1 active+clean+inconsistent
Procédure
1) Se connecter en SSH sur l'un des noeuds du cluster CEPH
2) Déterminer le ou les PG en erreur. Pour cela, saisir la commande suivante :
root@FE-CEPH02:~# ceph health detail HEALTH_ERR 4 scrub errors; Possible data damage: 1 pg inconsistent OSD_SCRUB_ERRORS 4 scrub errors PG_DAMAGED Possible data damage: 1 pg inconsistent pg 3.6d is active+clean+inconsistent, acting [3,1]
Dans mon cas, la valeur qui nous intéresse est 3.6d
3) Lancer la procédure de réparation du PG via la commande suivante :
root@FE-CEPH02:~# ceph pg repair 3.6d instructing pg 3.6d on osd.3 to repair
4) Afficher le statut du cluster CEPH pour voir la prise en compte de la demande de réparation :
root@FE-CEPH02:~# ceph -s cluster: id: 3d910cc6-e908-4b0f-95b5-c695337f6080 health: HEALTH_ERR 4 scrub errors Possible data damage: 1 pg inconsistent, 1 pg repair services: mon: 3 daemons, quorum FE-CEPHADM,FE-CEPH01,FE-CEPH02 mgr: FE-CEPHADM(active), standbys: FE-CEPH02, FE-CEPH01 osd: 5 osds: 5 up, 5 in data: pools: 1 pools, 200 pgs objects: 246.25k objects, 942GiB usage: 1.81TiB used, 13.6TiB / 15.4TiB avail pgs: 199 active+clean 1 active+clean+scrubbing+deep+inconsistent+repair
Le PG est bien indiqué avec un statut REPAIR
5) Attendre quelques minutes puis afficher l'état du cluster CEPH
root@FE-CEPHADM:~# ceph -s cluster: id: 3d910cc6-e908-4b0f-95b5-c695337f6080 health: HEALTH_OK services: mon: 3 daemons, quorum FE-CEPHADM,FE-CEPH01,FE-CEPH02 mgr: FE-CEPHADM(active), standbys: FE-CEPH02, FE-CEPH01 osd: 5 osds: 5 up, 5 in data: pools: 1 pools, 200 pgs objects: 246.25k objects, 942GiB usage: 1.81TiB used, 13.6TiB / 15.4TiB avail pgs: 200 active+clean
6) Le cluster CEPH est de nouveau avec un état de santé optimal. Si votre cluster indique fréquemment des PG en erreur, il est impératif de vérifier vos support de stockage.