Version: 24.04

Dépanner la HA

Une "Failed action" est affichée dans `crm_mon` mais la ressource semble fonctionner correctement

Cluster name: centreon_cluster

WARNINGS:
Following resources have been moved and their move constraints are still in place: 'centreon'
Run 'pcs constraint location' or 'pcs resource clear ' to view or remove the constraints, respectively

Cluster Summary:
* Stack: corosync (Pacemaker is running)
* Current DC: @CENTRAL_NODE2_NAME@ (version 2.1.6-9.1.el8_9-6fdc9deea29) - MIXED-VERSION partition with quorum
* Last updated: Tue Jun 4 05:41:08 2024 on @CENTRAL_NODE2_NAME@
* Last change: Tue Jun 4 05:36:52 2024 by root via crm_resource on @CENTRAL_NODE1_NAME@
* 4 nodes configured
* 21 resource instances configured

Node List:
* Online: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ @DATABASE_NODE1_NAME@ @DATABASE_NODE2_NAME@ ]

Full List of Resources:
  * Clone Set: ms_mysql-clone [ms_mysql] (promotable):
    * Masters: [ @DATABASE_NODE1_NAME@ ]
    * Slaves: [ @DATABASE_NODE2_NAME@ ]
    * Stopped: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ ]
  * Clone Set: php-clone [php]:
    * Started: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ ]
    * Stopped: [ @DATABASE_NODE1_NAME@ @DATABASE_NODE2_NAME@ ]
  * Clone Set: cbd_rrd-clone [cbd_rrd]:
    * Started: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ ]
    * Stopped: [ @DATABASE_NODE1_NAME@ @DATABASE_NODE2_NAME@ ]
    * vip_mysql (ocf::heartbeat:IPaddr2): Started @DATABASE_NODE1_NAME@
  * Resource Group: centreon:
    * vip (ocf::heartbeat:IPaddr2): Started @CENTRAL_NODE2_NAME@
    * http (systemd:httpd): Started @CENTRAL_NODE2_NAME@
    * gorgone (systemd:gorgoned): Started @CENTRAL_NODE2_NAME@
    * centreon_central_sync (systemd:centreon-central-sync): Started @CENTRAL_NODE2_NAME@
    * cbd_central_broker (systemd:cbd-sql): Started @CENTRAL_NODE2_NAME@
    * centengine (systemd:centengine): Started @CENTRAL_NODE2_NAME@
    * centreontrapd (systemd:centreontrapd): Started @CENTRAL_NODE2_NAME@
    * snmptrapd (systemd:snmptrapd): Started @CENTRAL_NODE2_NAME@

Daemon Status:
corosync: active/enabled
pacemaker: active/enabled
pcsd: active/enabled

Failed Resource Actions:
* centreontrapd_start_0 on @CENTRAL_NODE1_NAME@ 'not running' (7): call=82, status=complete, exitreason='',
last-rc-change='Tue Jun 4 11:00:00 2024', queued=1ms, exec=2122ms

Solution

Les erreurs ne disparaissent pas automatiquement, même si le problème est résolu. Pour supprimer l'erreur, exécutez la commande suivante :

pcs resource cleanup <resource_name>

Dans l'exemple ci-dessus, la commande serait la suivante :

pcs resource cleanup centreontrapd

Une ressource ne s'exécute pas

Dans le cas où une ressource Centreon (par exemple centreontrapd) ne s'exécute pas, Failed actions apparaîtra en bas de l'output' de la commande crm_mon.

Solution

Pour obtenir plus d'informations sur cette "Failed action", vous devez d'abord vérifier l'état du service en exécutant cette commande sur le nœud où le service devrait être en cours d'exécution :

systemctl status centreontrapd -l

Si cela ne fournit pas suffisamment d'informations, vous pouvez essayer de forcer le démarrage du service et vérifier s'il y a des messages d'erreur :

pcs resource debug-start centreontrapd

Une fois la cause première identifiée, exécutez la commande suivante pour que le cluster oublie ces erreurs et pour redémarrer le service :

pcs resource cleanup centreontrapd

Une ressource ou un groupe de ressources ne démarre sur aucun nœud

Si la situation suivante se produit après un basculement, qu'il s'agisse d'un basculement manuel ou d'un arrêt du serveur :

* Stack: corosync (Pacemaker is running)
  * Current DC: @CENTRAL_NODE1_NAME@ (version 2.1.8-3.el9-3980678f0) - partition with quorum
  * Last updated: Fri Mar 21 16:36:16 2025 on @CENTRAL_NODE1_NAME@
  * Last change:  Thu Mar 13 11:30:16 2025 by hacluster via hacluster on @CENTRAL_NODE1_NAME@
  * 4 nodes configured
  * 21 resource instances configured

Node List:
  * Online: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ @DATABASE_NODE1_NAME@ @DATABASE_NODE2_NAME@ ]

Active Resources:
  * Clone Set: ms_mysql-clone [ms_mysql] (promotable):
    * Promoted: [ @DATABASE_NODE1_NAME@ ]
    * Unpromoted: [ @DATABASE_NODE2_NAME@ ]
  * vip_mysql   (ocf:heartbeat:IPaddr2):         Started @DATABASE_NODE1_NAME@
  * Clone Set: php-clone [php]:
    * Started: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ ]
  * Clone Set: cbd_rrd-clone [cbd_rrd]:
    * Started: [ @CENTRAL_NODE1_NAME@ @CENTRAL_NODE2_NAME@ ]    

Aucune erreur n'est affichée, mais le groupe de ressources centreon n'apparaît plus dans la sortie et aucune de ses ressources n'est démarrée. Cela se produit surtout lorsqu'il y a eu plusieurs basculements (pcs resource move ....) sans supprimer la contrainte.

Solution

Pour vérifier si certaines contraintes sont actives, exécutez la commande suivante :

pcs constraint

Le résultat sera le suivant :

Location Constraints:
Resource: cbd_rrd-clone
Disabled on:
Node: @DATABASE_NODE1_NAME@ (score:-INFINITY)
Node: @DATABASE_NODE2_NAME@ (score:-INFINITY)
Resource: centreon
Disabled on:
Node: @CENTRAL_NODE1_NAME@ (score:-INFINITY)
Node: @CENTRAL_NODE2_NAME@ (score:-INFINITY)
Node: @DATABASE_NODE1_NAME@ (score:-INFINITY)
Node: @DATABASE_NODE2_NAME@ (score:-INFINITY)
Resource: ms_mysql-clone
Disabled on:
Node: @CENTRAL_NODE1_NAME@ (score:-INFINITY)
Node: @CENTRAL_NODE2_NAME@ (score:-INFINITY)
Resource: php-clone
Disabled on:
Node: @DATABASE_NODE1_NAME@ (score:-INFINITY)
Node: @DATABASE_NODE2_NAME@ (score:-INFINITY)
Ordering Constraints:
Colocation Constraints:
vip_mysql with ms_mysql-clone (score:INFINITY) (rsc-role:Started) (with-rsc-role:Master)
ms_mysql-clone with vip_mysql (score:INFINITY) (rsc-role:Master) (with-rsc-role:Started)

Nous remarquons que le groupe de ressources centreon n'est autorisé à démarrer sur aucun nœud.

Pour libérer le groupe de ressources de ses contraintes, exécutez la commande suivante (EL8 et Debian) :

pcs resource clear centreon

Les ressources devraient démarrer maintenant.

Aucune ressource ne démarre

Si aucune ressource ne démarre, l'une des causes possibles est que le quorum device n'est pas démarré.

Solution

Pour vérifier l'état du quorum device, exécutez la commande suivante sur les nœuds centraux ou les nœuds de base de données :

pcs quorum status

Si tout va bien, le résultat ressemble à ceci :

Membership information
----------------------
    Nodeid      Votes    Qdevice Name
         1          1    A,V,NMW node1 (local)
         2          1    A,V,NMW node2
         3          1    A,V,NMW node3
         4          1    A,V,NMW node4
         0          1            Qdevice

Si vous obtenez autre chose, il y a un problème.

Vérifiez que le service corosync-qnetd fonctionne sur votre nœud central et vos nœuds de base de données.

systemctl status corosync-qnetd

Essayez d'exécuter cette commande pour savoir si le quorum device est démarré ou non :

pcs qdevice status net --full

Si le quorum device est en cours d'exécution, il peut y avoir un problème avec les flux entre les nœuds et le quorum device.
Si le quorum device n'est pas en cours d'exécution, connectez-vous à votre celui-ci et démarrez-le à l'aide de la commande suivante :

pcs qdevice start net

Une "Failed action" est affichée dans crm_mon mais la ressource semble fonctionner correctement​

Solution​

Une ressource ne s'exécute pas​

Solution​

Une ressource ou un groupe de ressources ne démarre sur aucun nœud​

Solution​

Aucune ressource ne démarre​

Solution​

Une "Failed action" est affichée dans `crm_mon` mais la ressource semble fonctionner correctement

Solution

Une ressource ne s'exécute pas

Solution

Une ressource ou un groupe de ressources ne démarre sur aucun nœud

Solution

Aucune ressource ne démarre

Solution