Aller au contenu principal
Version: 21.04

Concepts

Statut des ressources​

Les statuts sont des indicateurs pour les hÎtes ou les services. Chaque statut a une signification bien précise pour l'objet. A chaque statut correspond un code généré par la sonde de supervision en fonction des seuils définis par l'utilisateur.

Statut des hîtes​

Le tableau ci-dessous résume l'ensemble des statuts possibles pour un hÎte.

StatusDescription
UPL'hĂŽte est disponible et joignable
DOWNL'hĂŽte est indisponible
UNREACHABLEL'hĂŽte est injoignable

Statut des services​

Le tableau ci-dessous résume l'ensemble des statuts possibles pour un service.

StatusDescription
OKLe service ne présente aucun problÚme
ALERTELe service a dépassé le seuil d'alerte
CRITIQUELe service a dépassé le seuil critique
INCONNULe statut du service ne peut ĂȘtre vĂ©rifiĂ© (exemple : agent SNMP DOWN
)

Statuts avancĂ©s​

En plus des statuts standards, de nouveaux statuts permettent d'ajouter des informations complémentaires :

  • Le statut PENDING est un statut affichĂ© pour un service ou un hĂŽte fraĂźchement configurĂ© mais qui n'a pas encore Ă©tĂ© contrĂŽlĂ© par l'ordonnanceur.
  • Le statut UNREACHABLE est un statut indiquant que l'hĂŽte est situĂ© (relation de parentĂ©) en aval d'un hĂŽte dans un statut DOWN.
  • Le statut FLAPPING est un statut indiquant que le pourcentage de changement de statut de l'objet est trĂšs Ă©levĂ©. Ce pourcentage est obtenu Ă  partir de calculs effectuĂ©s par le moteur de supervision.
  • Le statut ACKNOWLEDGED est un statut indiquant que l'incident du service ou de l'hĂŽte est pris en compte par un utilisateur.
  • Le statut DOWNTIME est un statut indiquant que l'incident du service ou de l'hĂŽte est survenu durant une pĂ©riode de temps d'arrĂȘt programmĂ©.

Confirmation du statut​

Une ressource peut avoir deux Ă©tats :

  • SOFT : Signifie qu'un incident vient d'ĂȘtre dĂ©tectĂ© et que ce dernier doit ĂȘtre confirmĂ©.
  • HARD : Signifie que le statut de l'incident est confirmĂ©. Lorsque le statut est confirmĂ©, le processus de notification est enclenchĂ© (envoi d'un mail, SMS, 
).

Explication​

Un incident (statut non-OK) est confirmĂ© Ă  partir du moment oĂč le nombre d'essai de validation est arrivĂ© Ă  son terme. La configuration d'un objet (hĂŽte ou service) implique un intervalle de contrĂŽle rĂ©gulier, un nombre d'essai pour valider un Ă©tat non-OK ainsi qu'un intervalle non-rĂ©gulier de contrĂŽle. DĂšs la dĂ©tection du premier incident, le statut est dans un Ă©tat “SOFT” jusqu'Ă  sa validation en Ă©tat “HARD” dĂ©clenchant le processus de notification.

Exemple :

image

TempsNombre de vérificationsStatutEtatChangement d'étatCommentaire
t+01/3OKHARDNoÉtat initial du service
t+51/3CRITICALSOFTYesPremiÚre détection d'un état non-OK. Le gestionnaire d'événements s'exécute (event handlers).
t+62/3WARNINGSOFTYesLe service continue Ă  ĂȘtre dans un statut non-OK. Le gestionnaire d'Ă©vĂ©nements s'exĂ©cute.
t+73/3CRITICALHARDYesLe nombre maximal de tentatives de vérification a été atteint, le service passe donc à l'état HARD. Le gestionnaire d'événements s'exécute et une notification de problÚme est envoyée. Le contrÎle # est remis à 1 immédiatement aprÚs que cela se produit.
t+123/3WARNINGHARDYesLe service passe à un état HARD WARNING. Le gestionnaire d'événements s'exécute et une notification de problÚme est envoyée.
t+173/3WARNINGHARDNoLe service se stabilise dans un Ă©tat de problĂšme HARD. En fonction de l'intervalle de notification pour le service, une autre notification peut ĂȘtre envoyĂ©e.
t+221/3OKHARDYesLe service revient à un statut OK HARD. Le gestionnaire d'événements s'exécute et une notification de récupération est envoyée.
t+271/3OKHARDNoLe service est toujours OK.
t+281/3UNKNOWNSOFTYesLe service passe à un état SOFT non-OK. Le gestionnaire d'événements s'exécute.
t+292/3OKSOFTYesLe service revient à un état OK SOFT. Le gestionnaire d'événements s'exécutent, mais les notifications ne sont pas envoyées, car ce n'était pas un problÚme "réel". Le type d'état est défini sur HARD et le contrÎle # est remis à 1 immédiatement aprÚs que cela se produit.
t+301/3OKHARDNoLe service se stabilise dans un Ă©tat OK HARD.