Aller au contenu principal

NVIDIA GPU SMI SSH

Contenu du Pack

Objets supervisés

Le Pack NVIDIA GPU collecte les données pour:

  • Gpu-stats

Métriques collectées

Metric nameDescriptionUnit
devices.gpu.total.countNumber of gpu devices
product_name:id#device.gpu.utilization.percentagePercent of time over the past sample period (between 1 second and 1/6 second depending on the product) during which one or more kernels was executing on the GPU%
product_name:id#device.gpu.memory.utilization.percentagePercent of time over the past sample period (between 1 second and 1/6 second depending on the product) during which global (device) memory was being read or written%
product_name:id#device.gpu.encoder.utilization.percentagePercent of time over the past sample period (sampling rate is variable) during which the GPU video encoder was being used%
product_name:id#device.gpu.decoder.utilization.percentagePercent of time over the past sample period (sampling rate is variable) during which the GPU video decoder was being used%
product_name:id#device.gpu.frame_buffer.memory.usage.bytesOn-board frame buffer memory usageB
product_name:id#device.gpu.frame_buffer.memory.free.bytesOn-board frame buffer memory available usageB
product_name:id#device.gpu.frame_buffer.memory.usage.percentageOn-board frame buffer memory usage in percentage%
product_name:id#device.gpu.bar1.memory.usage.bytesBAR1 memory usageB
product_name:id#device.gpu.bar1.memory.free.bytesBAR1 memory available usageB
product_name:id#device.gpu.bar1.memory.usage.percentageBAR1 memory usage in percentage%
product_name:id#device.gpu.fan.speed.percentageFan speed value%
product_name:id#device.gpu.temperature.celsiusTemperature valueC
product_name:id#device.gpu.power.consumption.wattThe last measured power draw for the entire boardW

Prérequis

Afin de fonctionner, le Plugin nécessite une connexion SSH entre le Poller et le serveur avec les GPU NVIDIA. L'utilisateur distant doit avoir assez de privilèges pour executer la commande nvidia-smi.

Installation

  1. Installer le Plugin sur tous les Collecteurs Centreon :
yum install centreon-plugin-Hardware-Devices-Nvidia-Gpu-Smi-Ssh
  1. Sur l'interface Web de Centreon, installer le Pack NVIDIA GPU SMI SSH depuis la page Configuration > Plugin Packs > Gestionnaire

Configuration

Lorsque vous ajoutez un hôte à Centreon, appliquez-lui le modèle HW-Device-Nvidia-Gpu-Smi-SSH-custom. Une fois celui-ci configuré, certaines macros doivent être renseignées.

MandatoryNameDescription
XSSHBACKENDNom du backend: sshcli
XSSHUSERNAMEPar default, il utilise l'utilisateur en cours d'exécution centengine de votre Collecteur
SSHPASSWORDNe peut pas être utilisé avec le backend. Seulement avec la clé d'authentication
SSHPORTPar default: 22
SSHEXTRAOPTIONSPersonnalisez-le avec le vôtre si nécessaire. E.g.: --ssh-priv-key=/user/.ssh/id_rsa

Avec ce backend, il est nécessaire d'effectuer une connexion manuelle entre l'utilisateur centreon-engine du Collecteur et l'utilisateur applicatif créé sur le serveur distant (Macro SSHUSERNAME).

Comment puis-je tester le Plugin et que signifient les options des commandes ?

Une fois le Plugin installé, vous pouvez tester celui-ci directement en ligne de commande depuis votre Collecteur Centreon avec l'utilisateur centreon-engine

/usr/lib/centreon/plugins/centreon_nvidia_gpu_smi_ssh.pl \
--plugin=hardware::devices::nvidia::gpu::smi::plugin \
--mode=stats \
--hostname=10.30.2.81 \
--ssh-username=centreon \
--ssh-password='centreon-password' \
--ssh-backend=libssh \
--verbose

La commande devrait retourner un message de sortie de la forme ci-dessous:

OK: All devices are ok | 'devices.gpu.total.count'=2;;;0; 'Quadro K6000:00000000:08:00.0#device.gpu.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.memory.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.encoder.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.decoder.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.frame_buffer.memory.usage.bytes'=1349517312B;;;0;12798918656 'Quadro K6000:00000000:08:00.0#device.gpu.frame_buffer.memory.free.bytes'=11449401344B;;;0;12798918656 'Quadro K6000:00000000:08:00.0#device.gpu.frame_buffer.memory.usage.percentage'=10.54%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.bar1.memory.usage.bytes'=13631488B;;;0;268435456 'Quadro K6000:00000000:08:00.0#device.gpu.bar1.memory.free.bytes'=254803968B;;;0;268435456 'Quadro K6000:00000000:08:00.0#device.gpu.bar1.memory.usage.percentage'=5.08%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.fan.speed.percentage'=26.00%;;;0;100 'Quadro K6000:00000000:08:00.0#device.gpu.temperature.celsius'=40C;;;; 'Quadro K6000:00000000:08:00.0#device.gpu.power.consumption.watt'=24.16W;;;0; 'Quadro K6000:00000000:84:00.0#device.gpu.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.memory.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.encoder.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.decoder.utilization.percentage'=0.00%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.frame_buffer.memory.usage.bytes'=732954624B;;;0;12798918656 'Quadro K6000:00000000:84:00.0#device.gpu.frame_buffer.memory.free.bytes'=12065964032B;;;0;12798918656 'Quadro K6000:00000000:84:00.0#device.gpu.frame_buffer.memory.usage.percentage'=5.73%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.bar1.memory.usage.bytes'=5242880B;;;0;268435456 'Quadro K6000:00000000:84:00.0#device.gpu.bar1.memory.free.bytes'=263192576B;;;0;268435456 'Quadro K6000:00000000:84:00.0#device.gpu.bar1.memory.usage.percentage'=1.95%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.fan.speed.percentage'=26.00%;;;0;100 'Quadro K6000:00000000:84:00.0#device.gpu.temperature.celsius'=40C;;;; 'Quadro K6000:00000000:84:00.0#device.gpu.power.consumption.watt'=23.86W;;;0;
checking device gpu 'Quadro K6000:00000000:08:00.0'
utilization gpu: 0.00 %, memory: 0.00 %, encoder: 0.00 %, decoder: 0.00 %
frame buffer memory usage total: 11.92 GB used: 1.26 GB (10.54%) free: 10.66 GB (89.46%)
bar1 memory usage total: 256.00 MB used: 13.00 MB (5.08%) free: 243.00 MB (94.92%)
fan speed: 26.00 %
gpu temperature: 40 C
power consumption: 24.16 W
checking device gpu 'Quadro K6000:00000000:84:00.0'
utilization gpu: 0.00 %, memory: 0.00 %, encoder: 0.00 %, decoder: 0.00 %
frame buffer memory usage total: 11.92 GB used: 699.00 MB (5.73%) free: 11.24 GB (94.27%)
bar1 memory usage total: 256.00 MB used: 5.00 MB (1.95%) free: 251.00 MB (98.05%)
fan speed: 26.00 %gpu temperature: 40 C
power consumption: 23.86 W

La commande ci-dessus contrôle les statistiques GPU (--mode=stats). Le Plugin utilise le Backend libssh (--ssh-backend='libssh') avec l'utisateur centreon (--ssh-username=centreon --ssh-password='centreon-password') et il se connecte à l'hôte 10.30.2.81 (--hostname='10.30.2.81').

Pour chaque mode, la liste de toutes les métriques, seuils associés et options complémentaires peuvent être affichés en ajoutant le paramètre --help à la commande:

/usr/lib/centreon/plugins/centreon_nvidia_gpu_smi_ssh.pl \
--plugin=hardware::devices::nvidia::gpu::smi::plugin \
--mode=stats \
--help

Diagnostique

Diagnostique des plugins