gpu_utilization_monitoring

Installation
SKILL.md

gpu_utilization_monitoring

Skill para monitorizar en tiempo real el uso de GPU (memoria VRAM, compute utilization, temperatura y power draw) de los workers de inferencia ML del sistema de verificación KYC. Permite identificar cuellos de botella en el pipeline de modelos faciales, liveness y OCR, y optimizar la asignación de recursos entre modelos.

When to use

Usar esta skill cuando el model_server_agent necesite configurar, consultar o ajustar la monitorización de recursos GPU en los nodos de inferencia. Aplica al dimensionar infraestructura, diagnosticar latencias elevadas, planificar escalado o detectar fugas de memoria VRAM en los modelos desplegados.

Instructions

  1. Configurar la recolección de métricas GPU mediante NVIDIA DCGM (Data Center GPU Manager) como fuente primaria:

    # Instalar y arrancar DCGM exporter para Prometheus
    docker run -d --gpus all --rm -p 9400:9400 \
      nvcr.io/nvidia/k8s/dcgm-exporter:3.3.5-3.4.0-ubuntu22.04
    
  2. Definir las métricas clave a monitorizar por cada worker de inferencia:

Related skills
Installs
10
First Seen
Mar 3, 2026