tensorrt

Skill para compilar y optimizar los modelos ML del pipeline de verificación KYC usando NVIDIA TensorRT como compilador de deep learning. TensorRT transforma modelos entrenados en engines optimizados con fusión de capas, cuantización, selección de kernels y calibración, logrando latencias mínimas en GPUs NVIDIA. Esta skill se centra exclusivamente en TensorRT como herramienta de compilación, separada de onnx_runtime_standalone (runtime alternativo) y triton_inference_server (servidor de modelos).

When to use

Usar esta skill cuando el model_server_agent necesite compilar modelos a formato TensorRT engine (.plan) para producción, optimizar la latencia de inferencia de modelos faciales o de liveness, o configurar cuantización INT8/FP16 para los modelos del pipeline KYC. Aplica al preparar modelos para despliegue en Triton o como engines standalone.

Instructions

Convertir el modelo ArcFace de PyTorch a ONNX como paso intermedio hacia TensorRT:

import torch

model = load_arcface_model("arcface_r100.pth")
model.eval()

dummy_input = torch.randn(1, 3, 112, 112).cuda()
torch.onnx.export(

Related skills

More from davidcastagnetoa/skills

Installs

Repository

davidcastagnetoa/skills

First Seen

Mar 3, 2026

Security Audits

Gen Agent Trust HubPass

SocketPass

SnykPass

tensorrt

tensorrt

When to use

Instructions

More from davidcastagnetoa/skills

traefik

easyocr

prisma-nestjs-patterns

c4_model_structurizr

exif_metadata_analyzer

insightface_arcface