tensorrt_onnx
SKILL.md
tensorrt_onnx
TensorRT compila modelos ONNX para el hardware GPU específico del servidor, aplicando fusión de capas, cuantización FP16/INT8 y otras optimizaciones que reducen la latencia hasta 5x.
When to use
Aplicar a todos los modelos ML antes del despliegue en producción en servidores con GPU NVIDIA.
Instructions
- Instalar: TensorRT viene incluido en el contenedor de Triton o instalar desde NVIDIA:
pip install tensorrt. - Convertir ONNX a TensorRT engine:
import tensorrt as trt builder = trt.Builder(logger) config = builder.create_builder_config() config.set_flag(trt.BuilderFlag.FP16) # Activar FP16 network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser = trt.OnnxParser(network, logger) parser.parse_from_file('model.onnx') engine = builder.build_serialized_network(network, config) with open('model.trt', 'wb') as f: f.write(engine) - Cargar engine en Triton con backend TensorRT.
- Medir speedup: comparar latencia ONNX Runtime vs TensorRT con
perf_analyzer.
Notes
- El engine TensorRT es específico del GPU model; recompilar si cambia el hardware.
- INT8 requiere calibración con dataset representativo; FP16 es plug-and-play.
trtexec— herramienta CLI de diagnóstico incluida en TensorRT.
Weekly Installs
1
Repository
davidcastagnetoa/skillsFirst Seen
10 days ago
Installed on
mcpjam1
claude-code1
replit1
junie1
windsurf1
zencoder1