paddleocr
SKILL.md
paddleocr
PaddleOCR es el motor OCR principal del sistema. Ofrece alta precisión en múltiples idiomas e incluye detección de texto, reconocimiento y clasificación de orientación.
When to use
Usar para extraer todos los campos de texto del documento: nombre, apellidos, fecha de nacimiento, número de documento, fecha de expiración, nacionalidad.
Instructions
- Instalar:
pip install paddlepaddle paddleocr. - Inicializar con modelos en español/inglés:
ocr = PaddleOCR(use_angle_cls=True, lang='es', use_gpu=True). - Procesar imagen:
result = ocr.ocr(img_path, cls=True). - El resultado es una lista de
[[bounding_box], [text, confidence]]para cada región de texto. - Filtrar por confianza mínima:
confidence > 0.8. - Aplicar post-procesamiento: limpiar caracteres extraños, normalizar espacios.
- Combinar con las regiones detectadas por YOLOv8 para extracción de campos específicos.
- Para el MRZ, aplicar el parser ICAO separadamente sobre la región MRZ recortada.
Notes
- Repositorio oficial: https://github.com/PaddlePaddle/PaddleOCR
- EasyOCR es la alternativa:
pip install easyocr— misma interfaz, diferente precisión por idioma. - Configurar
use_gpu=Falsesi no hay GPU disponible (mayor latencia esperada).
Weekly Installs
1
Repository
davidcastagnetoa/skillsFirst Seen
10 days ago
Security Audits
Installed on
mcpjam1
claude-code1
replit1
junie1
windsurf1
zencoder1