regex_data_normalizer

Módulo de normalización que transforma los datos crudos extraídos por OCR a formatos estándar consistentes. Normaliza fechas (ISO 8601), nombres (capitalización), y números de documento (sin espacios/guiones) para su validación posterior.

When to use

Usar en el ocr_agent inmediatamente después de la extracción OCR y antes de la validación cruzada con MRZ. Todos los campos extraídos deben pasar por normalización.

Instructions

Fechas: detectar formato con regex y convertir a ISO 8601 (YYYY-MM-DD).
- Patrones: DD/MM/YYYY, DD-MM-YYYY, DD.MM.YYYY, YYYYMMDD (MRZ).
Nombres: eliminar caracteres no alfabéticos, normalizar acentos, capitalizar.
- re.sub(r'[^A-Za-záéíóúñÁÉÍÓÚÑ\s]', '', name).strip().title().
Número de documento: eliminar espacios, guiones y puntos.
- re.sub(r'[\s\-\.]', '', doc_number).upper().
Nacionalidad: mapear a código ISO 3166-1 alpha-3.
Sexo: normalizar a M/F independientemente del idioma del documento.
Validar que la fecha de nacimiento sea anterior a hoy y posterior a 1900.

Related skills

More from davidcastagnetoa/skills

Installs

Repository

davidcastagnetoa/skills

First Seen

Mar 6, 2026

regex_data_normalizer

regex_data_normalizer

When to use

Instructions

More from davidcastagnetoa/skills

traefik

easyocr

prisma-nestjs-patterns

c4_model_structurizr

exif_metadata_analyzer

insightface_arcface