aws_textract
SKILL.md
aws_textract
AWS Textract es un servicio de extracción de texto que incluye soporte nativo para documentos de identidad (AnalyzeID). Extrae campos estructurados como nombre, fecha de nacimiento y número de documento directamente.
When to use
Usar en el ocr_agent como alternativa cloud a Google Vision, especialmente cuando se necesita extracción estructurada de campos de documentos de identidad. Solo como fallback.
Instructions
- Instalar:
pip install boto3. - Configurar credenciales AWS:
AWS_ACCESS_KEY_ID,AWS_SECRET_ACCESS_KEY. - Usar AnalyzeID para documentos de identidad:
client = boto3.client('textract') response = client.analyze_id(DocumentPages=[{'Bytes': image_bytes}]) - Parsear campos:
response['IdentityDocuments'][0]['IdentityDocumentFields']. - Mapear campos Textract a formato interno del sistema.
- Aplicar
regex_data_normalizera los resultados. - Registrar uso de fallback cloud en auditoría.
Notes
- AnalyzeID soporta pasaportes y DNIs de múltiples países de forma nativa.
- Coste: ~$10 por 1000 documentos con AnalyzeID; más caro que Google Vision.
- Misma consideración GDPR que Google Vision: imágenes salen del perímetro self-hosted.
Weekly Installs
8
Repository
davidcastagnetoa/skillsFirst Seen
11 days ago
Installed on
gemini-cli8
github-copilot8
codex8
kimi-cli8
amp8
cline8