NYC
skills/smithery/ai/OCR Image to Markdown

OCR Image to Markdown

SKILL.md

OCR 图像识别转 Markdown

本技能允许你“阅读”图片并将内容转换为可编辑的 Markdown 文本。这在提取数据表格、幻灯片内容或文档截图时特别有用,尤其是当无法使用外部 OCR 库时。

使用指南

  1. 确认目标图片:

    • 定位你需要处理的图片文件。
    • 如有需要,使用 list_dir 浏览目录。
  2. 查看图片:

    • 使用 view_file 工具来“看”图片内容。系统允许你直接处理图像数据。
    • 关键: 你必须对图片路径使用 view_file,这样你的视觉模型才能消化它。
  3. 转录内容:

    • 基于你所看到的,将文本转录为 Markdown。
    • 表格: 将视觉看到的表格转换为标准 Markdown 表格 (| 表头 | ... |)。
    • 标题: 使用 #, ## 等来标记图片中的标题,保持层级结构。
    • 文本: 将段落转录为普通文本。
    • 数字: 仔细核对所有数字,特别是财务报表中的数据。
  4. 保存输出:

    • 使用 write_to_file 将转录的内容写入 .md 文件(例如 ocr_results.md)。
    • 如果处理多张图片,考虑将其追加到同一个文件中,或按逻辑组织。

最佳实践技巧

  • 表格: 仔细对齐行和列。标准 Markdown 表格不支持单元格合并(rowspan/colspan)。你需要根据逻辑流将合并的单元格展开,或者留空。
  • 复杂布局: 如果图片布局复杂(例如左右分栏),请按照逻辑阅读顺序(从上到下,从左到右)将其序列化。
  • 图表/图形: 如果图片包含图表,请描述趋势,或者将可见的数据点提取为列表或表格。
  • 无需代码执行: 不要 试图编写或使用 Python 库(如 pytesseract, easyocr, PIL)来进行文本提取。请直接利用你自身的视觉能力。

示例场景

请求: "把这 3 张财务报告的截图转为 markdown。"

执行:

  1. list_dir 查看文件: img1.png, img2.png, img3.png
  2. view_file 读取 img1.png
  3. (内部处理): 识别表头 "Q1 Revenue" 和表格行数据。
  4. view_file 读取 img2.pngimg3.png
  5. write_to_file 创建 financial_report.md 并写入汇总的内容。
Weekly Installs
1
Repository
smithery/ai
First Seen
7 days ago
Installed on
replit1
amp1
opencode1
kimi-cli1
codex1
github-copilot1