skills/magnycopper/skills/homepage-info-extractor

homepage-info-extractor

SKILL.md

官网信息提取

从指定官网执行原文信息提取,并将结果以 Excel 扁平化视图进行保存。

核心工作流

  1. 初始化:读取 EXTRACTION_FIELDS.md 明确字段与提取逻辑。
  2. 官网识别:给定初始 URL 后,先识别并确认目标官网域名(Official Domain)与官网首页地址。
  3. 首轮访问(低成本模式):使用 Playwright MCP 访问官网,优先拦截无关资源(stylesheetimagemediafont)以减少上下文和 token 消耗。
  4. 递归寻址与页面发现(Level 1)
    • 若站点提供 sitemap.xml 或可访问的“网页指南/网站地图”页面,优先使用 sitemap 建立站内 URL 索引并按字段相关性排序。
    • 从首页导航、页脚、站点地图、About/Contact/IR/Leadership 等高相关入口开始。
    • 递归访问所有高概率内部页面,直到字段覆盖率不再提升。
    • 若发现页面内容依赖动态渲染(延迟加载、前端注入、交互后出现),可放开资源拦截并重新访问,优先保证信息完整提取。
  5. 字段提取与证据记录
    • 对每个字段记录官网原文与披露 URL。
    • 优先记录精确 XPath;若页面为动态加载且 XPath 无法稳定获取,可将 XPath 留空,并改用可复核定位器(如 CSS 选择器、文本锚点、区块标题)进行追溯。
    • 优先建立“字段 -> 最佳来源页面”映射,再回填模板。
  6. 搜索补救(Level 2,仅用于发现官网内部链接)
    • 对仍缺失字段,使用 site:<official-domain> <关键词> 的 Google 搜索补充官网内部页面线索。
    • 仅允许进入并提取目标官网域名下的页面;禁止从第三方域名提取数据。
  7. 缺失字段留空:经过官网路径分析与站内搜索补救后仍找不到的字段,提取文本与“XPath/定位器”保持留空(且无文本时 URL 也留空)。
  8. 多官网批处理
    • 多个官网时逐个处理。
    • 每完成一个官网立即生成一个结果文件。
    • 处理下一个官网前,清理当前任务上下文(仅保留必要规则与模板)。
  9. 输出结果与备注:按模板输出,并在“提取备注与未解决困难”中记录关键障碍与边界判断。

操作流程图

flowchart TD
    A[输入初始 URL] --> B[识别并确认 Official Domain / 官网首页]
    B --> C[读取字段定义 EXTRACTION_FIELDS]
    C --> D[Playwright 低成本访问<br/>拦截 CSS/图片/媒体/字体]
    D --> E[递归访问高概率内部页面]
    E --> F{页面是否依赖动态加载?}
    F --  --> G[放开资源拦截并重访]
    F --  --> H[继续提取]
    G --> H[提取原文 + URL + XPath/定位器]
    H --> I{字段是否全部覆盖?}
    I --  --> J[site:official-domain 关键词搜索补救]
    J --> K[仅访问官网域名结果]
    K --> H
    I --  --> L[按模板生成结果文件]
    J --> M{仍有缺失字段?}
    M --  --> N[对应字段留空]
    M --  --> L
    N --> L
    L --> O{是否还有下一个官网?}
    O --  --> P[清理上下文后处理下一个]
    P --> A
    O --  --> Q[结束]

输出与归档要求

  • 存储路径<工程根目录>/results/<YYYYMMDD>/homepage-info-extractor/
  • 命名规范<目标官网域名>.md
  • 独立性:一个官网一个文件。

资源参考

Weekly Installs
9
First Seen
Mar 3, 2026
Installed on
github-copilot9
codex9
kimi-cli9
gemini-cli9
cursor9
amp9