AI视觉内容标注助手（VLA = AI Vision Labeling Assistant）

ai-vla 是 AI Vision Labeling Assistant 的缩写，全称是"AI视觉内容标注助手"，是一个功能强大的AI驱动视觉内容标注工具。可以从两个维度帮助用户完成图片标注工作：

标准生成：对黑白样本图像进行批量分析，自动生成结构化、可执行的标注标准文档
依据标准标注：支持依据已有的标注标准文档，对新图片进行批量自动标注

适用于内容审核、图像分类、样本标注等多种场景。

⚠️ 强制输出要求（V1.0.3新增）

重要：无论使用哪种方式调用此skill，分析完成后必须自动生成以下两类文件：

1️⃣ Excel分析报告（必选）

必须自动生成Excel报告文件，保存到当前工作目录
Excel报告必须包含4个工作表：
- 图像分析结果：文件名、路径、文件大小、分析角度、样本类型、特征、边界情况、分析状态等
- 统计信息：总图片数、成功/失败数、分析成功率、特征总数等
- 特征汇总：特征名称、出现次数，按频率排序
- 边界情况：边界情况描述、出现次数

2️⃣ 标注标准文档（必选）

必须自动生成Markdown格式的标注标准文档
标注标准必须包含以下部分：
- Role定义：明确标注员的角色和核心任务
- Goals：标注目标和分类定义（pass/unpass二元分类）
- Classification Guidelines：详细的判定标准，分点列出违规/合规特征
- Workflow：标准化的推理步骤和判定流程
- 分析样本详情：样本统计摘要表
- 统计信息：分析样本类型、分析角度、总数量、成功率等

功能特性

🚀 核心能力

📁 批量图像分析：支持对整个文件夹内的所有图像进行全面分析，不遗漏任何样本
🔍 自定义分析角度：支持根据用户指定的任意维度进行分析（如低俗、色情、暴力、政治敏感等）
🤖 内置多模态能力：使用LobsterAI内置的视觉分析能力，无需外部API密钥，开箱即用
✅ 内容验证机制：新增内容验证步骤，确保AI真正理解图片内容，避免误判

📊 输出能力

📋 结构化标准生成：自动生成符合规范的标注标准文档，包含角色定义、判定标准、工作流程等
🎯 智能特征排序：特征按出现频率自动排序，高频特征在前，更符合实际审核需求
🤖 LLM友好格式：输出的Markdown格式标准专门优化，便于大模型理解和执行标注任务
📝 黑白样本区分：支持分别分析黑样本（违规）和白样本（合规），形成完整的判定边界

📈 Excel增强功能

📊 详细Excel报告：自动生成多工作表Excel分析报告，信息全面
- 图像详情表：记录每张图片的文件名、路径、大小、特征、边界情况、分析状态等完整信息
- 统计信息表：总图片数、成功率、特征总数、边界情况数等汇总统计
- 特征汇总表：所有特征的出现次数统计，按频率排序
- 边界情况表：特殊情况的出现次数统计，便于处理疑难案例
📝 完整审计追踪：每张图片的分析结果永久记录，便于复核和追溯

⚡ 体验优化

⏱️ 实时进度同步：每完成10张图像分析自动同步进度，让用户随时了解分析进展
📊 三阶段工作流：明确的"分析图像 → 生成Excel → 生成标注标准"三步流程，清晰透明
✅ 质量保障：分析成功率、特征覆盖率等关键指标自动计算，便于评估标准质量
🔎 内容验证：自动验证AI是否正确识别图片内容，识别结果与实际不符时提示用户
📝 依据标准标注：支持依据用户提供的标注标准文档，对新图片进行批量标注，标注结果按规范格式输出

🛠️ 问题修复与优化 (v1.0.3)

强制输出要求：新增明确的强制输出要求，分析完成后必须同时生成Excel报告和标注标准文档
对话交互增强：在对话交互方式中明确自动生成Excel报告（4个工作表）和Markdown标注标准
输出格式规范化：统一输出文件格式，确保符合规范

🛠️ 问题修复与优化 (v1.0.2)

修复Bash环境兼容性问题：提供Bash和PowerShell双环境的文件查询指令，确保跨平台兼容性
优化错误处理流程：新增错误实时反馈机制，出现问题时立即向用户说明情况并提供解决方案
统一路径查询规范：明确不同环境下的正确命令使用方式，避免命令不兼容错误
增强用户沟通机制：要求在执行过程中实时同步思考和解决方案，保持用户知情权

⚠️ 重要说明

V1.0.3强制要求：无论使用哪种方式，分析完成后必须同时输出：

Excel分析报告文件（4个工作表格式）
Markdown标注标准文档（含Role、Goals、Classification Guidelines、Workflow等）

当前版本推荐使用对话交互方式：

直接在对话中提供图片（通过文件路径或拖拽上传）
系统使用内置多模态视觉能力分析图片内容
✅ 必须自动生成Excel报告（保存到工作目录）
✅ 必须自动生成标注标准（Markdown格式）
完成后向用户返回文件路径

使用方法

✅ 推荐方式：对话交互（直接提供图片）

直接在对话中提供图片，系统会自动完成全流程并输出文件：

格式：

输入文件: <图片路径1>
输入文件: <图片路径2>
...（可提供多张图片）

请从以下角度分析这些图片并生成标注标准：
<分析角度>，<样本类型>（black=black/违规 或 white=白样本/合规）

⚠️ 系统自动执行流程：

使用内置多模态视觉能力逐张分析图片
✅ 自动生成Excel分析报告（4个工作表）→ 保存到工作目录
✅ 自动生成Markdown标注标准（含Role/Goals/分类标准/工作流）→ 保存到工作目录
完成后向用户返回Excel和标注标准文件的路径

示例：

输入文件: C:\Users\xxxx\Desktop\测试\0348ea6396082233e5c753670ade643d.jpg
输入文件: C:\Users\xxxx\Desktop\测试\046aa67567a124de1a84756c41acdb98.jpg

请分析这些图片，生成低俗媚俗相关的标注标准，样本类型为black（违规）

脚本调用方式（暂不可用）

python auto_generate.py <样本文件夹路径> <样本类型> <分析角度> [选项]

注意：当前脚本方式需要外部提供视觉分析函数接口，暂不可用。请使用上述对话交互方式。

📜 创建Python脚本生成Excel报告

当需要创建Python脚本来生成Excel报告时：

使用 Write 工具创建脚本文件（路径为工作目录下的 .py 文件）
直接运行脚本：使用 python 脚本完整路径 执行
注意：Windows 路径中的反斜杠可能需要转义，建议使用原始字符串或双反斜杠

示例：

# 创建脚本 (假设工作目录为 C:\Users\xxxx\Desktop\测试)
# 使用 Write 工具保存为 C:\Users\xxxx\Desktop\测试\generate_report.py

# 运行脚本时使用完整路径
python C:\Users\xxxx\Desktop\测试\generate_report.py

⚠️ 常见错误：

No such file or directory - 路径不正确，请使用完整绝对路径
确保文件确实存在于指定路径

新功能：依据标注标准进行图片标注

用户可以提供已有的标注标准文档，对新图片进行批量标注：

格式：

输入文件: <图片路径1>
输入文件: <图片路径2>
...（可提供多张图片）

标注标准文档: <标准文档路径>

请依据上述标注标准对这些图片进行标注

示例：

输入文件: C:\Users\xxxx\Desktop\测试\001.jpg
输入文件: C:\Users\xxxx\Desktop\测试\002.jpg
输入文件: C:\Users\xxxx\Desktop\测试\003.jpg

标注标准文档: C:\Users\xxxx\Desktop\测试\低俗媚俗标注标准.md

请依据上述标注标准对这些图片进行低俗媚俗相关标注

输出格式

生成的标注标准包含以下部分：

Role定义：明确标注员的角色和核心任务
Goals：标注目标和分类定义
Classification Guidelines：详细的判定标准，分点列出违规/合规特征
Workflow：标准化的推理步骤和判定流程
Edge Cases：特殊情况处理说明

⚠️ Excel输出格式要求（必须严格遵守）

输出最终标注结果时，必须严格按照以下Excel格式输出，不可自行创造其他形式：

Excel分析报告必须包含以下4个工作表：

图像分析结果（必填）：
- 列：文件名、路径、文件大小、分析角度、样本类型、提取的特征、边界情况、分析状态、错误信息、分析时间
- 逐行记录每张图片的完整分析信息
统计信息（必填）：
- 包含：总图片数、成功分析数、失败数、分析成功率、特征总数、边界情况数、样本类型、分析角度、分析完成时间
- 汇总统计信息
特征汇总（必填）：
- 列：特征名称、出现次数
- 所有提取到的特征的完整列表，按出现频率排序
边界情况（必填）：
- 列：边界情况描述、出现次数
- 所有边界情况的完整列表，便于处理特殊案例

禁止：不得创建除上述4个工作表之外的其他工作表，不得自行添加非定义列，不得改变列顺序。

📝 标注结果输出格式（依据标准标注时）

当用户使用"依据标注标准进行图片标注"功能时，标注结果必须按以下Excel格式输出：

标注结果Excel必须包含以下工作表：

标注结果（必填）：
- 列：文件名、路径、文件大小、标注类别（black/white/不确定）、判定依据（匹配的标准特征）、置信度（高/中/低）、边界情况、标注时间
- 逐行记录每张图片的标注结果
统计信息（必填）：
- 包含：总图片数、black数量、white数量、不确定数量、标注完成时间
- 汇总统计信息
匹配特征详情（必填）：
- 列：文件名、匹配的特征、特征来源（来自哪条标准）
- 记录每张图片匹配到的具体标准特征
边界情况标注（必填）：
- 列：边界情况描述、图片数量、典型文件
- 记录所有边界情况的标注结果

禁止：不得创建除上述4个工作表之外的其他工作表，不得自行添加非定义列，不得改变列顺序。

工作流程

第一阶段：单图分析阶段

列举图片文件：根据运行环境选择对应命令遍历指定文件夹下的所有图像文件

Windows PowerShell环境：

# 列出指定路径下所有图片文件（支持jpg、jpeg、png、gif、bmp、webp等格式）
Get-ChildItem -Path "<文件夹路径>" -Include *.jpg,*.jpeg,*.png,*.gif,*.bmp,*.webp -Recurse | Select-Object FullName, Length, LastWriteTime

Bash/Linux/macOS环境：

# 列出指定路径下所有图片文件（支持jpg、jpeg、png、gif、bmp、webp等格式）
find "<文件夹路径>" -type f \( -iname "*.jpg" -o -iname "*.jpeg" -o -iname "*.png" -o -iname "*.gif" -o -iname "*.bmp" -o -iname "*.webp" \) -exec ls -l {} \;

使用LobsterAI内置多模态视觉能力对每张图像进行多维度分析，提取特征点（无需外部API调用）
精细化特征提取：对每张图片从以下维度进行详细描述（参考示例格式）：
- 人物姿态描述：如"女性仰面平躺"、"男性俯身贴近"、"身体距离极近"、"躺卧姿态"等
- 场景描述：如"室内床榻/卧榻"、"带有暧昧暗示属性的场景"、"特定场所环境"等
- 动作描述：如"女性手部触摸男性脸颊"、"两人面部距离极近"、"眼神交汇"等
- 服饰描述：如"古风服饰"、"现代服饰"、"特定服饰风格"等
- 情感/氛围暗示：如"暧昧暗示"、"情侣/亲密关系暗示"、"暧昧互动状态"等
特征提取示例：
```
图片1特征提取：
人物躺卧姿态，女性仰面平躺，男性俯身贴近，身体距离极近
躺卧场景为室内床榻/卧榻，带有暧昧暗示属性
女性手部触摸男性脸颊，动作亲密
两人面部距离极近，眼神交汇，呈现暧昧互动状态
服饰为古风服饰，但躺卧姿态和互动方式带有明显的情侣/亲密关系暗示
```
实时进度同步：每完成10张图像分析，自动输出进度报告，包括已完成数量、成功率、已提取特征数等
完整保存每张图片的详细分析结果，包括特征、边界情况、分析状态、错误信息等

第二阶段：Excel生成阶段

基于所有单图的分析结果，自动生成多工作表Excel分析报告
- 逐行记录每张图片的完整分析信息
- 生成统计信息汇总
- 生成特征出现频率统计
- 生成边界情况统计
Excel报告首先生成并保存，作为后续标注标准的依据

第三阶段：标注标准生成阶段

基于Excel中记录的所有单图分析结果，汇总共性特征，按出现频率排序
结合分析角度和样本类型，生成结构化的标注标准文档
在标注标准中包含样本分析摘要和统计信息，便于追溯和验证
输出所有文件到当前工作目录
严格按Excel格式输出：最终标注结果必须按"⚠️ Excel输出格式要求"章节定义的4个工作表格式输出

依赖要求

Python 3.8+
Pillow (图像处理)
python-docx (可选，用于Word格式输出)
openpyxl (必选，用于生成Excel分析报告，⚠️请勿使用pandas)
requests (必选，用于调用视觉API进行自动分析)

⚠️ 重要：必须使用 openpyxl 生成 Excel，禁止使用 pandas

生成Excel报告时请使用 openpyxl 库，不要使用 pandas。原因：

openpyxl 是纯 Python 实现，无需额外编译，兼容性好
pandas 在部分环境安装失败率高
openpyxl 已预装在 LobsterAI 环境中

安装依赖

pip install openpyxl requests pillow

依据标注标准进行图片标注的工作流程

当用户使用"依据标注标准进行图片标注"功能时，按以下流程执行：

第一步：读取标注标准文档

读取用户提供的标注标准文档（Markdown格式）
解析标准中的分类定义、判定特征、工作流程等关键信息
提取可用于匹配的特征规则

第二步：列举待标注图片

根据运行环境选择对应命令遍历指定文件夹下的所有图像文件

Windows PowerShell环境：

Get-ChildItem -Path "<文件夹路径>" -Include *.jpg,*.jpeg,*.png,*.gif,*.bmp,*.webp -Recurse | Select-Object FullName, Length, LastWriteTime

Bash/Linux/macOS环境：

find "<文件夹路径>" -type f \( -iname "*.jpg" -o -iname "*.jpeg" -o -iname "*.png" -o -iname "*.gif" -o -iname "*.bmp" -o -iname "*.webp" \) -exec ls -l {} \;

第三步：逐图进行标准匹配

使用LobsterAI内置多模态视觉能力分析每张图片
将图片特征与标注标准中的规则进行匹配
根据匹配结果确定标注类别（black/white/不确定）
记录匹配的判定依据和置信度

第四步：输出标注结果

严格按标注结果输出格式输出：必须按"📝 标注结果输出格式"章节定义的4个工作表格式输出
生成Excel格式的标注结果报告
输出到当前工作目录

第五步：标注完成汇总

提供标注结果统计摘要
列出边界情况图片供人工复核

错误处理与用户反馈机制

⚠️ 执行过程中出现问题时的处理流程

立即反馈：出现任何错误或异常时，第一时间向用户说明情况，明确告知问题类型和影响范围
透明思考：实时同步思考解决方案的过程，包括可能的原因分析、尝试的解决方法、预期效果等
可选方案：提供多个解决方案供用户选择，明确每个方案的优缺点和实施成本
进度同步：在解决问题过程中持续同步进度，遇到困难时及时告知用户，避免让用户等待过久

常见错误处理示例

命令不兼容错误（如在Bash环境中使用PowerShell命令）：
- 立即告知用户："当前环境为Bash环境，PowerShell命令不兼容，正在切换为Bash兼容命令"
- 快速提供替代方案，使用Bash原生命令完成相同功能
- 执行前确认命令正确性
文件路径错误：
- 立即告知用户："文件路径不存在或无法访问，正在验证路径有效性"
- 尝试使用相对路径、绝对路径等多种方式定位文件
- 必要时请求用户确认文件位置
图片分析失败：
- 立即告知用户："第X张图片分析失败，错误原因：XXX，正在尝试重试或跳过"
- 记录失败信息，继续处理其他图片
- 最终汇总时提供失败列表和原因分析