ai-vla
AI视觉内容标注助手(VLA = AI Vision Labeling Assistant)
ai-vla 是 AI Vision Labeling Assistant 的缩写,全称是"AI视觉内容标注助手",是一个功能强大的AI驱动视觉内容标注工具。可以从两个维度帮助用户完成图片标注工作:
- 标准生成:对黑白样本图像进行批量分析,自动生成结构化、可执行的标注标准文档
- 依据标准标注:支持依据已有的标注标准文档,对新图片进行批量自动标注
适用于内容审核、图像分类、样本标注等多种场景。
⚠️ 强制输出要求(V1.0.3新增)
重要:无论使用哪种方式调用此skill,分析完成后必须自动生成以下两类文件:
1️⃣ Excel分析报告(必选)
- 必须自动生成Excel报告文件,保存到当前工作目录
- Excel报告必须包含4个工作表:
- 图像分析结果:文件名、路径、文件大小、分析角度、样本类型、特征、边界情况、分析状态等
- 统计信息:总图片数、成功/失败数、分析成功率、特征总数等
- 特征汇总:特征名称、出现次数,按频率排序
- 边界情况:边界情况描述、出现次数
2️⃣ 标注标准文档(必选)
- 必须自动生成Markdown格式的标注标准文档
- 标注标准必须包含以下部分:
- Role定义:明确标注员的角色和核心任务
- Goals:标注目标和分类定义(pass/unpass二元分类)
- Classification Guidelines:详细的判定标准,分点列出违规/合规特征
- Workflow:标准化的推理步骤和判定流程
- 分析样本详情:样本统计摘要表
- 统计信息:分析样本类型、分析角度、总数量、成功率等
功能特性
🚀 核心能力
- 📁 批量图像分析:支持对整个文件夹内的所有图像进行全面分析,不遗漏任何样本
- 🔍 自定义分析角度:支持根据用户指定的任意维度进行分析(如低俗、色情、暴力、政治敏感等)
- 🤖 内置多模态能力:使用LobsterAI内置的视觉分析能力,无需外部API密钥,开箱即用
- ✅ 内容验证机制:新增内容验证步骤,确保AI真正理解图片内容,避免误判
📊 输出能力
- 📋 结构化标准生成:自动生成符合规范的标注标准文档,包含角色定义、判定标准、工作流程等
- 🎯 智能特征排序:特征按出现频率自动排序,高频特征在前,更符合实际审核需求
- 🤖 LLM友好格式:输出的Markdown格式标准专门优化,便于大模型理解和执行标注任务
- 📝 黑白样本区分:支持分别分析黑样本(违规)和白样本(合规),形成完整的判定边界
📈 Excel增强功能
- 📊 详细Excel报告:自动生成多工作表Excel分析报告,信息全面
- 图像详情表:记录每张图片的文件名、路径、大小、特征、边界情况、分析状态等完整信息
- 统计信息表:总图片数、成功率、特征总数、边界情况数等汇总统计
- 特征汇总表:所有特征的出现次数统计,按频率排序
- 边界情况表:特殊情况的出现次数统计,便于处理疑难案例
- 📝 完整审计追踪:每张图片的分析结果永久记录,便于复核和追溯
⚡ 体验优化
- ⏱️ 实时进度同步:每完成10张图像分析自动同步进度,让用户随时了解分析进展
- 📊 三阶段工作流:明确的"分析图像 → 生成Excel → 生成标注标准"三步流程,清晰透明
- ✅ 质量保障:分析成功率、特征覆盖率等关键指标自动计算,便于评估标准质量
- 🔎 内容验证:自动验证AI是否正确识别图片内容,识别结果与实际不符时提示用户
- 📝 依据标准标注:支持依据用户提供的标注标准文档,对新图片进行批量标注,标注结果按规范格式输出
🛠️ 问题修复与优化 (v1.0.3)
- 强制输出要求:新增明确的强制输出要求,分析完成后必须同时生成Excel报告和标注标准文档
- 对话交互增强:在对话交互方式中明确自动生成Excel报告(4个工作表)和Markdown标注标准
- 输出格式规范化:统一输出文件格式,确保符合规范
🛠️ 问题修复与优化 (v1.0.2)
- 修复Bash环境兼容性问题:提供Bash和PowerShell双环境的文件查询指令,确保跨平台兼容性
- 优化错误处理流程:新增错误实时反馈机制,出现问题时立即向用户说明情况并提供解决方案
- 统一路径查询规范:明确不同环境下的正确命令使用方式,避免命令不兼容错误
- 增强用户沟通机制:要求在执行过程中实时同步思考和解决方案,保持用户知情权
⚠️ 重要说明
V1.0.3强制要求:无论使用哪种方式,分析完成后必须同时输出:
- Excel分析报告文件(4个工作表格式)
- Markdown标注标准文档(含Role、Goals、Classification Guidelines、Workflow等)
当前版本推荐使用对话交互方式:
- 直接在对话中提供图片(通过文件路径或拖拽上传)
- 系统使用内置多模态视觉能力分析图片内容
- ✅ 必须自动生成Excel报告(保存到工作目录)
- ✅ 必须自动生成标注标准(Markdown格式)
- 完成后向用户返回文件路径
使用方法
✅ 推荐方式:对话交互(直接提供图片)
直接在对话中提供图片,系统会自动完成全流程并输出文件:
格式:
输入文件: <图片路径1>
输入文件: <图片路径2>
...(可提供多张图片)
请从以下角度分析这些图片并生成标注标准:
<分析角度>,<样本类型>(black=black/违规 或 white=白样本/合规)
⚠️ 系统自动执行流程:
- 使用内置多模态视觉能力逐张分析图片
- ✅ 自动生成Excel分析报告(4个工作表)→ 保存到工作目录
- ✅ 自动生成Markdown标注标准(含Role/Goals/分类标准/工作流)→ 保存到工作目录
- 完成后向用户返回Excel和标注标准文件的路径
示例:
输入文件: C:\Users\xxxx\Desktop\测试\0348ea6396082233e5c753670ade643d.jpg
输入文件: C:\Users\xxxx\Desktop\测试\046aa67567a124de1a84756c41acdb98.jpg
请分析这些图片,生成低俗媚俗相关的标注标准,样本类型为black(违规)
脚本调用方式(暂不可用)
python auto_generate.py <样本文件夹路径> <样本类型> <分析角度> [选项]
注意:当前脚本方式需要外部提供视觉分析函数接口,暂不可用。请使用上述对话交互方式。
📜 创建Python脚本生成Excel报告
当需要创建Python脚本来生成Excel报告时:
- 使用 Write 工具创建脚本文件(路径为工作目录下的 .py 文件)
- 直接运行脚本:使用
python 脚本完整路径执行 - 注意:Windows 路径中的反斜杠可能需要转义,建议使用原始字符串或双反斜杠
示例:
# 创建脚本 (假设工作目录为 C:\Users\xxxx\Desktop\测试)
# 使用 Write 工具保存为 C:\Users\xxxx\Desktop\测试\generate_report.py
# 运行脚本时使用完整路径
python C:\Users\xxxx\Desktop\测试\generate_report.py
⚠️ 常见错误:
No such file or directory- 路径不正确,请使用完整绝对路径- 确保文件确实存在于指定路径
新功能:依据标注标准进行图片标注
用户可以提供已有的标注标准文档,对新图片进行批量标注:
格式:
输入文件: <图片路径1>
输入文件: <图片路径2>
...(可提供多张图片)
标注标准文档: <标准文档路径>
请依据上述标注标准对这些图片进行标注
示例:
输入文件: C:\Users\xxxx\Desktop\测试\001.jpg
输入文件: C:\Users\xxxx\Desktop\测试\002.jpg
输入文件: C:\Users\xxxx\Desktop\测试\003.jpg
标注标准文档: C:\Users\xxxx\Desktop\测试\低俗媚俗标注标准.md
请依据上述标注标准对这些图片进行低俗媚俗相关标注
输出格式
生成的标注标准包含以下部分:
- Role定义:明确标注员的角色和核心任务
- Goals:标注目标和分类定义
- Classification Guidelines:详细的判定标准,分点列出违规/合规特征
- Workflow:标准化的推理步骤和判定流程
- Edge Cases:特殊情况处理说明
⚠️ Excel输出格式要求(必须严格遵守)
输出最终标注结果时,必须严格按照以下Excel格式输出,不可自行创造其他形式:
Excel分析报告必须包含以下4个工作表:
-
图像分析结果(必填):
- 列:文件名、路径、文件大小、分析角度、样本类型、提取的特征、边界情况、分析状态、错误信息、分析时间
- 逐行记录每张图片的完整分析信息
-
统计信息(必填):
- 包含:总图片数、成功分析数、失败数、分析成功率、特征总数、边界情况数、样本类型、分析角度、分析完成时间
- 汇总统计信息
-
特征汇总(必填):
- 列:特征名称、出现次数
- 所有提取到的特征的完整列表,按出现频率排序
-
边界情况(必填):
- 列:边界情况描述、出现次数
- 所有边界情况的完整列表,便于处理特殊案例
禁止:不得创建除上述4个工作表之外的其他工作表,不得自行添加非定义列,不得改变列顺序。
📝 标注结果输出格式(依据标准标注时)
当用户使用"依据标注标准进行图片标注"功能时,标注结果必须按以下Excel格式输出:
标注结果Excel必须包含以下工作表:
-
标注结果(必填):
- 列:文件名、路径、文件大小、标注类别(black/white/不确定)、判定依据(匹配的标准特征)、置信度(高/中/低)、边界情况、标注时间
- 逐行记录每张图片的标注结果
-
统计信息(必填):
- 包含:总图片数、black数量、white数量、不确定数量、标注完成时间
- 汇总统计信息
-
匹配特征详情(必填):
- 列:文件名、匹配的特征、特征来源(来自哪条标准)
- 记录每张图片匹配到的具体标准特征
-
边界情况标注(必填):
- 列:边界情况描述、图片数量、典型文件
- 记录所有边界情况的标注结果
禁止:不得创建除上述4个工作表之外的其他工作表,不得自行添加非定义列,不得改变列顺序。
工作流程
第一阶段:单图分析阶段
-
列举图片文件:根据运行环境选择对应命令遍历指定文件夹下的所有图像文件
Windows PowerShell环境:
# 列出指定路径下所有图片文件(支持jpg、jpeg、png、gif、bmp、webp等格式) Get-ChildItem -Path "<文件夹路径>" -Include *.jpg,*.jpeg,*.png,*.gif,*.bmp,*.webp -Recurse | Select-Object FullName, Length, LastWriteTimeBash/Linux/macOS环境:
# 列出指定路径下所有图片文件(支持jpg、jpeg、png、gif、bmp、webp等格式) find "<文件夹路径>" -type f \( -iname "*.jpg" -o -iname "*.jpeg" -o -iname "*.png" -o -iname "*.gif" -o -iname "*.bmp" -o -iname "*.webp" \) -exec ls -l {} \; -
使用LobsterAI内置多模态视觉能力对每张图像进行多维度分析,提取特征点(无需外部API调用)
-
精细化特征提取:对每张图片从以下维度进行详细描述(参考示例格式):
- 人物姿态描述:如"女性仰面平躺"、"男性俯身贴近"、"身体距离极近"、"躺卧姿态"等
- 场景描述:如"室内床榻/卧榻"、"带有暧昧暗示属性的场景"、"特定场所环境"等
- 动作描述:如"女性手部触摸男性脸颊"、"两人面部距离极近"、"眼神交汇"等
- 服饰描述:如"古风服饰"、"现代服饰"、"特定服饰风格"等
- 情感/氛围暗示:如"暧昧暗示"、"情侣/亲密关系暗示"、"暧昧互动状态"等
特征提取示例:
图片1特征提取: 人物躺卧姿态,女性仰面平躺,男性俯身贴近,身体距离极近 躺卧场景为室内床榻/卧榻,带有暧昧暗示属性 女性手部触摸男性脸颊,动作亲密 两人面部距离极近,眼神交汇,呈现暧昧互动状态 服饰为古风服饰,但躺卧姿态和互动方式带有明显的情侣/亲密关系暗示 -
实时进度同步:每完成10张图像分析,自动输出进度报告,包括已完成数量、成功率、已提取特征数等
-
完整保存每张图片的详细分析结果,包括特征、边界情况、分析状态、错误信息等
第二阶段:Excel生成阶段
- 基于所有单图的分析结果,自动生成多工作表Excel分析报告
- 逐行记录每张图片的完整分析信息
- 生成统计信息汇总
- 生成特征出现频率统计
- 生成边界情况统计
- Excel报告首先生成并保存,作为后续标注标准的依据
第三阶段:标注标准生成阶段
- 基于Excel中记录的所有单图分析结果,汇总共性特征,按出现频率排序
- 结合分析角度和样本类型,生成结构化的标注标准文档
- 在标注标准中包含样本分析摘要和统计信息,便于追溯和验证
- 输出所有文件到当前工作目录
- 严格按Excel格式输出:最终标注结果必须按"⚠️ Excel输出格式要求"章节定义的4个工作表格式输出
依赖要求
- Python 3.8+
- Pillow (图像处理)
- python-docx (可选,用于Word格式输出)
- openpyxl (必选,用于生成Excel分析报告,⚠️请勿使用pandas)
- requests (必选,用于调用视觉API进行自动分析)
⚠️ 重要:必须使用 openpyxl 生成 Excel,禁止使用 pandas
生成Excel报告时请使用 openpyxl 库,不要使用 pandas。原因:
- openpyxl 是纯 Python 实现,无需额外编译,兼容性好
- pandas 在部分环境安装失败率高
- openpyxl 已预装在 LobsterAI 环境中
安装依赖
pip install openpyxl requests pillow
依据标注标准进行图片标注的工作流程
当用户使用"依据标注标准进行图片标注"功能时,按以下流程执行:
第一步:读取标注标准文档
- 读取用户提供的标注标准文档(Markdown格式)
- 解析标准中的分类定义、判定特征、工作流程等关键信息
- 提取可用于匹配的特征规则
第二步:列举待标注图片
-
根据运行环境选择对应命令遍历指定文件夹下的所有图像文件
Windows PowerShell环境:
Get-ChildItem -Path "<文件夹路径>" -Include *.jpg,*.jpeg,*.png,*.gif,*.bmp,*.webp -Recurse | Select-Object FullName, Length, LastWriteTimeBash/Linux/macOS环境:
find "<文件夹路径>" -type f \( -iname "*.jpg" -o -iname "*.jpeg" -o -iname "*.png" -o -iname "*.gif" -o -iname "*.bmp" -o -iname "*.webp" \) -exec ls -l {} \;
第三步:逐图进行标准匹配
- 使用LobsterAI内置多模态视觉能力分析每张图片
- 将图片特征与标注标准中的规则进行匹配
- 根据匹配结果确定标注类别(black/white/不确定)
- 记录匹配的判定依据和置信度
第四步:输出标注结果
- 严格按标注结果输出格式输出:必须按"📝 标注结果输出格式"章节定义的4个工作表格式输出
- 生成Excel格式的标注结果报告
- 输出到当前工作目录
第五步:标注完成汇总
- 提供标注结果统计摘要
- 列出边界情况图片供人工复核
错误处理与用户反馈机制
⚠️ 执行过程中出现问题时的处理流程
- 立即反馈:出现任何错误或异常时,第一时间向用户说明情况,明确告知问题类型和影响范围
- 透明思考:实时同步思考解决方案的过程,包括可能的原因分析、尝试的解决方法、预期效果等
- 可选方案:提供多个解决方案供用户选择,明确每个方案的优缺点和实施成本
- 进度同步:在解决问题过程中持续同步进度,遇到困难时及时告知用户,避免让用户等待过久
常见错误处理示例
-
命令不兼容错误(如在Bash环境中使用PowerShell命令):
- 立即告知用户:"当前环境为Bash环境,PowerShell命令不兼容,正在切换为Bash兼容命令"
- 快速提供替代方案,使用Bash原生命令完成相同功能
- 执行前确认命令正确性
-
文件路径错误:
- 立即告知用户:"文件路径不存在或无法访问,正在验证路径有效性"
- 尝试使用相对路径、绝对路径等多种方式定位文件
- 必要时请求用户确认文件位置
-
图片分析失败:
- 立即告知用户:"第X张图片分析失败,错误原因:XXX,正在尝试重试或跳过"
- 记录失败信息,继续处理其他图片
- 最终汇总时提供失败列表和原因分析