faq-similar-question-generator
SKILL.md
FAQ 相似问题生成器
本 Skill 用于基于标准问题和答案,生成符合网易七鱼知识库规范的相似问题。
知识库匹配逻辑(背景知识)
- x > 0.935:直接给 top1 标准问句的答案
- 0.45 ≤ x ≤ 0.935:给最多 3 个推荐标准问句
- x < 0.45:给未知问题回复
相似问题的数量和质量直接影响机器人的聪明程度和匹配正确率。
相似问题编辑规范
1. 意图明确且唯一
- 相似问题必须与标准问题意思一致
- 不要包含多个意图
- 避免语义混淆
负样例:
- 标准问题:优惠券的使用方法
- 错误相似问题:优惠券可以叠加使用吗(意图不同)
- 标准问题:减脂秤的维修地点在哪里
- 错误相似问题:减脂秤维修去哪里维修?要收多少钱啊?(包含两个意图)
2. 覆盖性原则
- 尽量编辑多种不同问法
- 相互之间说法差别大,但意思相同
- 相似问题和标准问题不允许重复
- 每个标准问题建议维护 20 条左右相似问题
- 每个标准问题最多可添加 1000 个相似问题
正样例:
- 标准问题:如何查询手机余额
- 相似问题:查话费;手机余额多吗;手机还剩多少话费;手机欠费了吗;我的电话费还有多少;电话余额多少
3. 简洁且完整
- 不能以关键词形式存在
- 描述简洁,建议控制在 20 字以内
- 单条相似问题最多支持 100 个字
- 避免不必要的描述
负样例:
- 优惠券(太过简短,信息不足)
- 我想买东西,看到有优惠券,但不知道如何使用(包含不必要描述,应简化为"优惠券如何使用")
4. 参考但不偏离答案
- 可以参考标准问题的答案内容
- 但不能偏离标准问题的核心意图
负样例:
- 标准问题:vip会员连续包月如何收费
- 答案:vip会员连续包月每月收费6元,于每月月初扣费
- 错误相似问题:连续包月每个月何时扣款(偏离了"收费"的核心意图)
5. 范围区分
- 若独立了小范围的标准问题,相似问题也需要区分界限
负样例:
- 标准问题:忘记支付密码怎么办
- 错误相似问题:不记得密码了(密码范围大于支付密码)
6. 真实问法参考
- 不要仅依赖自己编辑
- 可以参考百度或其他搜索工具,查找客户真实问法
7. 避免重复问法
- 和已有问题含义基本相同,只是连接词或语序不同,不必维护
- 机器人算法本身可以匹配出这些变体
不必维护的例子:
- 标准问题:如何进行手表养护
- 不必维护:手表如何进行养护;手表养护如何进行;手表怎么进行养护啊
8. 同义词处理
- 同样句式,仅替换同义词,不必维护到知识库
- 应将同义词添加到相似词库中
- 主体词(和企业业务紧密相关的专有名词)的同义词应添加到相似词库
生成策略
多样化问法类型
为每个标准问题生成 10-20 条相似问题时,应覆盖以下类型:
-
直接问法:直接询问核心问题
- 例:如何查询余额?
-
口语化问法:模拟真实用户口语表达
- 例:我想查一下余额;余额怎么查啊
-
省略主语问法:省略部分主语或宾语
- 例:余额查询;查余额
-
同义替换问法:使用同义词替换
- 例:话费查询(替换"余额"为"话费")
-
疑问词变化问法:使用不同疑问词
- 例:余额是多少;余额有多少;余额还剩多少
-
情境化问法:结合具体情境
- 例:我想知道还剩多少话费;手机欠费了吗
-
倒装问法:语序调整
- 例:余额要怎么查
-
委婉问法:委婉表达方式
- 例:能帮我查一下余额吗;请问余额怎么查询
质量检查清单
生成相似问题后,检查以下事项:
- 是否与标准问题意思一致?
- 是否意图唯一,无多意图混杂?
- 是否控制在 20 字以内?
- 是否避免与标准问题重复?
- 是否避免过于简短(如仅关键词)?
- 是否避免不必要的冗长描述?
- 是否覆盖多种不同表达方式?
- 是否区分了范围界限?
输出格式
标准问题:{原文档中的标准问题}
相似问法1:{第一条相似问法}
相似问法2:{第二条相似问法}
相似问法3:{第三条相似问法}
...
相似问法N:{第N条相似问法}
使用示例
输入:
- 标准问题:如何查询手机余额
- 答案:您可以通过拨打10086查询手机余额,或登录手机营业厅APP查看
输出:
标准问题:如何查询手机余额
相似问法1:查话费
相似问法2:手机余额多吗
相似问法3:手机还剩多少话费
相似问法4:手机欠费了吗
相似问法5:我的电话费还有多少
相似问法6:电话余额多少
相似问法7:怎么查余额
相似问法8:余额怎么查询
相似问法9:我想查一下话费
相似问法10:话费余额怎么看
相似问法11:能帮我查下余额吗
相似问法12:余额查询方法
相似问法13:话费还剩多少
相似问法14:手机话费查询
相似问法15:查一下还剩多少话费
执行流程
- 分析标准问题的核心意图
- 阅读标准答案,理解回答范围
- 根据生成策略,构思 10-20 条不同表达方式的相似问法
- 按照质量检查清单逐一检查
- 按指定格式输出结果