ocr-service
Installation
SKILL.md
功能
从图像中提取文字内容,支持多种图像格式和语言。
调用方式
from services.ocr_service.client import OCRServiceClient
client = OCRServiceClient()
# 健康检查
status = client.health_check()
# OCR识别
image_base64 = client.image_to_base64("/path/to/image.jpg")
result = client.ocr(image_base64)
# 获取识别结果
texts = result["rec_texts"] # ["识别的文字1", "识别的文字2", ...]
scores = result["rec_scores"] # [0.98, 0.95, ...]
返回格式
{
"doc_preprocessor_res": {"angle": 0},
"dt_polys": [[x1,y1], [x2,y2], ...],
"rec_texts": ["识别的文字1", "识别的文字2"],
"rec_scores": [0.98, 0.95]
}
字段说明
rec_texts: 识别出的文字列表rec_scores: 每个文字块的置信度dt_polys: 检测到的文本区域坐标
Related skills
More from lin-a1/skills-agent
websearch-service
基于 SearXNG 与 VLM 的实时联网搜索服务。专用于获取最新新闻、实时事件及特定事实。内置智能双层缓存(向量+数据库)与网页内容自动提取分析功能。
23sandbox-service
安全隔离的 Docker 沙盒代码执行服务。支持 Python/Shell/Bash 多语言动态执行,内置超时与资源限制。提供信任模式用于服务间代码融合调用。
10deepsearch-service
基于 LLM 的深度迭代搜索与推理服务。擅长处理复杂问题,通过自动分解查询、多轮迭代检索、信息评估与验证,最终生成全面且结构化的深度分析报告。
10rerank-service
文档重排序服务(Reranker)。基于深度学习模型对检索候选结果进行细粒度相关性打分与重新排序,显著提升检索结果的精准度(Top-K 准确率)。
9search-guide
搜索工具调用决策指南。明确定义 Agent 何时应调用搜索工具(如实时信息、具体事实),何时应依赖内部知识。作为参考规范,优化 Agent 的工具使用策略。
9