AI 知识库
AI 知识库用于把企业制度、产品资料、项目文档、FAQ 等非结构化内容切分成可检索片段,并在聊天角色或业务助手中提供 RAG 检索增强。RuoYi Office 当前实现分为三个层次:知识库、文档、切片,后端位于 yudao-module-ai-server 的 knowledge 包,前端位于 apps/web-antd/src/views/ai/knowledge。
能力边界
| 层级 | 管理页面 | 后端接口 | 关键数据 |
|---|---|---|---|
| 知识库 | views/ai/knowledge/knowledge | /ai/knowledge/* | 名称、向量模型、topK、相似度阈值、启用状态 |
| 文档 | views/ai/knowledge/document | /ai/knowledge/document/* | 文件 URL、正文、字符数、Token 数、分片最大 Token 数 |
| 切片 | views/ai/knowledge/segment | /ai/knowledge/segment/* | 切片内容、向量库编号、召回次数、启用状态 |
推荐配置顺序
知识库参数怎么填
- 向量模型:来自 AI 模型配置,类型必须是
EMBEDDING,否则文档切片后无法稳定召回。 - 检索 topK:控制每次检索返回的片段数量。企业制度、FAQ 场景通常从 3~5 起步;资料很长时再提高。
- 相似度阈值:控制召回片段的最低相关度。阈值过高会“查不到”,过低会把无关片段带进提示词。
- 状态:知识库、文档、切片都有启停开关;排查无结果时要逐级确认都处于启用状态。
文档处理链路
日常维护建议
- 先小批量验证:不要一次导入大量低质量文档,先用一份典型制度或 FAQ 验证切片效果。
- 切片人工复核:切片内容过短会丢上下文,过长会稀释语义;重要知识库建议抽查前 20~50 个切片。
- 记录来源:文档名称要能体现版本、部门或业务域,例如“2026 销售合同模板 v1”。
- 定期清理低召回内容:文档与切片都有
retrievalCount,长期无召回的内容可考虑重切或下线。
排查清单
| 现象 | 优先检查 |
|---|---|
| 上传后聊天检索不到 | 知识库、文档、切片是否启用;聊天角色是否绑定该知识库 |
| 切片失败 | 文档 URL 是否可访问;segmentMaxTokens 是否过小;后端日志是否有解析异常 |
| 召回内容不相关 | 相似度阈值过低;原文包含大量模板页眉页脚;切片缺少上下文 |
| 召回数量太少 | topK 太小;阈值太高;向量模型配置不可用 |
