Skip to content

AI 知识库

AI 知识库用于把企业制度、产品资料、项目文档、FAQ 等非结构化内容切分成可检索片段,并在聊天角色或业务助手中提供 RAG 检索增强。RuoYi Office 当前实现分为三个层次:知识库、文档、切片,后端位于 yudao-module-ai-serverknowledge 包,前端位于 apps/web-antd/src/views/ai/knowledge

能力边界

层级管理页面后端接口关键数据
知识库views/ai/knowledge/knowledge/ai/knowledge/*名称、向量模型、topK、相似度阈值、启用状态
文档views/ai/knowledge/document/ai/knowledge/document/*文件 URL、正文、字符数、Token 数、分片最大 Token 数
切片views/ai/knowledge/segment/ai/knowledge/segment/*切片内容、向量库编号、召回次数、启用状态

推荐配置顺序

知识库参数怎么填

  • 向量模型:来自 AI 模型配置,类型必须是 EMBEDDING,否则文档切片后无法稳定召回。
  • 检索 topK:控制每次检索返回的片段数量。企业制度、FAQ 场景通常从 3~5 起步;资料很长时再提高。
  • 相似度阈值:控制召回片段的最低相关度。阈值过高会“查不到”,过低会把无关片段带进提示词。
  • 状态:知识库、文档、切片都有启停开关;排查无结果时要逐级确认都处于启用状态。

文档处理链路

日常维护建议

  1. 先小批量验证:不要一次导入大量低质量文档,先用一份典型制度或 FAQ 验证切片效果。
  2. 切片人工复核:切片内容过短会丢上下文,过长会稀释语义;重要知识库建议抽查前 20~50 个切片。
  3. 记录来源:文档名称要能体现版本、部门或业务域,例如“2026 销售合同模板 v1”。
  4. 定期清理低召回内容:文档与切片都有 retrievalCount,长期无召回的内容可考虑重切或下线。

排查清单

现象优先检查
上传后聊天检索不到知识库、文档、切片是否启用;聊天角色是否绑定该知识库
切片失败文档 URL 是否可访问;segmentMaxTokens 是否过小;后端日志是否有解析异常
召回内容不相关相似度阈值过低;原文包含大量模板页眉页脚;切片缺少上下文
召回数量太少topK 太小;阈值太高;向量模型配置不可用
联系我们

获取报价、演示和二开方案

微信咨询二维码

微信咨询

17156169080

添加时备注「RuoYi Office」

在线体验商业版