主用例说明:知识空间构建
背景概述
随着 PowerX 平台在企业内部的知识应用不断扩展,单纯的文档上传已无法满足对高质量知识检索与推理的要求。不同业务线沉淀了 PPT、Word、PDF、Markdown、Excel、CSV、数据库导出、API 数据流乃至视频语音等多模态资料,且质量参差不齐。为了支撑 RAG(Retrieval-Augmented Generation)与知识图谱的智能问答、工作流自动化,本主用例聚焦“知识空间构建”,梳理从多源知识采集、清洗、切分、索引、权限治理到反馈迭代的全链路能力,确保企业能够建立高可信度、可持续演进的知识空间。
目标与价值
- 标准化构建流程:提供端到端的知识入库规范,覆盖采集、清洗、语义建模与索引,降低落地难度。
- 多模态兼容:支持长篇论文、手册、图表数据、流程文档等多类型资料,确保 RAG 能力对齐真实业务。
- 智能检索增强:结合向量索引、关键词检索、知识图谱等策略,提升问答准确率与可解释性。
- 安全合规:实现租户隔离、部门分级授权、敏感字段脱敏,满足企业内部合规要求。
- 持续演进:通过数据血缘、质量评分与反馈闭环持续优化知识库结构与内容。
参与角色
- 知识工程师 / 文档管理员:负责知识源准备、清洗策略制定与入库执行。
- 业务专家 / 文档作者:提供原始资料、确认语义切分与标签准确性。
- 平台管理员:配置知识空间、权限策略与存储配额,监控构建进度。
- RAG 服务:负责向量化、检索、召回策略与 LLM 回答生成。
- 知识图谱服务:解析实体关系、构建图谱并与检索层联动。
- 安全审计服务:执行敏感信息识别、脱敏与访问审计。
- 任务调度 / ETL 服务:负责批处理与增量同步任务的调度与运行。
主场景 User Story
作为 企业的知识工程师,我希望 能够将多种格式的海量企业资料自动化清洗、切分并建立统一的语义索引与知识图谱,从而 让智能体在执行 RAG 推理时获取准确、可追溯且合规的知识支撑。
子场景详解
子场景 A:构建知识空间与基础治理策略
- 角色与触发:平台管理员接到建设新部门知识空间的需求。
- 主要流程:
- 管理员在控制台创建“财务合规知识空间”,设定租户与部门可见范围。
- 定义存储配额、版本保留策略、索引刷新周期与审计日志策略。
- 配置默认的 RAG 管线(向量模型、关键词倒排、混合召回权重)与知识图谱同步开关。
- 指定知识工程师与业务专家的角色权限,并同步至 IAM。
- 成功标准:知识空间元数据在 2 分钟内创建;默认管线与权限策略成功写入;审计日志记录初始化事件。
- 异常与风控:若租户存储配额不足或审批未完成,流程被阻断并通知管理员;若配置冲突则给出修复建议。
- 指标建议:知识空间创建成功率、默认策略覆盖率、初始化耗时。
子场景 B:长篇论文 / 手册的分层语义切分与入库
- 角色与触发:知识工程师需要将 300 页的 PDF 研究报告纳入知识库。
- 主要流程:
- 上传 PDF,触发 OCR(如需)与章节目录解析,生成文档结构树。
- 应用层级切分策略:章节→小节→段落;对段落执行滑动窗口与语义聚类,生成多粒度 chunk(如 800 token 章节摘要 + 300 token 段落切片)。
- 对每个 chunk 同步生成:向量嵌入、关键词、关键信息三元组(实体-关系-实体),并落盘。
- 将文档结构、引用页码、术语表写入知识图谱,建立章节间的依赖关系。
- 成功标准:chunk 覆盖率 ≥ 95%;嵌入计算成功率 100%;图谱实体准确率≥ 90%;处理时长符合 SLA。
- 异常与风控:遇到 OCR 失败、公式表格无法识别时发起人工校验任务;记录未完成的节点并阻断发布。
- 指标建议:平均 chunk 长度、向量召回 Top-K 命中率、图谱实体数量与质量评分。
子场景 C:结构化表格(Excel/CSV)的主题建模与实体映射
- 角色与触发:业务专家提供多张 Excel 表格,需要将数据转化为可检索的知识节点。
- 主要流程:
- 上传 Excel,解析多工作表与行列类型,自动识别主键、时间字段与枚举值。
- 通过字段语义映射与正则模板,生成实体(如“供应商”“合同”“费用项”)与属性列表。
- 以“记录摘要 + 字段组合”方式生成 chunk,并对关键字段构建向量与关键词索引。
- 对敏感字段(如金额、身份证号)执行脱敏策略,输出知识图谱节点间的关系(供应商-合同-金额)。
- 成功标准:字段识别准确率≥ 95%;脱敏覆盖率 100%;实体关系图生成成功;向量索引与关键词索引均可查询。
- 异常与风控:检测到敏感字段未脱敏、数据格式异常时阻断入库;需业务专家确认语义映射冲突。
- 指标建议:字段自动匹配率、脱敏合规率、结构化检索响应时间。
子场景 D:多源知识融合与策略组合(长文 + 表格 + API)
- 角色与触发:需要将政策文本、费用表格与实时 API 数据融合以支持复杂问答。
- 主要流程:
- 通过多源任务流配置,分别接入政策 PDF、费用 Excel 与外部费用 API,设置同步频率。
- 对政策文本应用分层摘要策略,生成“法规条款 → 操作要点 → FAQ”三级知识结构。
- 将 Excel 转化的实体与 API 返回的实时额度建立映射关系,在图谱中形成“条款 → 费用项 → 实时额度”的链路。
- 在知识空间中创建检索策略组合:混合检索(BM25 + 向量)、上下文重排序(cross-encoder)、图谱约束过滤。
- 成功标准:三类数据均在 1 小时内完成首轮同步;多策略检索召回准确率提升≥ 15%;图谱路径查询可返回完整链路。
- 异常与风控:API 失败触发重试与告警;若数据冲突则生成人工审核队列;策略权重冲突时保留历史版本以回滚。
- 指标建议:多源同步成功率、策略组合带来的回答准确度提升、图谱查询平均耗时。
子场景 E:RAG 反馈闭环与知识图谱协同
- 角色与触发:Agent 在对话中出现回答不完整或引用错误的反馈。
- 主要流程:
- 采集用户反馈、对话日志与检索轨迹,定位被引用的 chunk 与图谱节点。
- 自动计算质量评分(引用准确率、覆盖度、冗余度),低分片段进入再加工队列。
- 触发重新切分或摘要策略(如针对过长 chunk 使用“摘要 + 原文分段”组合)并更新索引。
- 若知识图谱缺失关键关系,触发实体合并或新节点创建任务;完成后重新训练检索重排序模型。
- 成功标准:反馈处理 SLA ≤ 24 小时;修复后相同问题准确率提升≥ 30%;图谱更新自动同步至检索层。
- 异常与风控:模型更新失败时回滚至上个稳定版本;人工审核延迟超过 SLA 时触发升级;全程记录血缘。
- 指标建议:反馈闭环率、修复后准确率、索引与图谱同步延迟。
功能边界 & 非目标场景
- 不覆盖业务流程自动编排,相关能力由“智能体任务执行”主用例实现。
- 不涉及对外部客户开放的知识售卖或计费策略,归属于 Marketplace 场景。
- 不处理音视频转写等重度多模态预处理细节,假设外部服务已经产出可供索引的文本和标签。
- 不直接负责 LLM 模型微调,仅提供高质量知识底座供 RAG 调用。
依赖与接口
- 文档解析服务:PDF/PPT/Word/OCR 解析,输出结构化文本与层级目录。
- 表格语义解析服务:识别主键、字段类型、枚举值并支持脱敏。
- 嵌入生成服务:提供多语种向量化模型,支持批量/流式调用。
- 关键词与倒排索引服务:基于 Elasticsearch/OpenSearch 建立关键词检索能力。
- 知识图谱服务:提供实体识别、关系抽取、图数据库写入与查询 API。
- 安全合规服务:进行敏感信息识别、访问控制、审计日志。
- 任务调度 / ETL 平台:触发批处理、增量同步、重试机制。
- 反馈管理服务:收集用户评价、分析检索轨迹并触发再加工任务。
验收要点
- 知识空间创建时必须配置租户范围、权限模型与检索策略,默认生成审计记录。
- 支持至少五类文档类型(PDF、Word、Markdown、Excel/CSV、API 数据),能够完成结构解析、切分、索引与图谱入库。
- 长文档需支持层级切分、摘要与多粒度 chunk 策略,并保证引用可追溯至原文页码或段落。
- 表格数据需完成实体/属性映射与脱敏,图谱实体关系可视化展示。
- RAG 检索必须提供混合策略(向量 + 关键词 + 图谱约束)并可调权重。
- 反馈闭环流程可在 SLA 内完成问题定位、再加工与索引更新,提供质量评分报告。
- 全流程支持血缘追踪,能从回答回溯到原始知识源与清洗策略版本。
场景级测试用例示例
测试准备:在沙箱环境创建租户
demo-corp与知识空间finance-compliance;预置 PDF 文档《财务合规白皮书.pdf》(300 页)、Excelexpense-2024.xlsx、API 模拟服务/api/realtime/expense-limit、Markdown 操作手册erp-config.md;开启 OCR、嵌入、图谱、倒排索引与脱敏服务;准备包含敏感字段的 Excelexpense-sensitive.xlsx与故障 APIapi-fail作为逆向用例。
用例 A-1:知识空间创建成功(正向)
- 前置条件:管理员具备租户管理权限;所有基础服务在线。
- 操作步骤:
- 在控制台新建知识空间并配置租户、部门访问范围。
- 选择默认 RAG 策略(向量模型
text-embedding-v3+ BM25 + 图谱约束)。 - 启用审计日志与每日索引刷新。
- 预期结果:知识空间状态为“就绪”;策略配置写入成功;审计记录包含创建详情。
用例 B-1:长篇 PDF 切分入库成功(正向)
- 前置条件:OCR、嵌入与图谱服务正常。
- 操作步骤:
- 上传《财务合规白皮书.pdf》,选择“章节 + 段落”切分策略。
- 完成处理后查看 chunk 列表与图谱实体。
- 预期结果:生成约 1200 个 chunk,均包含章节路径与页码;向量索引可检索;图谱显示法规条款与关联主题节点。
用例 B-2:PDF OCR 失败触发人工校验(逆向)
- 前置条件:上传含扫描页的 PDF
scan-fail.pdf,OCR 服务故意关闭。 - 操作步骤:
- 上传文档并触发解析。
- 预期结果:流程中止并生成人工校验任务;文档状态标记为“待处理”;审计日志记录失败原因。
用例 C-1:Excel 实体映射成功(正向)
- 前置条件:表格语义解析与脱敏服务在线。
- 操作步骤:
- 上传
expense-2024.xlsx并选择“供应商-合同”模板。 - 校验实体映射并发布。
- 上传
- 预期结果:生成“供应商”“合同”“费用项”实体与关系;金额字段脱敏显示区间;向量与关键词检索均可返回记录摘要。
用例 C-2:敏感字段未脱敏阻断入库(逆向)
- 前置条件:上传
expense-sensitive.xlsx;脱敏策略开启。 - 操作步骤:
- 尝试发布表格。
- 预期结果:系统检测到身份证号未脱敏,发布被阻断;提示需要配置脱敏规则;审计日志记录风险项。
用例 D-1:多源融合与策略组合(正向)
- 前置条件:API
/api/realtime/expense-limit返回实时额度。 - 操作步骤:
- 同时接入 PDF、Excel、API;配置策略权重(向量 0.5 / 关键词 0.3 / 图谱约束 0.2)。
- 执行示例查询“某供应商费用是否超限”。
- 预期结果:检索结果展示法规条款摘要 + 供应商费用记录 + 实时额度;回答引用路径完整;权重调整生效。
用例 D-2:API 同步失败触发重试(逆向)
- 前置条件:API
api-fail返回 500。 - 操作步骤:
- 添加失败 API 作为数据源并触发同步。
- 预期结果:系统记录失败并自动重试三次;仍失败则告警并将数据源标记为“异常”。
用例 E-1:反馈驱动再加工(正向)
- 前置条件:已有检索日志和用户反馈“回答缺少最新额度”。
- 操作步骤:
- 在反馈中心确认该问题并生成再加工任务。
- 系统重新切分相关 chunk,并更新图谱关系。
- 预期结果:索引更新后,相同问题回答引用最新额度;质量评分从 0.6 提升到 0.9;反馈状态标记为“已解决”。
用例 E-2:重排序模型更新失败回滚(逆向)
- 前置条件:提交新的重排序模型,但模型服务返回错误。
- 操作步骤:
- 触发模型更新。
- 预期结果:系统检测失败并回滚至旧模型;检索策略保持可用;告警通知管理员处理。
