主用例说明：知识空间构建

背景概述

随着 PowerX 平台在企业内部的知识应用不断扩展，单纯的文档上传已无法满足对高质量知识检索与推理的要求。不同业务线沉淀了 PPT、Word、PDF、Markdown、Excel、CSV、数据库导出、API 数据流乃至视频语音等多模态资料，且质量参差不齐。为了支撑 RAG（Retrieval-Augmented Generation）与知识图谱的智能问答、工作流自动化，本主用例聚焦“知识空间构建”，梳理从多源知识采集、清洗、切分、索引、权限治理到反馈迭代的全链路能力，确保企业能够建立高可信度、可持续演进的知识空间。

目标与价值

标准化构建流程：提供端到端的知识入库规范，覆盖采集、清洗、语义建模与索引，降低落地难度。
多模态兼容：支持长篇论文、手册、图表数据、流程文档等多类型资料，确保 RAG 能力对齐真实业务。
智能检索增强：结合向量索引、关键词检索、知识图谱等策略，提升问答准确率与可解释性。
安全合规：实现租户隔离、部门分级授权、敏感字段脱敏，满足企业内部合规要求。
持续演进：通过数据血缘、质量评分与反馈闭环持续优化知识库结构与内容。

参与角色

知识工程师 / 文档管理员：负责知识源准备、清洗策略制定与入库执行。
业务专家 / 文档作者：提供原始资料、确认语义切分与标签准确性。
平台管理员：配置知识空间、权限策略与存储配额，监控构建进度。
RAG 服务：负责向量化、检索、召回策略与 LLM 回答生成。
知识图谱服务：解析实体关系、构建图谱并与检索层联动。
安全审计服务：执行敏感信息识别、脱敏与访问审计。
任务调度 / ETL 服务：负责批处理与增量同步任务的调度与运行。

主场景 User Story

作为企业的知识工程师，我希望 能够将多种格式的海量企业资料自动化清洗、切分并建立统一的语义索引与知识图谱，从而让智能体在执行 RAG 推理时获取准确、可追溯且合规的知识支撑。

子场景详解

子场景 A：构建知识空间与基础治理策略

角色与触发：平台管理员接到建设新部门知识空间的需求。
主要流程：
1. 管理员在控制台创建“财务合规知识空间”，设定租户与部门可见范围。
2. 定义存储配额、版本保留策略、索引刷新周期与审计日志策略。
3. 配置默认的 RAG 管线（向量模型、关键词倒排、混合召回权重）与知识图谱同步开关。
4. 指定知识工程师与业务专家的角色权限，并同步至 IAM。
成功标准：知识空间元数据在 2 分钟内创建；默认管线与权限策略成功写入；审计日志记录初始化事件。
异常与风控：若租户存储配额不足或审批未完成，流程被阻断并通知管理员；若配置冲突则给出修复建议。
指标建议：知识空间创建成功率、默认策略覆盖率、初始化耗时。

子场景 B：长篇论文 / 手册的分层语义切分与入库

角色与触发：知识工程师需要将 300 页的 PDF 研究报告纳入知识库。
主要流程：
1. 上传 PDF，触发 OCR（如需）与章节目录解析，生成文档结构树。
2. 应用层级切分策略：章节→小节→段落；对段落执行滑动窗口与语义聚类，生成多粒度 chunk（如 800 token 章节摘要 + 300 token 段落切片）。
3. 对每个 chunk 同步生成：向量嵌入、关键词、关键信息三元组（实体-关系-实体），并落盘。
4. 将文档结构、引用页码、术语表写入知识图谱，建立章节间的依赖关系。
成功标准：chunk 覆盖率 ≥ 95%；嵌入计算成功率 100%；图谱实体准确率≥ 90%；处理时长符合 SLA。
异常与风控：遇到 OCR 失败、公式表格无法识别时发起人工校验任务；记录未完成的节点并阻断发布。
指标建议：平均 chunk 长度、向量召回 Top-K 命中率、图谱实体数量与质量评分。

子场景 C：结构化表格（Excel/CSV）的主题建模与实体映射

角色与触发：业务专家提供多张 Excel 表格，需要将数据转化为可检索的知识节点。
主要流程：
1. 上传 Excel，解析多工作表与行列类型，自动识别主键、时间字段与枚举值。
2. 通过字段语义映射与正则模板，生成实体（如“供应商”“合同”“费用项”）与属性列表。
3. 以“记录摘要 + 字段组合”方式生成 chunk，并对关键字段构建向量与关键词索引。
4. 对敏感字段（如金额、身份证号）执行脱敏策略，输出知识图谱节点间的关系（供应商-合同-金额）。
成功标准：字段识别准确率≥ 95%；脱敏覆盖率 100%；实体关系图生成成功；向量索引与关键词索引均可查询。
异常与风控：检测到敏感字段未脱敏、数据格式异常时阻断入库；需业务专家确认语义映射冲突。
指标建议：字段自动匹配率、脱敏合规率、结构化检索响应时间。

子场景 D：多源知识融合与策略组合（长文 + 表格 + API）

角色与触发：需要将政策文本、费用表格与实时 API 数据融合以支持复杂问答。
主要流程：
1. 通过多源任务流配置，分别接入政策 PDF、费用 Excel 与外部费用 API，设置同步频率。
2. 对政策文本应用分层摘要策略，生成“法规条款 → 操作要点 → FAQ”三级知识结构。
3. 将 Excel 转化的实体与 API 返回的实时额度建立映射关系，在图谱中形成“条款 → 费用项 → 实时额度”的链路。
4. 在知识空间中创建检索策略组合：混合检索（BM25 + 向量）、上下文重排序（cross-encoder）、图谱约束过滤。
成功标准：三类数据均在 1 小时内完成首轮同步；多策略检索召回准确率提升≥ 15%；图谱路径查询可返回完整链路。
异常与风控：API 失败触发重试与告警；若数据冲突则生成人工审核队列；策略权重冲突时保留历史版本以回滚。
指标建议：多源同步成功率、策略组合带来的回答准确度提升、图谱查询平均耗时。

子场景 E：RAG 反馈闭环与知识图谱协同

角色与触发：Agent 在对话中出现回答不完整或引用错误的反馈。
主要流程：
1. 采集用户反馈、对话日志与检索轨迹，定位被引用的 chunk 与图谱节点。
2. 自动计算质量评分（引用准确率、覆盖度、冗余度），低分片段进入再加工队列。
3. 触发重新切分或摘要策略（如针对过长 chunk 使用“摘要 + 原文分段”组合）并更新索引。
4. 若知识图谱缺失关键关系，触发实体合并或新节点创建任务；完成后重新训练检索重排序模型。
成功标准：反馈处理 SLA ≤ 24 小时；修复后相同问题准确率提升≥ 30%；图谱更新自动同步至检索层。
异常与风控：模型更新失败时回滚至上个稳定版本；人工审核延迟超过 SLA 时触发升级；全程记录血缘。
指标建议：反馈闭环率、修复后准确率、索引与图谱同步延迟。

功能边界 & 非目标场景

不覆盖业务流程自动编排，相关能力由“智能体任务执行”主用例实现。
不涉及对外部客户开放的知识售卖或计费策略，归属于 Marketplace 场景。
不处理音视频转写等重度多模态预处理细节，假设外部服务已经产出可供索引的文本和标签。
不直接负责 LLM 模型微调，仅提供高质量知识底座供 RAG 调用。

依赖与接口

文档解析服务：PDF/PPT/Word/OCR 解析，输出结构化文本与层级目录。
表格语义解析服务：识别主键、字段类型、枚举值并支持脱敏。
嵌入生成服务：提供多语种向量化模型，支持批量/流式调用。
关键词与倒排索引服务：基于 Elasticsearch/OpenSearch 建立关键词检索能力。
知识图谱服务：提供实体识别、关系抽取、图数据库写入与查询 API。
安全合规服务：进行敏感信息识别、访问控制、审计日志。
任务调度 / ETL 平台：触发批处理、增量同步、重试机制。
反馈管理服务：收集用户评价、分析检索轨迹并触发再加工任务。

验收要点

知识空间创建时必须配置租户范围、权限模型与检索策略，默认生成审计记录。
支持至少五类文档类型（PDF、Word、Markdown、Excel/CSV、API 数据），能够完成结构解析、切分、索引与图谱入库。
长文档需支持层级切分、摘要与多粒度 chunk 策略，并保证引用可追溯至原文页码或段落。
表格数据需完成实体/属性映射与脱敏，图谱实体关系可视化展示。
RAG 检索必须提供混合策略（向量 + 关键词 + 图谱约束）并可调权重。
反馈闭环流程可在 SLA 内完成问题定位、再加工与索引更新，提供质量评分报告。
全流程支持血缘追踪，能从回答回溯到原始知识源与清洗策略版本。

场景级测试用例示例

测试准备：在沙箱环境创建租户 demo-corp 与知识空间 finance-compliance；预置 PDF 文档《财务合规白皮书.pdf》（300 页）、Excel expense-2024.xlsx、API 模拟服务 /api/realtime/expense-limit、Markdown 操作手册 erp-config.md；开启 OCR、嵌入、图谱、倒排索引与脱敏服务；准备包含敏感字段的 Excel expense-sensitive.xlsx 与故障 API api-fail 作为逆向用例。

用例 A-1：知识空间创建成功（正向）

前置条件：管理员具备租户管理权限；所有基础服务在线。
操作步骤：
1. 在控制台新建知识空间并配置租户、部门访问范围。
2. 选择默认 RAG 策略（向量模型 text-embedding-v3 + BM25 + 图谱约束）。
3. 启用审计日志与每日索引刷新。
预期结果：知识空间状态为“就绪”；策略配置写入成功；审计记录包含创建详情。

用例 B-1：长篇 PDF 切分入库成功（正向）

前置条件：OCR、嵌入与图谱服务正常。
操作步骤：
1. 上传《财务合规白皮书.pdf》，选择“章节 + 段落”切分策略。
2. 完成处理后查看 chunk 列表与图谱实体。
预期结果：生成约 1200 个 chunk，均包含章节路径与页码；向量索引可检索；图谱显示法规条款与关联主题节点。

用例 B-2：PDF OCR 失败触发人工校验（逆向）

前置条件：上传含扫描页的 PDF scan-fail.pdf，OCR 服务故意关闭。
操作步骤：
1. 上传文档并触发解析。
预期结果：流程中止并生成人工校验任务；文档状态标记为“待处理”；审计日志记录失败原因。

用例 C-1：Excel 实体映射成功（正向）

前置条件：表格语义解析与脱敏服务在线。
操作步骤：
1. 上传 expense-2024.xlsx 并选择“供应商-合同”模板。
2. 校验实体映射并发布。
预期结果：生成“供应商”“合同”“费用项”实体与关系；金额字段脱敏显示区间；向量与关键词检索均可返回记录摘要。

用例 C-2：敏感字段未脱敏阻断入库（逆向）

前置条件：上传 expense-sensitive.xlsx；脱敏策略开启。
操作步骤：
1. 尝试发布表格。
预期结果：系统检测到身份证号未脱敏，发布被阻断；提示需要配置脱敏规则；审计日志记录风险项。

用例 D-1：多源融合与策略组合（正向）

前置条件：API /api/realtime/expense-limit 返回实时额度。
操作步骤：
1. 同时接入 PDF、Excel、API；配置策略权重（向量 0.5 / 关键词 0.3 / 图谱约束 0.2）。
2. 执行示例查询“某供应商费用是否超限”。
预期结果：检索结果展示法规条款摘要 + 供应商费用记录 + 实时额度；回答引用路径完整；权重调整生效。

用例 D-2：API 同步失败触发重试（逆向）

前置条件：API api-fail 返回 500。
操作步骤：
1. 添加失败 API 作为数据源并触发同步。
预期结果：系统记录失败并自动重试三次；仍失败则告警并将数据源标记为“异常”。

用例 E-1：反馈驱动再加工（正向）

前置条件：已有检索日志和用户反馈“回答缺少最新额度”。
操作步骤：
1. 在反馈中心确认该问题并生成再加工任务。
2. 系统重新切分相关 chunk，并更新图谱关系。
预期结果：索引更新后，相同问题回答引用最新额度；质量评分从 0.6 提升到 0.9；反馈状态标记为“已解决”。

用例 E-2：重排序模型更新失败回滚（逆向）

前置条件：提交新的重排序模型，但模型服务返回错误。
操作步骤：
1. 触发模型更新。
预期结果：系统检测失败并回滚至旧模型；检索策略保持可用；告警通知管理员处理。

主用例说明：知识空间构建 ​

背景概述 ​

目标与价值 ​

参与角色 ​

主场景 User Story ​

子场景详解 ​

子场景 A：构建知识空间与基础治理策略 ​

子场景 B：长篇论文 / 手册的分层语义切分与入库 ​

子场景 C：结构化表格（Excel/CSV）的主题建模与实体映射 ​

子场景 D：多源知识融合与策略组合（长文 + 表格 + API） ​

子场景 E：RAG 反馈闭环与知识图谱协同 ​

功能边界 & 非目标场景 ​

依赖与接口 ​

验收要点 ​

场景级测试用例示例 ​

用例 A-1：知识空间创建成功（正向） ​

用例 B-1：长篇 PDF 切分入库成功（正向） ​

用例 B-2：PDF OCR 失败触发人工校验（逆向） ​

用例 C-1：Excel 实体映射成功（正向） ​

用例 C-2：敏感字段未脱敏阻断入库（逆向） ​

用例 D-1：多源融合与策略组合（正向） ​

用例 D-2：API 同步失败触发重试（逆向） ​

用例 E-1：反馈驱动再加工（正向） ​

用例 E-2：重排序模型更新失败回滚（逆向） ​