主用例说明:智能问答与推理
背景概述
在 PowerX 平台上,大量知识空间(Knowledge Space)已经构建完成,用于支撑企业对话智能体的检索增强生成(RAG)与知识图谱推理能力。然而,真正落地智能问答与推理服务时,仍然面临跨知识空间调度、任务上下文管理、多工具协同、合规审计等挑战。本主用例聚焦“智能问答与推理”核心流程,描述如何在知识空间与智能体编排能力的协作下,实现多轮对话理解、复杂推理链构建以及答案可追溯治理,确保企业用户获得可信、精准且合规的智能问答体验。
目标与价值
- 精准回答:通过多策略检索、知识图谱推理、结构化数据调用,实现问题理解到答案生成的高准确率。
- 上下文记忆:在多轮对话中保持用户意图与已提供信息的连续性,避免重复提问或答非所问。
- 可追溯治理:将回答与知识空间中的 chunk、图谱节点建立血缘关联,并提供引用证据。
- 安全合规:结合权限校验、敏感信息过滤与审计日志,满足企业级访问与监控要求。
- 持续优化:通过反馈闭环与质量评分,驱动答案策略、知识空间内容的持续演进。
参与角色
- 终端用户 / 客户代表:发起问题与对话,期待高质量答案。
- 智能体编排服务:负责意图识别、对话状态管理、技能(Skill)选择与执行。
- 知识问答服务(QA Orchestrator):协调检索、重排序、推理与答案生成链路。
- 知识空间服务:提供多知识空间检索、chunk 回溯与知识图谱查询。
- 工具 / 插件服务:如 SQL 查询、CRM API、计算引擎,为推理过程提供外部数据。
- 安全合规 / 审计服务:检测越权访问、敏感信息泄露,并记录操作日志。
- 反馈分析服务:收集用户评分、异常标注,驱动策略优化。
主场景 User Story
作为 客服团队的智能助理使用者,我希望 智能体能够结合企业知识空间与实时数据,对用户多轮问题进行深度理解与推理,从而 在确保合规的前提下快速给出引用完整、可追溯的答案。
子场景详解
子场景 A:问题理解与跨知识空间检索编排
- 角色与触发:终端用户提出含业务上下文的问题,例如“本季度金融合规报告的关键条款有哪些变化?”
- 主要流程:
- 智能体编排服务解析用户意图、识别领域标签,并抽取上下文关键词。
- QA Orchestrator 根据标签选择对应知识空间(如“财务合规”、“政策更新”),调用向量检索 + 关键词检索 + 图谱遍历。
- 对检索结果执行重排序、片段合并,并输出引用候选。
- 成功标准:检索响应 ≤ 2 秒;候选引用覆盖率 ≥ 95%;多知识空间召回命中率 ≥ 90%。
- 异常与风控:若某知识空间不可用,需切换备份或提示降级;检索为空时触发澄清提问。
- 指标建议:检索响应时间、跨空间召回准确率、澄清率。
子场景 B:多轮对话上下文管理与记忆
- 角色与触发:用户在初次回答后继续追问“具体列出需要重点关注的条款编号”。
- 主要流程:
- 智能体编排服务维护对话状态,将前一轮问题、答案引用、用户反馈保存至对话记忆。
- QA Orchestrator 结合历史上下文重新生成检索 Query,并对结果执行差异对比,避免重复。
- 将新增答案与先前引用进行合并输出,标记差异说明。
- 成功标准:上下文引用准确率 ≥ 95%;差异说明清晰;无重复回答。
- 异常与风控:若上下文过长导致模型截断,需触发摘要策略或请求用户确认核心意图。
- 指标建议:多轮一致性评分、重复回答率、摘要触发率。
子场景 C:复杂推理链与工具协同
- 角色与触发:用户提出需要推算的数据问题,例如“根据最新政策,某供应商是否存在预算超标风险?”
- 主要流程:
- QA Orchestrator 调用知识空间检索政策条款与费用记录摘要。
- 智能体编排服务根据策略选择 SQL/BI 工具插件,从财务数据库获取实时支出数据。
- 调用规则引擎或小模型执行合规校验逻辑,生成推理链条与结论。
- 结合知识片段、实时数据与推理步骤生成答案,提供引用路径。
- 成功标准:推理链步骤完整记录;实时数据调用成功率 ≥ 99%;答案引用覆盖政策条款与数据源。
- 异常与风控:工具调用失败时提供降级方案(如使用缓存数据);若推理冲突则触发人工审核。
- 指标建议:工具调用成功率、推理链完整度、人工审核率。
子场景 D:回答质量评估与反馈闭环
- 角色与触发:终端用户对答案质量进行评分或提交“答案不准确”的反馈。
- 主要流程:
- 反馈分析服务采集用户评分、对话日志与引用链路。
- QA Orchestrator 回溯引用 chunk 与工具调用记录,与知识空间构建用例对接,定位问题源(如 chunk 过时、图谱缺漏)。
- 触发再检索、切分策略调整或知识空间更新任务;完成后重新训练重排序模型或提示人工复核。
- 成功标准:反馈处理 SLA ≤ 24 小时;问题定位准确率 ≥ 90%;修复后同类问题准确率提升 ≥ 30%。
- 异常与风控:若反馈量激增,需自动提升告警级别并调度更多人工审核。
- 指标建议:反馈闭环率、修复后准确率提升、平均处理时长。
子场景 E:安全合规与审计追踪
- 角色与触发:在回答中涉及敏感数据或跨租户知识访问。
- 主要流程:
- QA Orchestrator 在检索阶段调用权限校验,确保用户具备访问对应知识空间的权利。
- 回答生成前执行敏感信息检测与遮蔽策略,必要时触发人工审批。
- 全链路记录审计日志,包括检索请求、引用 chunk、工具调用、最终回答与用户反馈。
- 成功标准:越权访问率为 0;审计日志完整无缺失;敏感信息处理命中率 ≥ 99%。
- 异常与风控:检测到越权或敏感泄露时立即中断回答并通知安全团队;支持追踪与回溯。
- 指标建议:越权拦截次数、审计日志完整度、安全告警响应时间。
功能边界 & 非目标场景
- 不承担知识源的解析、切分工作,相关能力由“知识空间构建”主用例提供。
- 不涵盖模型微调或自定义 LLM 训练,仅依赖既有推理模型与策略。
- 不处理纯闲聊或无业务上下文的开放域对话,该能力由通用对话场景负责。
- 不直接提供 UI 渲染,仅定义 API/服务层能力,前端体验在其他用例中描述。
依赖与接口
- 知识空间服务:向量检索、关键词检索、图谱查询、引用回溯接口。
- 对话状态管理服务:多轮上下文存储、记忆写入与召回 API。
- 工具 / 插件服务:SQL、REST API、计算引擎等外部调用接口。
- 安全合规服务:权限校验、敏感检测、审计记录写入接口。
- 反馈分析服务:反馈收集、质量评分、策略回放接口。
- 模型推理服务:LLM 推理、重排序模型、规则引擎或小模型执行接口。
- 任务编排服务:触发再训练、知识空间更新或人工审核流程。
验收要点
- 支持基于意图标签在多个知识空间间动态选择检索策略,并返回引用片段。
- 多轮对话能够保留上下文并避免重复,提供引用差异说明。
- 推理链路包含知识片段、工具调用、规则判断等步骤,并可向审计层回放。
- 回答必须附带引用信息(chunk ID、知识空间、页码/实体),支持一键追溯。
- 安全合规策略可对越权与敏感数据进行即时拦截,审计日志完整可查。
- 反馈闭环可在 SLA 内完成定位与修复,修复后自动回测回答质量。
场景级测试用例示例
测试准备:在沙箱租户
demo-corp下,预置知识空间finance-compliance、policy-updates,并参考“知识空间构建”用例导入示例 PDF、Excel、API 数据;配置 QA Orchestrator 与智能体编排服务;开启 SQL 工具插件访问fin_reporting数据库;准备越权用户user-guest与敏感回答场景;部署反馈分析服务并接入质量评分面板。
用例 A-1:跨知识空间检索回答(正向)
- 前置条件:用户
agent-analyst拥有两个知识空间访问权限。 - 操作步骤:
- 发起问题“列出本季度金融合规报告的关键条款变化”。
- 观察检索调用与答案生成日志。
- 预期结果:回答包含条款编号、变化摘要,并引用
finance-compliance与policy-updates的 chunk;响应时间 ≤ 2 秒。
用例 A-2:知识空间不可用降级(逆向)
- 前置条件:临时禁用
policy-updates知识空间。 - 操作步骤:
- 重复执行用例 A-1 的提问。
- 预期结果:系统提示某知识空间不可用并提供已有信息的降级回答;审计日志记录降级原因。
用例 B-1:多轮上下文记忆(正向)
- 前置条件:完成用例 A-1。
- 操作步骤:
- 紧接着追问“请提供需要重点关注的条款编号列表”。
- 预期结果:回答引用上一轮条款并补充编号列表;无重复解释;上下文引用正确。
用例 B-2:上下文超长触发摘要(逆向)
- 前置条件:模拟包含 20 轮长对话。
- 操作步骤:
- 继续提问细化问题,观察系统策略。
- 预期结果:系统触发上下文摘要策略并提示已压缩对话历史;回答仍引用正确。
用例 C-1:工具协同推理(正向)
- 前置条件:SQL 工具连接可用。
- 操作步骤:
- 提问“供应商 A 是否存在预算超标风险?”。
- 预期结果:系统调用知识检索 + SQL 查询 + 规则引擎,输出推理链说明与引用,结论正确。
用例 C-2:工具调用失败回退(逆向)
- 前置条件:故障注入使 SQL 工具返回 500。
- 操作步骤:
- 重复用例 C-1 的提问。
- 预期结果:系统回退至缓存数据或提示暂时无法获取实时数据,并记录失败日志。
用例 D-1:反馈闭环修复(正向)
- 前置条件:已有答案被用户标记为“引用过时”。
- 操作步骤:
- 在反馈面板提交修复任务。
- 观察 QA Orchestrator 触发知识空间更新与重排序训练。
- 预期结果:修复在 24 小时内完成;更新后的回答引用最新 chunk;质量评分提升。
用例 D-2:反馈量激增触发告警(逆向)
- 前置条件:模拟短时间内 50 次负反馈。
- 操作步骤:
- 批量提交异常反馈。
- 预期结果:系统触发高优先级告警并自动升级至人工审核队列。
用例 E-1:敏感信息遮蔽(正向)
- 前置条件:知识空间中存在敏感字段;安全策略启用。
- 操作步骤:
- 提问“请展示供应商 A 的合同金额”。
- 预期结果:回答对敏感金额进行模糊化展示或提示需额外授权;审计日志记录敏感处理。
用例 E-2:越权访问拦截(逆向)
- 前置条件:用户
user-guest仅有finance-compliance访问权限。 - 操作步骤:
- 提问涉及
policy-updates知识空间的问题。
- 提问涉及
- 预期结果:系统拒绝回答并提示权限不足;记录越权告警与审计日志。
