Skip to content

主用例说明:ReAct 智能体编排

背景概述

随着企业知识空间与插件生态逐步完善,智能体需要在一次对话内完成“推理—行动—观察—再推理”的 ReAct 循环,以便在复杂问题中实时结合知识库、业务插件与外部工具。若缺乏统一的 ReAct 编排规范,常见风险包括:思考链丢失导致回答不可追溯、工具调用未收敛造成无限循环、敏感操作缺乏人工把关等。本主用例聚焦 ReAct 模式下的多轮编排治理,确保每一次思考与行动都可度量、可回滚,并且与“知识空间构建”“智能问答与推理”等主用例形成联动。

目标与价值

  • 高质量推理:通过结构化的思考链管理,提升复杂问题的推理准确率与解释性。
  • 敏捷行动:在 ReAct 循环中自动选择与调用合适的插件/工具,缩短问题解决时间。
  • 风险可控:为 ReAct 的每一步设置超时、次数与权限约束,避免失控或越权操作。
  • 可观测与合规:完整记录“思考-行动-观察”链路,支撑审计、回放与质量评估。

参与角色

  • 主 Agent(Reasoner):负责生成思考链、规划下一步行动、维护任务上下文。
  • 行动 Agent / 工具执行器(Actor):按照主 Agent 的计划调用插件、知识检索或外部 API。
  • 知识空间服务:提供向量检索、关键词检索与知识图谱遍历等多策略检索能力。
  • 风险控制服务:监控 ReAct 循环次数、时长与敏感操作并触发告警或阻断。
  • 人工协同者 / 审计员:在高风险或超时场景下进行人工审批、回放与纠偏。

主场景 User Story

作为 智能体平台的产品负责人,我希望 在复杂问答或决策任务中,主 Agent 能够按照 ReAct 策略迭代推进思考链、调用插件并采纳反馈,从而 为业务用户提供可解释、可控制且高成功率的智能答复与自动化处理。

子场景详解

子场景 A:思考链生成与知识检索启动

  • 角色与触发:用户在聊天界面提出涉及多来源知识的复杂问题。
  • 主要流程
    1. 主 Agent 解析意图,生成初始“Thought #1”,标注推理假设与缺失信息。
    2. 根据任务类别选择知识检索策略(向量/关键词/图谱混合检索)。
    3. 向知识空间发起检索,返回候选片段并评分。
    4. 将思考链与检索结果写入审计日志,供后续步骤引用。
  • 成功标准:思考链第一步命中相关知识片段相似度 ≥0.8;检索完成耗时 <2s。
  • 异常与风控:若检索结果置信度过低,提示用户补充信息或切换策略;防止敏感字段在日志中泄露。
  • 指标建议:思考链命中率、检索策略成功率、用户补充信息比例。

子场景 B:行动计划与插件调用

  • 角色与触发:主 Agent 依据最新思考链需要验证假设或执行任务。
  • 主要流程
    1. 主 Agent 生成“Action #n”,选择目标插件/工具并准备调用参数。
    2. 行动 Agent 执行调用,携带租户上下文、用户权限与追踪 ID。
    3. 行动结果与关键指标写回“Observation #n”。
    4. 若涉及高风险操作(如写数据库、触发自动化),需先通过风控策略或人工审批。
  • 成功标准:行动执行成功率 ≥95%;每次调用都能绑定到对应思考链节点。
  • 异常与风控:失败时自动降级到替代插件或请求人工确认;限制连续失败次数,防止资源浪费。
  • 指标建议:行动成功率、人工审批占比、失败重试次数。

子场景 C:观察反馈与记忆更新

  • 角色与触发:行动 Agent 返回 Observation,主 Agent 需要判断下一步策略。
  • 主要流程
    1. Observation 与思考链进行归档,判断假设是否成立。
    2. 若仍存在信息缺口,生成新的 Thought 并继续循环;否则生成最终回答或交付物。
    3. 将高价值 Observation 写入短期记忆或长期知识更新流程。
    4. 输出阶段性总结供用户确认,支持追问或终止。
  • 成功标准:Observation 解析准确率 ≥98%;用户满意度评分 ≥4/5。
  • 异常与风控:检测循环次数超阈值(如 >8 步)时触发中断或人工接管;防止将未经验证的信息写入知识库。
  • 指标建议:ReAct 步数分布、循环超时率、记忆写入成功率。

子场景 D:闭环交付与审计回放

  • 角色与触发:任务完成或被终止,需要生成完整回放与评估报告。
  • 主要流程
    1. 汇总最终回答、关键思考链、行动日志与使用的知识片段。
    2. 生成可回放的 ReAct 轨迹,供审计员或产品团队复盘。
    3. 根据反馈结果(用户评价、人工审核)更新策略权重或安全阈值。
    4. 将执行指标写入监控平台,形成持续改进闭环。
  • 成功标准:回放生成成功率 100%;关键节点具备时间戳、操作者与上下文。
  • 异常与风控:回放缺失或数据不完整时需阻止上线;若发现违规调用,触发合规调查流程。
  • 指标建议:回放生成耗时、审计通过率、策略更新频次。

功能边界 & 非目标场景

  • 不涵盖智能体基础注册、授权或健康监控,这些由“智能体注册与管理”主用例负责。
  • 不讨论知识空间构建流程本身,相关内容详见“知识空间构建”主用例。
  • 模型微调、Prompt 工程等底层模型运维不在范围内。
  • 外部系统审批流的具体实现不属于本主用例,只要求提供对接能力。

依赖与接口

  • 知识空间服务 API:支持多策略检索、文档片段打分与元数据返回。
  • 插件 Registry / 工具目录:提供可调用插件列表、权限声明与版本兼容信息。
  • ReAct 编排引擎:管理思考链状态机、调用上下文、循环控制与日志记录。
  • 风险控制与审计平台:提供超时/频次限制、人工审批接口与轨迹回放能力。
  • 反馈收集服务:接收用户评分、运营标注并回写策略权重。

验收要点

  1. 系统能够针对复杂问题生成可解释的 ReAct 思考链,并自动选择合适的知识检索策略。
  2. 每个行动步骤都能正确调用插件/工具并记录 Observation,失败时具备降级与人工协同机制。
  3. ReAct 循环的超时、次数和敏感操作均受到策略与权限控制,异常会触发告警或中断。
  4. 任务结束后可生成完整回放,包含思考链、工具调用、知识来源与用户交互记录。
  5. 与“知识空间构建”“智能问答与推理”场景联动,能够基于最新知识库提供可靠答案。

场景级测试用例示例

测试准备:在沙箱租户 tenant-react-lab 中启用主 Agent react-orchestrator,配置知识空间 knowledge-hub@2024Q4(包含长文档、表格、图谱数据),挂载插件 report-gen@1.5.0crm-query@3.2.1,并接入风险控制策略(循环次数 ≤6,敏感操作需审批)。

用例 A-1:多策略检索命中(正向)

  • 前置条件:知识空间索引最新,LLM 网关可用。
  • 操作步骤
    1. 用户提问:“根据近两季的销售数据,给出导致营收下降的主要原因并建议行动方案?”
  • 预期结果
    • 主 Agent 生成 Thought #1,调用向量+关键词混合检索,返回报表与会议纪要片段。
    • 思考链日志记录检索策略、片段 ID 与相似度评分。

用例 A-2:检索置信度过低(逆向)

  • 前置条件:故意清空知识空间特定主题数据。
  • 操作步骤
    1. 提出同样问题。
  • 预期结果
    • 主 Agent 判断置信度低于 0.6,提示用户补充数据或切换到人工分析流程。
    • 风控平台记录一次 ReAct 检索失败事件。

用例 B-1:行动执行成功(正向)

  • 前置条件crm-query 插件可用。
  • 操作步骤
    1. 思考链生成 Action #2:调用 crm-query 获取重点客户流失原因。
  • 预期结果
    • 插件返回数据后形成 Observation #2,Thought #3 更新假设并准备最终回答。
    • 工具调用日志绑定追踪 ID,审计平台可回放。

用例 B-2:高风险操作需审批(逆向)

  • 前置条件:将 report-gen 标记为敏感操作。
  • 操作步骤
    1. ReAct 链路尝试生成行动方案并推送通知。
  • 预期结果
    • 风控策略阻断直接执行,生成审批任务并等待人工确认。
    • 未经审批,ReAct 不会继续后续行动,记录状态为“待审批”。

用例 C-1:观察反馈驱动循环(正向)

  • 前置条件:所有插件正常。
  • 操作步骤
    1. 用户追问“请再核实最近两周的售后投诉数据是否异常?”
  • 预期结果
    • ReAct 增加新的 Thought/Action/Observation 循环,总步数 ≤6。
    • 最终回答包含引用来源与置信度说明。

用例 C-2:循环超阈中断(逆向)

  • 前置条件:将插件故障率调高导致多次失败。
  • 操作步骤
    1. 发起同样追问。
  • 预期结果
    • 循环次数达到阈值后自动中断,并向用户返回“请切换人工处理”的提示。
    • 监控平台触发高优先级告警。

用例 D-1:回放生成与审核(正向)

  • 前置条件:完成一轮成功的 ReAct 对话。
  • 操作步骤
    1. 在审计界面请求回放报告。
  • 预期结果
    • 系统生成包含全部 Thought/Action/Observation 的时间线,附带知识片段链接。
    • 审核人员可标注“正确”并写入反馈。

用例 D-2:回放缺失触发调查(逆向)

  • 前置条件:模拟日志服务异常导致 Observation 丢失。
  • 操作步骤
    1. 请求同一场景的回放。
  • 预期结果
    • 系统提示回放不完整,自动生成合规调查工单,并阻止该策略在生产环境使用。

基于 Apache 2.0 许可发布