Usecase Overview
- 业务目标:每 4 小时巡检一次知识库引用频次、反馈评分、检索失败率与最近更新时间,自动识别衰减或空白区域,生成补齐/恢复任务并在修复后回写指标,确保高价值知识保持新鲜、可追溯。
- 成功度量:衰减识别准确率 ≥ 90%,误判恢复 ≤ 10 分钟;空白补齐任务 7 天内完成率 ≥ 95%;
knowledge.gap.backlog< 20 且自动告警;巡检任务 SLA ≤ 15 分钟。 - 场景关联:对应
SCN-KNOWLEDGE-UPDATE-001Stage 4(Observe & Iterate)与子场景SCN-KNOWLEDGE-UPDATE-DECAY-001,为增量同步、反馈再加工与灰度发布提供健康度基线。
巡检→检测→任务→恢复形成闭环,使知识治理具备可量化的健康度指标并能快速回补高风险空白。
Context & Assumptions
- 前置条件
- Feature Flags
PX_KNOWLEDGE_DECAY_GUARD,PX_KNOWLEDGE_GAP_ALERT,PX_KNOWLEDGE_RESTORE_FLOW已启用。 scripts/qa/workflow-metrics.mjs能访问knowledge-space,feedback-service,retrieval-metrics等 API 以收集指标。decay_thresholds.yaml已按领域配置引用下限、反馈阈值、误判策略;gap_task_template.md定义任务字段。task-center(或等效工作流引擎)具备自动派单与 SLA 追踪能力,并与审批中心互通。- 审计服务
audit-ledger可写入巡检、任务、恢复事件。
- Feature Flags
- 输入/输出
- 输入:引用频次、反馈评分、检索失败率、最后更新时间、Agent 触发次数、业务标签、租户映射。
- 输出:
knowledge.decay.detected事件、reports/_state/knowledge-decay.json报表、POST /knowledge/decay/tasks生成的补齐/恢复任务、POST /knowledge/decay/restore恢复结果。
- 边界
- 不直接执行内容再加工(交由
UC-KNOWLEDGE-UPDATE-FEEDBACK-001)。 - 不负责租户灰度推广(交由
UC-KNOWLEDGE-UPDATE-TENANT-001)。 - 巡检仅覆盖已入库知识,数据采集/初次入库由
SCN-KNOWLEDGE-SPACE-001处理。
- 不直接执行内容再加工(交由
Solution Blueprint
体系分解
| 层 | 主要组件/模块 | 责任 | 代码入口 |
|---|---|---|---|
| Data / Observability | scripts/qa/workflow-metrics.mjs | 从 metrics API、反馈中心、检索日志聚合指标并推送到 reports/_state/knowledge-decay.json | scripts/qa |
| Ops / Analyzer | services/knowledge/decay/analyzer.ts | 根据 decay_thresholds.yaml 计算衰减/空白列表、生成严重度标记、触发事件 | services/knowledge/decay |
| Ops / Task Board | services/knowledge/decay/task_service.ts | POST /knowledge/decay/tasks、创建任务、绑定 SLA、路由业务专家 | services/knowledge/decay |
| Ops / Restore Flow | services/knowledge/decay/restore_controller.ts | POST /knowledge/decay/restore,一键恢复误判或回滚补齐失败,并写入审计 | services/knowledge/decay |
若上述 service 文件尚未创建,可使用相同命名在
powerx-core中落地,保持职责划分清晰。
流程与时序
- Step 1 – Collect Metrics:调度器运行
node scripts/qa/workflow-metrics.mjs --target knowledge-decay,采集引用/反馈/失败率/更新时间,并输出到reports/_state/knowledge-decay.json。 - Step 2 – Detect & Classify:Analyzer 读取报表与阈值,计算
decay_score、gap_score,筛选高/中/低风险,并将结果写入knowledge.decay.detected事件。 - Step 3 – Task Generation:对高/中风险条目调用
POST /knowledge/decay/tasks,使用gap_task_template.md生成补齐或恢复任务,自动指派业务专家并设置 7 天 SLA。 - Step 4 – Restore & Feedback:任务完成后调用
POST /knowledge/decay/restore更新状态,执行回滚或发布;同时刷新指标并记录审计,必要时通知灰度/反馈链路。
Contracts & Interfaces
- Inbound APIs / Jobs
node scripts/qa/workflow-metrics.mjs --target knowledge-decay— 定时任务,参数支持--tenant,--domains,--since.POST /knowledge/decay/tasks— 请求体包含knowledge_id,tenant_id,decay_score,gap_reason,sla_hours,assignee.POST /knowledge/decay/restore— 请求体包含task_id,action(restore/rollback),reason,approver.
- Outbound 调用
POST /task-center/tasks— 创建/更新任务卡片,写入 SLA、执行者、复核人。POST /notifications/send— 通知业务专家、治理团队或触发告警频道。POST /audit/logs— 记录巡检、任务、恢复操作(事件类型knowledge.decay.*)。
- 配置与脚本
configs/knowledge/decay_thresholds.yaml— 按领域设定引用/反馈/更新时间阈值与严重度映射。gap_task_template.md— 任务描述模板、字段说明。restore_playbook.md— 误判恢复与回滚 SOP。
Implementation Checklist
| 项目 | 描述 | 完成状态 | 负责人 |
|---|---|---|---|
| 指标采集脚本 | 扩展 workflow-metrics.mjs 支持知识域指标与租户过滤 | [ ] | Reliability Squad |
| 阈值配置 | 在 decay_thresholds.yaml 中按领域/敏感级别定义阈值、告警级别 | [ ] | Knowledge Ops Squad |
| 任务服务 | 实现 POST /knowledge/decay/tasks + task-center 集成、SLA 驱动 | [ ] | Governance Squad |
| 恢复流程 | 实现 POST /knowledge/decay/restore、审计写入、回滚操作 | [ ] | Reliability Squad |
| Dashboard & 报表 | 更新 Knowledge Decay Monitor、reports/_state/knowledge-decay.json | [ ] | Observability Team |
Testing Strategy
- 单元测试
decay_score与gap_score计算函数,覆盖阈值边界、数据缺失、异常值。- 任务生成器模板替换、SLA 计算、严重度映射。
- 集成测试
- 使用
scripts/workflows/mock-knowledge-decay.mjs(或等效)生成样例数据,模拟任务生成→恢复链路;验证task-centerAPI、通知与审计调用。 - 验证
workflow-metrics.mjs对 multiple tenants 的过滤与并发执行。
- 使用
- 端到端验证
- 在沙箱租户
demo-corp执行巡检→任务→补齐→恢复完整流程,确保 7 天 SLA、10 分钟恢复指标可追踪。 - 演练误判恢复:手动标记关键知识为低质量,确认恢复后可自动回滚指标。
- 在沙箱租户
- 非功能测试
- 巡检任务在 15 分钟内完成、CPU/内存占用监控。
- 任务中心大批量(>500 条)生成时的性能与幂等校验。
Observability & Ops
- 指标
knowledge.decay.detected(按严重度统计)、knowledge.decay.false_positive,knowledge.gap.backlog,knowledge.gap.fill_time,knowledge.decay.sla_violation.
- 日志
decay_analyzer.log记录输入指标摘要、阈值版本、严重度判断。decay_task_service.log记录任务创建/更新/恢复动作及操作人。
- 告警
decay.detected.high > 5(P1)、false_positive_rate > 10%(P2)、gap.backlog > 20(P1)、restore_latency > 10m(P2)。- 告警推送到
#px-knowledge-ops、PagerDuty Knowledge Update值班组。
- Dashboards
- Grafana《Knowledge Decay Monitor》展示检测数量、SLA、误判率。
reports/_state/knowledge-decay.json供周报/审计引用。
Rollback & Failure Handling
- 回滚步骤
- 若新的阈值或检测逻辑导致误报警,回滚
decay_thresholds.yaml至上一个版本并重新运行巡检。 - 使用
POST /knowledge/decay/restore+restore_playbook.md恢复被误下线的知识内容,回写审计。 - 若任务批量创建异常,调用
task-center的批量关闭 API 并重新生成。
- 若新的阈值或检测逻辑导致误报警,回滚
- 补救措施
- 为
workflow-metrics脚本提供--replay <report_path>以复用历史指标。 - 提供
scripts/workflows/patch-gap-task.mjs修正任务字段或 SLA。
- 为
- 数据修复
- 提供 SQL/CLI 示例(如
px knowledge restore --task <id>)帮助手动回滚知识节点与指标。
- 提供 SQL/CLI 示例(如
Follow-ups & Risks
| 风险/事项 | 影响 | 缓解方案 | 负责人 | ETA |
|---|---|---|---|---|
decay_thresholds.yaml 尚未按领域细化 | 容易误报或漏报,影响准确率 | 结合历史指标自动推荐阈值,并引入版本号 + 审批流 | Reliability Squad | 2025-02-23 |
| Gap Task 看板未与审批中心打通 | 任务无法自动通过审批,延长 SLA | 在 task_service 中补充审批钩子,失败自动升级到治理组 | Governance Squad | 2025-02-27 |
| Dashboard 缺乏租户维度 | 难以定位高风险租户 | 扩展报表与 Grafana 维度,增加 tenant_id Filter | Observability Team | 2025-03-01 |
References & Links
- 场景文档:
docs/scenarios/knowledge/SCN-KNOWLEDGE-UPDATE-001.md - 子场景:
docs/scenarios/knowledge/SCN-KNOWLEDGE-UPDATE-DECAY-001.md - 配置:
configs/knowledge/decay_thresholds.yaml,gap_task_template.md,restore_playbook.md - 脚本:
scripts/qa/workflow-metrics.mjs,scripts/workflows/mock-knowledge-decay.mjs(若新增) - Dashboard:Grafana《Knowledge Decay Monitor》
- 发布指引:
npm run publish:usecases -- --scn-id SCN-KNOWLEDGE-UPDATE-001 --validate-only
