Skip to content

Usecase Overview

  • 业务目标:在 PowerX Admin 提供统一的异步任务看板,按租户/插件/运行模式(standalone/宿主)展示队列、并发、成功/失败/重试/取消占比、耗时分布、日志片段,并支持受 ACL 与审计保护的取消/重试。
  • 成功度量:查询 p95 < 1s;数据延迟 < 1 分钟;受控操作成功率 ≥99%;审计写入成功率 100%;筛选/分页错误率 <0.5%。
  • 场景关联:支撑主场景 SCN-OPS-UNIFIED-WORKER-001 子场景 E(Admin 看板),与取消/观测/宿主透传子用例交叉依赖。

目标:让运维/管理员在统一界面查看双模式任务状态与日志,并安全地执行取消/重试。

Context & Assumptions

  • 前置条件worker-admin-boardworker-facade-v1 开启;任务状态/进度、日志、指标已写入存储;租户/插件/模式字段规范化;ACL/MFA 配置完成。
  • 输入/输出:输入为查询条件(租户、插件、模式、状态、时间范围、分页)、受控操作请求(取消/重试);输出为任务列表、聚合指标、详情/日志片段、操作结果与审计 ID。
  • 边界:不提供插件业务日志深度检索;不包含宿主控制台 UI;不负责计费/额度管理;不改写底层任务执行逻辑。

Solution Blueprint

体系分解

主要组件/模块责任代码入口
serviceAdmin 看板 API列表/筛选、详情、日志片段、受控取消/重试,校验 ACL/MFAinternal/worker/admin_board/api
ops指标与聚合器队列/并发/成功率/重试/取消/耗时分布聚合,延迟健康检查internal/worker/admin_board/aggregator
ops审计与权限受控操作审计、租户/插件/模式字段校验、防越权internal/worker/admin_board/audit

流程与时序

  1. 查询与聚合:用户携带租户/插件/模式/状态筛选查询;API 从任务状态存储与指标聚合器读取列表与汇总。
  2. 详情与日志:用户点开任务详情,读取进度、回写上下文与日志片段(含运行模式标识、执行节点)。
  3. 受控操作:用户在详情页发起取消/重试,请求通过 ACL/MFA 校验后调用 Worker/宿主接口,并写审计。
  4. 回显与健康提示:操作结果与审计 ID 回显;当数据延迟或采集缺失时在看板显示健康提示。

如需补充图示,可使用 Mermaid:

Contracts & Interfaces

  • Inbound APIs / Events
    • GET /admin/worker/tasks — 支持租户/插件/模式/状态/时间过滤与分页;鉴权:ACL+租户隔离;超时:500ms。
    • GET /admin/worker/tasks/{id} — 返回进度、状态、模式标识、执行节点、日志片段;鉴权同上。
    • POST /admin/worker/tasks/{id}/cancelPOST /admin/worker/tasks/{id}/retry — 受控操作,要求 MFA/审计;超时:800ms;幂等:操作 token。
  • Outbound 调用
    • Worker/宿主接口 — 取消/重试任务;失败重试 3 次并记录审计。
    • 任务状态/日志存储 — 拉取任务列表、详情与日志片段。
  • 配置与脚本
    • config/worker/admin-board.yaml — 数据延迟阈值、日志片段大小、受控操作开关。
    • config/auth/acl.yaml — 租户/插件/模式级权限配置。

Implementation Checklist

项目描述完成状态负责人
看板查询 API列表/筛选、详情、日志片段、数据延迟提示[ ]Michael Hu
受控操作取消/重试接口、幂等 token、MFA/ACL 校验、审计写入[ ]Michael Hu
观测聚合队列/并发/成功率/重试/取消/耗时聚合,延迟健康检查[ ]Michael Hu
日志脱敏日志片段脱敏策略、字段白名单[ ]Michael Hu
配置与文档Feature Flag、默认阈值、README/标准更新[ ]Michael Hu

Testing Strategy

  • 单元测试:查询过滤逻辑、分页、数据延迟提示、取消/重试幂等 token、ACL/MFA 校验。
  • 集成测试:对接任务存储/日志存储,模拟 Worker/宿主取消/重试回写,验证审计落库。
  • 端到端验证:沙箱租户提交任务→看板查询→详情→发起取消/重试,检查状态回写与审计 ID。
  • 非功能测试:查询 p95 性能测试、并发取消/重试压测、日志片段大体积场景、数据缺失降级提示。

Observability & Ops

  • 指标worker.admin.query_latency_msworker.admin.query_success_totalworker.admin.data_lag_msworker.admin.cancel_totalworker.admin.retry_totalworker.admin.audit_failure_total
  • 日志:记录请求过滤条件、租户/插件/模式、操作人、结果、审计 ID、数据延迟状态;日志脱敏并带 trace-id。
  • 告警:查询失败率 >1%;数据延迟超阈;受控操作失败率 >2%;审计写入失败。
  • Dashboards:Grafana/Datadog worker.admin.* 面板;看板内健康提示。

Rollback & Failure Handling

  • 回滚步骤:关闭 worker-admin-board Flag;回滚看板 API/前端部署;恢复配置与 ACL。
  • 补救措施:当受控操作失败时提示人工处理;手动重试审计写入;数据延迟时降级展示缓存并提示。
  • 数据修复:修复错误审计记录或权限配置需通过 DBA/安全审批并留痕。

Follow-ups & Risks

风险/事项影响缓解方案负责人ETA
日志脱敏策略未与安全组评审可能阻断日志片段展示或泄露敏感拉齐字段白名单、通过安全评审Michael Hu2025-11-12
宿主/本地字段对齐存在差异看板筛选/统计偏差定义统一字段映射与校验,回归测试Michael Hu2025-11-08
数据延迟超阈无告警影响观测可靠性增加数据延迟告警与健康提示Michael Hu2025-11-05

References & Links

  • 场景文档:docs/scenarios/runtime-ops/SCN-OPS-UNIFIED-WORKER-001.md
  • 相关规范:docs/standards/ops/task-sla-matrix.md(若有)、config/auth/acl.yamlconfig/worker/admin-board.yaml
  • 设计材料:docs/meta/scenarios/powerx/core-platform/runtime-ops/unified-worker-execution/primary.md
  • 发布指引:npm run publish:usecases -- --scn-id SCN-OPS-UNIFIED-WORKER-001

基于 Apache 2.0 许可发布