Skip to content

Executive Summary

监控服务需在插件日志出现连续错误或安全事件时,于 1 分钟内生成告警并通过 Webhook 推送到外部告警平台,同时支持重试与降级渠道。本子场景围绕规则解析、告警构建、Webhook 投递、降级通知与审计报表,保障告警及时送达并可追踪。

Scope & Guardrails

  • In Scope:日志规则管理、滑动窗口检测、Webhook 投递、重试与降级、告警审计。
  • Out of Scope:规则配置 UI、第三方平台内部工单流程、离线日志批量回放。
  • Environment & Flagsmonitoring-servicealert-gateway-v2webhook-delivery-fallback;依赖日志采集器、告警中心、邮件/SMS 通道。

Participants & Responsibilities

ScopeRepositoryLayer责任与交付物Owners
core-platformpowerxservice日志规则解析、告警构建、Webhook 投递与重试Matrix Ops(Platform Ops Lead / ops@artisan-cloud.com
ops-toolingpowerxops降级通道治理、告警中心状态、审计报表Iris Chen(Observability Steward / observability@artisan-cloud.com

End-to-End Flow

  1. Stage 1 – 日志采集:日志代理将插件结构化日志写入集中服务。
  2. Stage 2 – 规则检测:规则引擎按租户聚合,识别 5 分钟内错误/安全关键字突增。
  3. Stage 3 – 告警构建:生成告警事件,附带租户、插件、摘要、建议操作、Trace 信息。
  4. Stage 4 – Webhook 投递:调用 Webhook 投递器,执行签名、重试、延迟控制,写入状态。
  5. Stage 5 – 降级与审计:连续失败 3 次触发降级(邮件/SMS),所有结果写入审计与告警中心。

Key Interactions & Contracts

  • APIs / EventsSTREAM logs.plugin.*POST /alerts/webhookEVENT monitoring.alert.updatedPOST /alerts/fallback/email.
  • Configs / Schemasconfig/log_rules/*.yamldocs/standards/powerx/backend/integration/06_gateway/EventBus_and_Message_Fabric.md.
  • Security / Compliance:Webhook 需 HMAC 签名与防重放;降级通知需记录审计;敏感日志字段按租户隔离。

Usecase Links

  • UC-OPS-MONITORING-WEBHOOK-001 — 日志异常触发 Webhook 告警。

Acceptance Criteria

  1. 规则命中后 1 分钟内创建告警并投递 Webhook,成功率 ≥ 97%,累计 ≥ 99%。
  2. Webhook 连续失败 3 次自动降级,降级通知成功率 ≥ 99%,状态在告警中心清晰可见。
  3. 审计存储包含完整重试历史,可供追踪与报表导出。

Telemetry & Ops

  • 指标:monitoring.webhook.delivery_success_ratemonitoring.webhook.retry_totalmonitoring.alert.downgrade_total
  • 告警阈值:Webhook 成功率 <95%/15 分钟触发 P1;降级次数 >20/日触发治理任务。
  • 观测来源:Grafana《Alert Delivery》、Ops 告警中心、reports/_state/ops/monitoring/*.json

Open Issues & Follow-ups

风险/事项影响范围负责人ETA
规则噪声导致告警风暴值班负荷增加Matrix Ops2025-11-16
Webhook 配置缺乏自检告警投递失败Iris Chen2025-11-18

Appendix

  • docs/meta/scenarios/powerx/core-platform/runtime-ops/system-monitoring-and-alerting/primary.md
  • docs/usecases-seeds/SCN-OPS-SYSTEM-MONITORING-001/UC-OPS-MONITORING-WEBHOOK-001.md

基于 Apache 2.0 许可发布