Executive Summary
此场景覆盖 Excel/CSV 等结构化表格的解析、语义建模与实体映射。系统需要识别主键、时间字段、枚举值,自动生成实体(供应商、合同、费用项等)及属性,同时对敏感字段(金额、身份证号)执行脱敏,再将“记录摘要 + 字段组合”写入向量与关键词索引,并与知识图谱建立关系链。目标是字段识别准确率≥95%、脱敏覆盖率100%、检索既支持自然语言也支持结构化过滤。
Scope & Guardrails
- In Scope:表头推断、数据类型识别、语义模板映射、实体/关系生成、脱敏、索引写入、错误阻断与提示。
- Out of Scope:长文 OCR、API 数据同步、Agent UI 交互。
- Environment & Flags:需要
structured.ingestion,masking.enforced,graph.syncflags,且已配置模板库与敏感字段字典。
Participants & Responsibilities
| Scope | Repository | Layer | 责任与交付物 | Owners |
|---|---|---|---|---|
| Schema Analyzer | powerx-core | data | 自动检测主键/类型/枚举并映射模板 | Data Modeling Team |
| Entity Builder | powerx-core | data | 生成实体、属性、关系链并写入图谱 | Knowledge Platform Team |
| Security Masking | powerx-core | service | 执行字段脱敏、合规校验、阻断未脱敏数据 | Security Ops Team |
End-to-End Flow
- Stage 1 – Schema Detection:上传 Excel/CSV → 解析多工作表,识别主键/时间/枚举/货币字段,匹配语义模板。
- Stage 2 – Entity & Chunk Build:依据模板生成实体(供应商/合同/费用项)、属性列表;构造“记录摘要 + 字段组合”chunk,附字段权重。
- Stage 3 – Security & Index:执行脱敏(金额区间化、PII 掩码),将数据写入向量/关键词索引,并生成图谱关系(供应商-合同-金额)。
- Stage 4 – QA & Publish:校验字段覆盖率、脱敏结果,失败阻断发布并生成工单;成功则更新搜索策略与审计日志。
Key Interactions & Contracts
- APIs / Events:
POST /ingestion/structured,POST /structured/templates/{id}/apply, Eventknowledge.ingestion.blocked(reason=masking_failed)。 - Configs / Schemas:字段模板(name, regex, semantic_tag, sensitivity_level)、实体 schema(entity, attributes, relations)。
- Security / Compliance:敏感字段(金额/身份证/账号)必须脱敏;阻断时提供修复指引;写入完整审计(原字段哈希 + 脱敏策略 ID)。
Usecase Links
SCN-KNOWLEDGE-SPACE-001— 主链路。
Acceptance Criteria
- 字段识别准确率 ≥95%,模板匹配成功率 ≥90%,脱敏覆盖率 100%。
- 发布前必须通过敏感字段校验,否则状态为“阻断”并写入审计;业务专家可复核冲突记录。
- 向量与关键词检索均能召回同一记录摘要;结构化查询响应 ≤ 1 秒。
Telemetry & Ops
- 指标:字段匹配率、脱敏失败次数、阻断工单数、索引写入延迟。
- 告警阈值:脱敏失败 >0、阻断连续 3 次、索引延迟 > 10s。
- 观测来源:
structured-ingestiondashboard、reports/_state/ingestion-structured.json。
Open Issues & Follow-ups
| 风险/事项 | 影响范围 | 负责人 | ETA |
|---|---|---|---|
| 需扩展更多行业模板(医疗、制造) | 模板匹配 | Data Modeling Team | 2026-02-15 |
Appendix
- 示例文件:
expense-2024.xlsx,expense-sensitive.xlsx - 语义模板库:
docs/knowledge/templates/structured-fields.md
