Skip to content

Executive Summary

该子场景面向 300 页以上的 PDF/手册等长篇材料,聚焦“解析 → 分层切分 → 嵌入 → 图谱同步”的自动化处理。目标是将章节/小节/段落映射成多粒度 chunk(章节摘要 ≈800 tokens、段落片段 ≈300 tokens),实现高覆盖率与高质量索引,并为 RAG 提供结构化引用(页码、术语、跳转关系)。关键角色:知识工程师、OCR 服务、结构解析器、嵌入服务、图谱写入器、人工校验工单系统。

Scope & Guardrails

  • In Scope:OCR、目录解析、层级切分、滑动窗口 + 语义聚类、向量/关键词/图谱同步、失败节点回滚。
  • Out of Scope:空间创建、表格/API 数据处理、Agent 消费端体验。
  • Environment & Flags:需启用 ocr.enabled, longdoc.chunking, graph.sync,并具备 GPU/LLM 资源用于结构解析与摘要。

Participants & Responsibilities

ScopeRepositoryLayer责任与交付物Owners
OCR & Layout Servicepowerx-coredata提供版面/章节解析、图像识别Data Infra Team
Chunk Builderpowerx-coredata多粒度切分、滑动窗口、语义聚类Knowledge Platform Team
Embedding & Graph Writerpowerx-coredata向量化、关键词抽取、术语/实体写入图谱AI Infra Team

End-to-End Flow

  1. Stage 1 – Intake & Layout Detection:上传 PDF → 触发 OCR(如需)与目录/页眉解析,生成结构树。
  2. Stage 2 – Hierarchical Chunking:按章节→小节→段落切分,结合滑动窗口/语义聚类生成多粒度 chunk,附带 token 统计、页码、父子引用。
  3. Stage 3 – Representation Build:对 chunk 计算嵌入、关键词、实体/关系三元组;失败 chunk 自动重试 3 次并进入人工队列。
  4. Stage 4 – Publish & QA:向量写入、倒排索引、图谱更新、血缘记录,产出 QA 报告(chunk 覆盖率、平均 token、失败原因)。

Key Interactions & Contracts

  • APIs / EventsPOST /ingestion/longdoc, GET /ingestion/{job_id}, Event knowledge.chunk.failed(附页码/原因)。
  • Configs / Schemas:Chunk schema(chunk_id, source_doc, hierarchy_path, token_count, page_range, vector_id, entity_refs),QA report schema。
  • Security / Compliance:在 OCR/解析过程中继承空间级脱敏策略;原始文档存储在加密桶,访问需审计。

Usecase Links

  • SCN-KNOWLEDGE-SPACE-001 — 主链路。

Acceptance Criteria

  1. chunk 覆盖率 ≥95%,平均 chunk token 300±50(段落级)/800(摘要级);嵌入成功率 100%。
  2. 结构解析失败需自动生成人工校验任务,未完成节点阻断发布,审计记录原因。
  3. 图谱实体准确率 ≥90%,引用路径可从 chunk 回溯到页码/原文。

Telemetry & Ops

  • 指标:OCR 成功率、chunk 覆盖率、嵌入吞吐、图谱实体质量评分、平均处理时长。
  • 告警阈值:OCR 失败率 >2%、嵌入延迟 > 30s、chunk 覆盖率 < 95%。
  • 观测来源:longdoc-ingestion dashboard、reports/_state/ingestion-longdoc.json

Open Issues & Follow-ups

风险/事项影响范围负责人ETA
数学公式/表格的 OCR 支持不足特殊行业资料Data Infra Team2026-01-05

Appendix

  • 长文档样例:《财务合规白皮书.pdf》
  • 参考脚本:scripts/ingestion/longdoc-batch.mjs

基于 Apache 2.0 许可发布