200 lines (148 loc) · 7.94 KB

2026-03-31 v1.7.0 - 知识彻底掌握演进实施计划

目标

本计划用于固化 NoteConnection 下一阶段演进路线：将项目从“知识可视化系统”升级为本地优先的“知识彻底解析 + 掌握度闭环 + 发散思维引擎 + 可插拔 LLM 学习助手”平台。

该文档面向实施，作为未来 6-9 个月的决策冻结版本。

已锁定产品决策

部署优先级：本地私有优先，默认隐私可控。
学习目标：掌握闭环与发散思维双核并进。
LLM 策略：本地模型与云模型统一可插拔适配。
图谱底座：引入本地图数据库作为高级引擎。
实施节奏：三阶段，6-9 个月。
首要成功指标：掌握度提升。

核心术语

知识原子（Knowledge Atom）：可独立评估掌握状态的最小知识单元。
知识证据（Evidence Span）：支撑知识原子的可追溯源片段。
关系边（Relation Edge）：原子间先修、类比、对比、因果、应用等关系。
时序演化（Temporal Evolution）：知识原子与关系在版本中的状态变化与有效期。
掌握状态（Mastery State）：用户在某知识原子上的可观测掌握概率。
发散图谱（Divergence Graph）：围绕当前主题的跨域扩展路径图。
学习动作（Learning Action）：系统建议的下一步执行动作（出题、讲解、分析、复盘、迁移）。

分层架构与契约

L0 表示层

将 Markdown、代码块、公式、Mermaid 解析为 KnowledgeAtom + EvidenceSpan。
每个原子必须保留来源定位，支持可解释检索。

L1 结构层

基于知识原子和关系边构建静态图、流程图、时序图。
关系边区分“事实边”与“推断边”，降低路径误导风险。

L2 检索层

混合检索：关键词 + 向量 + 图遍历 + 时序过滤。
每次召回必须返回证据、关系路径与时序有效性。

L3 学习层

基于 MasteryState + DivergenceGraph 决策下一学习动作。
不允许直接消费无证据绑定的黑箱 LLM 输出。

L4 交互层

提供学习工作台、导师动作接口与评测反馈闭环。
通过统一适配层支持本地与云端模型切换。

L5 治理层

实施新鲜度检测、接口契约、回滚开关、质量门禁与隐私边界。
对 L0-L4 全链路执行门禁。

外部策略吸收

Fast-GraphRAG：吸收状态化插入/查询与高性能本地检索流水线。
LightRAG：吸收图 + 向量双层检索与增量更新导向。
Graphiti：吸收时间感知知识图思想，支持上下文演化。
Neo4j GraphRAG：吸收图数据库驱动的可解释检索与工具契约模式。
MemOS：吸收分层记忆与策略调度思想（会话/单元/长期）。
GitNexus：吸收流程上下文、staleness 治理与 Agent 可消费接口设计。

v1 明确不做

不采用云优先多租户架构。
不在 v1 引入深度分布式复杂度。
不将代码智能能力直接等同于学习智能能力。

三阶段实施蓝图（6-9 个月）

Phase 1（第 1-8 周）：深解析与图谱底座升级

建立统一解析管线，产出 KnowledgeAtom + EvidenceSpan。
引入本地图数据库作为高级引擎，保留轻量路径用于兼容迁移。
落地时序模型，支持原子/关系版本与有效期。
新增 staleness 检测（源文档哈希绑定）。
交付物：
- 可增量重建的知识图谱服务。
- 证据可追溯查询接口。
- 时序有效性标注能力。

Phase 2（第 9-16 周）：掌握闭环与发散引擎

建立 LearnerConceptState（掌握概率、错误标签、复测结果）。
构建掌握闭环：诊断 -> 错因分类 -> 个性化练习 -> 复测更新。
构建发散引擎：同层扩展、跨层迁移、反例探索。
输出双路径：MasteryPath[] 与 DivergencePath[]。
交付物：
- 学习路径编排器。
- 错因知识库。
- 双核学习面板。

Phase 3（第 17-36 周）：可插拔 LLM 导师与记忆操作系统

构建统一 LLM 适配层，支持本地与云端模型。
实现导师动作：出题、追问、答案分析、误区诊断、迁移任务生成、复盘摘要。
落地分层记忆：会话记忆、单元记忆、长期掌握记忆。
建立学习安全护栏：证据优先、来源可追溯、低置信降级。
交付物：
- LLM 学习助手编排层。
- 记忆策略引擎。
- 学习质量仪表盘。

公共接口与类型（必须实现）

公共 API

KnowledgeIngestAPI
- 输入：文档内容 + 增量变更元数据。
- 输出：atom/evidence/relation/temporal 元数据。
KnowledgeQueryAPI
- 统一检索入口，遵循 evidence-first 返回契约。
MasteryDiagnosticsAPI
- 输入：作答与行为事件。
- 输出：掌握状态更新与错误标签。
LearningPathAPI
- 输出：带优先级的 MasteryPath[] 与 DivergencePath[]。
TutorActionAPI
- 统一导师动作协议（提问/分析/反馈/复盘）。
MemoryPolicyAPI
- 管理会话/单元/长期记忆写入与淘汰策略。

新增核心类型

KnowledgeAtom
EvidenceSpan
RelationEdge
TemporalEdge
LearnerConceptState
LearningAction
TutorTrace

质量门禁与验收

核心测试域

解析正确性：原子抽取、证据定位、关系一致性。
检索可信性：证据可追溯、路径可解释、时序有效性命中。
学习有效性：掌握度提升、错因复发下降、复测通过率提升。
发散能力：跨主题联想质量、反例质量、迁移任务质量。
性能：10k 原子规模下查询与重建时延门限。
隐私安全：默认本地不外泄、模型调用可审计、边界可验证。

v1.5 验收阈值

复测通过率提升 >= 20%。
高频误区复发率下降 >= 25%。
含证据链学习建议占比 >= 90%。
推荐路径效果显著优于随机路径基线。
关键交互 p95 保持可交互级时延且门禁全绿。

第一性原理解释

学习本质是“状态估计 + 干预控制”问题，而非单纯内容展示问题。
无原子化拆解，无法稳定证明掌握改进。
无可解释检索，反馈闭环不可被信任。
无时序与记忆，遗忘与迁移无法被正确建模。
无治理门禁，质量漂移与幻觉会侵蚀学习系统可靠性。

思维模型与常见误区

思维模型

状态空间闭环：Knowledge State -> Observation -> Update -> Policy。
双目标约束优化：在掌握收益与发散质量之间做显式平衡。
证据优先编排：每个导师动作都需映射到证据与关系路径。
分层记忆模型：短期交互与长期掌握分层存储与更新。
受控演进模型：能力扩展必须经契约测试与门禁验证。

常见误区

只追求向量召回，不建设关系图与证据链。
把 LLM 原始输出当作真值。
只推荐路径，不更新掌握状态与复测闭环。
过早追求全模态全场景，导致架构风险失控。
晚期才补本地隐私与审计能力。

五点总结

从“可视化”升级到“可验证学习系统”方向正确且可落地。
本地优先 + 图数据库底座是长期能力上限关键前提。
双核目标必须通过掌握闭环与发散引擎并行工程化实现。
可插拔 LLM 必须建立在证据优先与分层记忆之上。
三阶段 6-9 个月路线能够在可控风险下持续产生可测价值。

参考来源

GitNexus: https://github.com/abhigyanpatwari/GitNexus
Fast-GraphRAG: https://github.com/circlemind-ai/fast-graphrag
LightRAG: https://github.com/HKUDS/LightRAG
Graphiti: https://github.com/getzep/graphiti
Neo4j GraphRAG Python: https://github.com/neo4j/neo4j-graphrag-python
MemOS: https://github.com/MemTensor/MemOS
Neo4j GraphRAG Docs: https://neo4j.com/docs/neo4j-graphrag-python/current/