LegnaOS
diff --git a/‎package.json‎
Lines changed: 35 additions & 1 deletion b/‎package.json‎
Lines changed: 35 additions & 1 deletion
diff --git a/‎readme.md‎
Lines changed: 135 additions & 43 deletions b/‎readme.md‎
Lines changed: 135 additions & 43 deletions
diff --git a/‎src/extension.ts‎
Lines changed: 12 additions & 6 deletions b/‎src/extension.ts‎
Lines changed: 12 additions & 6 deletions
diff --git a/‎src/globals.ts‎
Lines changed: 7 additions & 5 deletions b/‎src/globals.ts‎
Lines changed: 7 additions & 5 deletions
diff --git a/‎src/messages.ts‎
Lines changed: 9 additions & 0 deletions b/‎src/messages.ts‎
Lines changed: 9 additions & 0 deletions
@@ -2,7 +2,7 @@
   "name": "augment-proxy-manager",
   "displayName": "Augment Proxy Manager",
   "description": "管理 Augment API 代理服务器，支持自定义 API 端点和多种 AI 供应商",
-  "version": "2.1.5",
+  "version": "3.0.1",
   "publisher": "legna",
   "repository": {
     "type": "git",
@@ -317,6 +317,40 @@
           "type": "string",
           "default": "",
           "description": "自定义 Embedding 模型名称 (留空使用默认)"
+        },
+        "augmentProxy.embedding.localModel": {
+          "type": "string",
+          "default": "Xenova/all-MiniLM-L6-v2",
+          "enum": [
+            "Xenova/all-MiniLM-L6-v2",
+            "Xenova/all-MiniLM-L12-v2",
+            "Xenova/bge-small-en-v1.5",
+            "Xenova/bge-base-en-v1.5",
+            "Xenova/multilingual-e5-small"
+          ],
+          "enumDescriptions": [
+            "MiniLM-L6 (22MB, 384d) — 最小最快",
+            "MiniLM-L12 (33MB, 384d) — 12层更准",
+            "BGE-Small (33MB, 384d) — 代码搜索好",
+            "BGE-Base (109MB, 768d) — 性价比最高 ⭐",
+            "E5-Multi-Small (118MB, 384d) — 多语言"
+          ],
+          "description": "本地 Embedding 模型选择 (不配置远程 API 时使用)"
+        },
+        "augmentProxy.embedding.mirror": {
+          "type": "string",
+          "default": "",
+          "enum": [
+            "",
+            "https://hf-mirror.com/",
+            "https://huggingface.co/"
+          ],
+          "enumDescriptions": [
+            "默认 (HuggingFace 官方)",
+            "hf-mirror.com — 国内镜像，下载更快",
+            "HuggingFace 官方"
+          ],
+          "description": "HuggingFace 模型下载镜像 (国内用户建议选 hf-mirror.com)"
         }
       }
     }
 
@@ -8,7 +8,7 @@
 
 零注入 · 零登录 · 零配置
 
-[![Version](https://img.shields.io/badge/version-2.1.5-blue.svg)](https://github.com/LegnaOS/VSC-Augment-Proxy-Manager)
+[![Version](https://img.shields.io/badge/version-3.0.1-blue.svg)](https://github.com/LegnaOS/VSC-Augment-Proxy-Manager)
 [![Platform](https://img.shields.io/badge/platform-macOS%20%7C%20Windows%20%7C%20Linux-lightgrey.svg)]()
 
 </div>
@@ -19,11 +19,9 @@
 
 Augment Proxy Manager 运行一个本地 HTTP 代理服务器，拦截 Augment 扩展的 API 请求并转发到你选择的 AI 供应商。
 
-**v1.9 引入零注入模式** — 无需修改代码、无需登录。代理利用 Augment 扩展内置的 API Token 模式，自动配置请求路由。
-
 ```
 Augment 扩展  →  本地代理 (:8765)  →  你的 AI 供应商 API
-                  ↑ 自动配置
+                  ↑ 自动配置          ↑ Viking 上下文增强
 ```
 
 启动代理时，自动设置 `augment.advanced.completionURL` 指向本地代理，`augment.advanced.apiToken` 为占位 token。Augment 扩展检测到配置变更后，切换到 API Token 模式（绕过 OAuth），所有流量通过代理转发。停止代理时，自动清除配置，扩展恢复正常。
@@ -51,19 +49,52 @@ Augment 扩展  →  本地代理 (:8765)  →  你的 AI 供应商 API
 
 ## 功能特性
 
+### 🧠 v3.0 — 智能上下文引擎
+
+- **Viking 分层上下文** — 借鉴 [OpenViking](https://github.com/volcengine/OpenViking) 的文件系统范式，L0 摘要 / L1 结构 / L2 全文三级按需加载，精准控制注入 token 量
+- **目录聚合 + 递归下钻** — 向量初筛 → 目录级聚合 → Top 目录递归下钻，用结构化信号弥补向量精度不足
+- **Session Memory** — 自动从对话中提取用户偏好（语言/框架/代码风格），LevelDB 持久化，跨会话长期记忆
+- **本地模型选择** — 侧边栏可视化选择 5 种本地 Embedding 模型（22MB ~ 118MB），支持运行时切换，下载进度实时显示
+- **远程 Embedding API** — 支持 GLM / OpenAI / 自定义远程 Embedding，远程失败自动回退本地
+- **HuggingFace 镜像加速** — 内置 hf-mirror.com 国内镜像，模型下载速度大幅提升
+- **下载取消 + 缓存自动修复** — 支持取消正在进行的模型下载；检测到缓存损坏自动清理并重新下载
+- **智能缓存检测** — 已下载的模型直接从本地加载，不重复检查下载
+- **OOM 崩溃防护** — 大模型加载导致 extension host 崩溃时，自动回退到默认小模型
+
+### 🔌 代理核心
+
 - **零注入绕过** — 自动配置 Augment 使用代理，无需修改任何代码
 - **流式响应** — 聊天、补全、指令全程实时 SSE 流式传输
 - **完整 Agent 模式** — 工具调用、文件编辑、代码库检索全部正常工作
-- **本地代码索引** — 内置 RAG 语义搜索索引，无需云端同步
-- **OMC 编排增强** — 集成 [oh-my-claudecode](https://github.com/Yeachan-Heo/oh-my-claudecode)，6 种编排模式 + 魔法关键词，可在侧边栏开关
-- **Embedding 配置** — 侧边栏可视化配置语义搜索的 Embedding 供应商 (GLM/OpenAI/自定义)
+- **配置热更新** — 切换供应商或模型无需重启代理，实时生效
+
+### 🔍 RAG 语义搜索
+
+- **本地代码索引** — 内置 RAG 语义搜索，无需云端同步
+- **5 种 Embedding 模型** — MiniLM / BGE / E5 系列，含多语言模型，侧边栏一键下载切换
+- **模型专属缓存** — 不同模型独立缓存文件，切换模型不丢失历史缓存
+
+### ⚡ 增强功能
+
+- **OMC 编排增强** — 集成 [oh-my-claudecode](https://github.com/Yeachan-Heo/oh-my-claudecode)，6 种编排模式 + 魔法关键词
 - **思考模式** — 支持 DeepSeek、MiniMax、GLM 的扩展思考 (Thinking)
-- **JSON Mode** — 支持 Kimi API 的结构化 JSON 输出模式
-- **联网搜索** — 支持 Kimi 内置的 `$web_search` 联网搜索功能
 - **Prompt 缓存** — 自动为支持的供应商注入 cache_control
 - **上下文压缩** — 基于 token 使用率的智能对话历史压缩
-- **配置热更新** — 切换供应商或模型无需重启代理，实时生效
-- **侧边栏控制面板** — 可视化界面管理供应商、API Key 和运行状态
+- **侧边栏控制面板** — 可视化界面管理全部配置和运行状态
+
+## 本地 Embedding 模型
+
+v3.0 支持在侧边栏选择并下载本地 Embedding 模型，无需配置远程 API 即可使用语义搜索：
+
+| 模型 | 大小 | 维度 | 语言 | 说明 |
+|:-----|:-----|:-----|:-----|:-----|
+| MiniLM-L6 | 22MB | 384 | English | 最小最快，基础语义搜索 |
+| MiniLM-L12 | 33MB | 384 | English | 12 层，比 L6 更准 |
+| BGE-Small | 33MB | 384 | English | BAAI BGE 小模型，代码搜索效果好 |
+| **BGE-Base** ⭐ | 109MB | 768 | English | 性价比最高，推荐 |
+| E5-Multi-Small | 118MB | 384 | 多语言 | 支持中/英/日/韩 |
+
+模型基于 [Xenova/transformers.js](https://github.com/xenova/transformers.js) ONNX 格式，首次使用自动下载到本地缓存。
 
 ## 配置项
 
@@ -76,17 +107,46 @@ Augment 扩展  →  本地代理 (:8765)  →  你的 AI 供应商 API
 | `augmentProxy.{provider}.baseUrl` | *按供应商* | API 端点地址 |
 | `augmentProxy.{provider}.model` | *按供应商* | 模型名称 |
 | `augmentProxy.omc.enabled` | `false` | 启用 OMC 编排增强 |
-| `augmentProxy.omc.mode` | `team` | OMC 编排模式 (team/autopilot/ultrawork/ralph/ecomode/pipeline) |
-| `augmentProxy.embedding.enabled` | `false` | 启用语义搜索 Embedding |
-| `augmentProxy.embedding.provider` | `glm` | Embedding 供应商 (glm/openai/custom) |
+| `augmentProxy.omc.mode` | `team` | OMC 编排模式 |
+| `augmentProxy.embedding.localModel` | `Xenova/all-MiniLM-L6-v2` | 本地 Embedding 模型 |
+| `augmentProxy.embedding.enabled` | `false` | 启用远程 Embedding API |
+| `augmentProxy.embedding.provider` | `glm` | 远程 Embedding 供应商 |
+| `augmentProxy.embedding.mirror` | `""` | HuggingFace 下载镜像 (hf-mirror.com) |
 
 各供应商的专属选项（思考模式、缓存等）在设置中 `augmentProxy.{provider}.*` 下配置。
 
 API Key 安全存储在 VSCode 内置的 SecretStorage 中。
 
-## 跨平台支持
+## 架构
 
-支持所有主流 VSCode 变体的路径检测：
+```
+src/
+├── extension.ts          # 扩展入口
+├── proxy.ts              # HTTP 代理服务器 + 初始化
+├── messages.ts           # Augment 协议解析 + System Prompt 注入
+├── sidebar.ts            # 侧边栏 Webview UI
+├── config.ts             # 供应商配置
+├── globals.ts            # 全局状态 (Viking/SessionMemory/RAG/Embedding)
+├── context-manager.ts    # 上下文管理
+├── context-compression.ts # 智能压缩
+├── injection.ts          # Augment 扩展自动配置
+├── omc.ts                # OMC 编排增强
+├── tools.ts              # 工具调用处理
+├── providers/
+│   ├── anthropic.ts      # Anthropic 流式转发
+│   ├── openai.ts         # OpenAI 流式转发
+│   └── google.ts         # Google Gemini 流式转发
+└── rag/
+    ├── index.ts           # RAG 索引 + Viking 增强搜索
+    ├── embeddings.ts      # Embedding 引擎 (本地 5 模型 + 远程 API)
+    ├── viking-context.ts  # Viking L0/L1/L2 分层上下文
+    ├── session-memory.ts  # Session Memory 长期记忆
+    ├── code-parser.ts     # 代码解析器
+    ├── context-generator.ts # 上下文生成
+    └── storage.ts         # LevelDB 持久化存储
+```
+
+## 跨平台支持
 
 | 编辑器 | macOS / Linux | Windows |
 |:------|:-------------|:--------|
@@ -97,40 +157,72 @@ API Key 安全存储在 VSCode 内置的 SecretStorage 中。
 
 ## 更新日志
 
+### v3.0.1 — 稳定性修复
+
+**🛡️ 崩溃防护**
+- 修复 `augmentConfig.update()` 重复写入导致窗口无限重载的问题
+- 新增 OOM 崩溃检测：大模型加载导致 extension host 崩溃时，下次启动自动回退到默认小模型 (MiniLM-L6 22MB)
+- 模型初始化改为后台异步 (fire-and-forget)，不再阻塞插件启动
+- `deactivate()` 在自动恢复场景下不再清除 Augment 配置
+
+**⚡ 性能优化**
+- 智能缓存检测：已下载的模型直接从本地加载，跳过下载流程和进度回调
+- 移除两个过大的模型 (BGE-Large 335MB、E5-Base 278MB)，避免 OOM 风险
+
+**🔧 Bug 修复**
+- 修复下载进度条直接显示 100% 的问题 (transformers.js v3 状态名变更)
+- 修复 checkbox 设置 (OMC/远程 Embedding) 不持久化的问题
+- 修复 `embedding.enabled` 错误地阻止本地模型加载的问题 ("BM25 mode")
+- 新增 HuggingFace 镜像加速 (hf-mirror.com)
+- 新增下载取消功能
+- 新增缓存损坏自动检测清理并重新下载
+
+**🎨 UI 改进**
+- 侧边栏重构：本地模型 (默认) 与远程 Embedding API (可选) 分区显示
+- 新增取消下载按钮
+
+### v3.0.0 — 智能上下文引擎
+
+**🧠 Viking 分层上下文系统**
+- 借鉴 [OpenViking](https://github.com/volcengine/OpenViking) 上下文数据库理念
+- L0 摘要 (~100 tokens) / L1 结构化 (~2K tokens) / L2 全文，三级按需加载
+- 向量初筛 → 目录聚合 → Top 目录递归下钻 → 结果合并加权
+- 用结构化文件系统信号弥补向量精度不足，对弱模型提升尤为显著
+
+**📦 本地模型选择**
+- 侧边栏可视化选择 5 种本地 Embedding 模型 (22MB ~ 118MB)
+- 支持运行时一键切换模型，自动重新初始化
+- 下载进度条显示文件名和百分比
+- 模型专属缓存文件，切换不丢失历史数据
+- HuggingFace 镜像加速 (hf-mirror.com)，国内下载速度大幅提升
+- 支持取消下载；缓存损坏自动检测清理并重新下载
+
+**🧬 Session Memory 长期记忆**
+- 自动从用户消息中提取偏好（编程语言、框架、代码风格）
+- 记录 Agent 经验和教训
+- LevelDB 持久化，跨会话保持记忆
+- 自动注入 System Prompt，AI 具备长期记忆能力
+
+**🌐 远程 Embedding API**
+- 支持 GLM embedding-3 / OpenAI text-embedding-3-small / 自定义 API
+- 远程 API 失败自动回退本地模型
+- 远程/本地独立缓存，维度不冲突
+
 ### v2.1.5
-- 🚀 **OMC 编排增强** — 集成 oh-my-claudecode，6 种编排模式 (Team/Autopilot/Ultrawork/Ralph/Ecomode/Pipeline)
-- 🔮 **魔法关键词** — 消息中输入 ultrawork/search/analyze/ultrathink 自动增强提示
-- 🧠 **Embedding 配置 UI** — 侧边栏可视化配置语义搜索供应商、API Key、自定义端点
-- 🔧 修复配置保存后状态丢失的 race condition (debounced sendFullStatus)
-- 🧹 清理无用的 release notes 文件
+- 🚀 **OMC 编排增强** — 集成 oh-my-claudecode，6 种编排模式
+- 🔮 **魔法关键词** — ultrawork/search/analyze/ultrathink 自动增强
+- 🧠 **Embedding 配置 UI** — 侧边栏可视化配置
+- 🔧 修复配置保存 race condition
 
 ### v2.1.4
-- 🛠️ **完整支持 `apply_patch` 工具** — 支持 Augment 的两种 patch 格式（diff 格式和完整文件替换）
-- 🤖 **GLM-5 支持** — 更新智谱 AI 默认模型为 `glm-5`
-- 🔧 修复 patch 解析器的 substring 逻辑，正确处理缩进
-- 🔧 自动检测 patch 格式，智能选择 `str-replace-editor` 或 `save-file`
-
-### v2.1.3
-- 🌙 **Kimi Coding Plan 支持** — 支持月之暗面 Coding Plan API（需要特殊订阅）
-- 🔧 修复 Kimi API 端点配置
-- 🔧 完善 Anthropic 格式检测逻辑
+- 🛠️ 完整支持 `apply_patch` 工具
+- 🤖 GLM-5 支持
 
 ### v2.1.0
-- 🌙 **Kimi (月之暗面) 支持** — 新增 Kimi 标准 API 支持
-- 🔍 **JSON Mode** — 支持 Kimi 的结构化 JSON 输出
-- 🌐 **联网搜索** — 支持 Kimi 内置的 `$web_search` 功能
-
-### v1.9.1
-- 🐛 修复模型选择器后显示 "noCanvas" 的问题
-- 🔄 切换供应商或模型后自动生效，无需重启代理
-- 📊 上下文压缩配置从 Google 专属移至全局，适用于所有供应商
-- 📊 上下文/Token 统计在侧边栏刷新后保持显示
+- 🌙 Kimi (月之暗面) 支持 + JSON Mode + 联网搜索
 
 ### v1.9.0
-- 🚀 零注入模式 — 自动配置 Augment 扩展
-- 🤖 完整 Agent 模式支持
-- 🔍 本地 RAG 语义搜索索引
-- 💬 思考模式 / Prompt 缓存 / 上下文压缩
+- 🚀 零注入模式 + 完整 Agent 模式 + RAG 语义搜索 + 上下文压缩
 
 ## 许可证
 
 
@@ -52,12 +52,18 @@ export function activate(context: vscode.ExtensionContext) {
 }
 
 export async function deactivate() {
-    // 清除 Augment 扩展的自动配置，避免代理停止后扩展仍指向已关闭的代理
-    try {
-        const augmentConfig = vscode.workspace.getConfiguration('augment');
-        const currentAdvanced = augmentConfig.get<any>('advanced', {}) || {};
-        await augmentConfig.update('advanced', { ...currentAdvanced, apiToken: '', completionURL: '' }, vscode.ConfigurationTarget.Global);
-    } catch {}
+    // 只在代理不需要自动恢复时清除配置
+    // 如果 proxyAutoStart = true，说明是 reloadWindow 触发的 deactivate，重载后会自动恢复代理，不能清配置
+    const willAutoRestart = state.extensionContext?.globalState.get<boolean>('proxyAutoStart');
+    if (!willAutoRestart) {
+        try {
+            const augmentConfig = vscode.workspace.getConfiguration('augment');
+            const currentAdvanced = augmentConfig.get<any>('advanced', {}) || {};
+            if (currentAdvanced.apiToken || currentAdvanced.completionURL) {
+                await augmentConfig.update('advanced', { ...currentAdvanced, apiToken: '', completionURL: '' }, vscode.ConfigurationTarget.Global);
+            }
+        } catch {}
+    }
     await closeRAGIndex();
     if (state.proxyServer) state.proxyServer.close();
 }
@@ -1,10 +1,11 @@
 import * as vscode from 'vscode';
 import * as http from 'http';
 import { CurrentConfig } from './types';
+import type { VikingContextStore } from './rag/viking-context';
+import type { SessionMemory } from './rag/session-memory';
 
 // ===== 全局共享状态 =====
 // 所有模块通过 state 对象访问共享状态
-// 使用对象属性而非 export let，确保 CommonJS 下跨模块引用一致
 
 export const state = {
     proxyServer: null as http.Server | null,
@@ -15,10 +16,12 @@ export const state = {
     ragIndex: null as any,
     semanticEngine: null as any,
 
-    // 会话级请求队列 - 防止同一会话并发请求冲突
-    conversationQueues: new Map<string, Promise<void>>(),
+    // v2.0.0: Viking 子系统
+    vikingStore: null as VikingContextStore | null,
+    sessionMemory: null as SessionMemory | null,
 
-    // 保存每个会话的原始用户消息（Augment 不在 chat_history 中保存 request_message）
+    // 会话级请求队列
+    conversationQueues: new Map<string, Promise<void>>(),
     conversationUserMessages: new Map<string, string>(),
 
     // 当前配置
@@ -31,7 +34,6 @@ export const state = {
         enableCache: true,
         enableInterleavedThinking: true,
         enableThinking: true,
-        // OMC defaults
         omcEnabled: false,
         omcMode: 'team',
         omcContinuationEnforcement: true,
 
@@ -128,6 +128,15 @@ Example bad behavior (DO NOT DO THIS):
             log(`[OMC] System prompt injected (mode: ${state.currentConfig.omcMode}, continuation: ${state.currentConfig.omcContinuationEnforcement})`);
         }
     }
+
+    // v2.0.0: Viking Session Memory 注入 — 从历史对话中学习到的用户偏好和 Agent 经验
+    if (state.sessionMemory) {
+        const memoryPrompt = state.sessionMemory.buildMemoryPrompt(500);
+        if (memoryPrompt) {
+            parts.push(`# Session Memory\n${memoryPrompt}`);
+        }
+    }
+
     return parts.join('\n\n');
 }
Original file line number	Diff line number	Diff line change
`@@ -128,6 +128,15 @@ Example bad behavior (DO NOT DO THIS):`
`128`	`128`	log(`[OMC] System prompt injected (mode: ${state.currentConfig.omcMode}, continuation: ${state.currentConfig.omcContinuationEnforcement})`);
`129`	`129`	`}`
`130`	`130`	`}`
	`131`	`+`
	`132`	`+ // v2.0.0: Viking Session Memory 注入 — 从历史对话中学习到的用户偏好和 Agent 经验`
	`133`	`+ if (state.sessionMemory) {`
	`134`	`+ const memoryPrompt = state.sessionMemory.buildMemoryPrompt(500);`
	`135`	`+ if (memoryPrompt) {`
	`136`	+ parts.push(`# Session Memory\n${memoryPrompt}`);
	`137`	`+ }`
	`138`	`+ }`
	`139`	`+`
`131`	`140`	`return parts.join('\n\n');`
`132`	`141`	`}`
`133`	`142`