claude-code-best
diff --git a/‎DEV-LOG.md‎
Lines changed: 34 additions & 0 deletions b/‎DEV-LOG.md‎
Lines changed: 34 additions & 0 deletions
diff --git a/‎README.md‎
Lines changed: 1 addition & 0 deletions b/‎README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎bun.lock‎
Lines changed: 3 additions & 0 deletions b/‎bun.lock‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎docs/tools/search-and-navigation.mdx‎
Lines changed: 128 additions & 2 deletions b/‎docs/tools/search-and-navigation.mdx‎
Lines changed: 128 additions & 2 deletions
diff --git a/‎package.json‎
Lines changed: 12 additions & 11 deletions b/‎package.json‎
Lines changed: 12 additions & 11 deletions
diff --git a/‎src/tools/WebFetchTool/utils.ts‎
Lines changed: 1 addition & 1 deletion b/‎src/tools/WebFetchTool/utils.ts‎
Lines changed: 1 addition & 1 deletion
@@ -1,5 +1,39 @@
 # DEV-LOG
 
+## WebSearch Bing 适配器补全 (2026-04-03)
+
+原始 `WebSearchTool` 仅支持 Anthropic API 服务端搜索（`web_search_20250305` server tool），在非官方 API 端点（第三方代理）下搜索功能不可用。本次改动引入适配器架构，新增 Bing 搜索页面解析作为 fallback。
+
+**新增文件：**
+
+| 文件 | 说明 |
+|------|------|
+| `src/tools/WebSearchTool/adapters/types.ts` | 适配器接口定义：`WebSearchAdapter`、`SearchResult`、`SearchOptions`、`SearchProgress` |
+| `src/tools/WebSearchTool/adapters/apiAdapter.ts` | API 适配器 — 将原有 `queryModelWithStreaming` 逻辑封装为 `ApiSearchAdapter` |
+| `src/tools/WebSearchTool/adapters/bingAdapter.ts` | Bing 适配器 — 直接抓取 Bing HTML，正则提取搜索结果 |
+| `src/tools/WebSearchTool/adapters/index.ts` | 适配器工厂 — 根据环境变量 / API Base URL 选择后端 |
+| `src/tools/WebSearchTool/__tests__/bingAdapter.test.ts` | Bing 适配器单元测试（32 cases：decodeHtmlEntities、extractBingResults、search mock） |
+| `src/tools/WebSearchTool/__tests__/bingAdapter.integration.ts` | Bing 适配器集成测试 — 真实网络请求验证 |
+
+**重构文件：**
+
+| 文件 | 变更 |
+|------|------|
+| `src/tools/WebSearchTool/WebSearchTool.ts` | 从直接调用 API 改为 `createAdapter()` 工厂模式；`isEnabled()` 始终返回 true；删除 ~200 行内联 API 调用逻辑 |
+| `src/tools/WebFetchTool/utils.ts` | `skipWebFetchPreflight` 默认值从 `!undefined`（即 true）改为显式 `=== false`，使域名预检默认启用 |
+
+**Bing 适配器关键技术细节：**
+
+1. **反爬绕过**：使用完整 Edge 浏览器请求头（含 `Sec-Ch-Ua`、`Sec-Fetch-*` 等 13 个标头），避免 Bing 返回 JS 渲染的空页面；`setmkt=en-US` 参数强制美式英语市场，避免 IP 地理定位导致的区域化结果（德语论坛、新加坡金价等不相关内容）
+2. **URL 解码**（`resolveBingUrl()`）：Bing 返回的重定向 URL（`bing.com/ck/a?...&u=a1aHR0cHM6Ly9...`）中 `u` 参数为 base64 编码的真实 URL，需解码后使用
+3. **摘要提取**（`extractSnippet()`）：三级降级策略 — `b_lineclamp` → `b_caption <p>` → `b_caption` 直接文本
+4. **HTML 实体解码**（`decodeHtmlEntities()`）：处理 7 种常见 HTML 实体
+5. **域过滤**：客户端侧 `allowedDomains` / `blockedDomains` 过滤，支持子域名匹配
+
+**当前状态**：`adapters/index.ts` 中 `createAdapter()` 硬编码返回 `BingSearchAdapter`，跳过了 API/Bing 自动选择逻辑（原逻辑被注释保留）。未来可通过取消注释恢复自动选择。
+
+---
+
 ## 移除反蒸馏机制 (2026-04-02)
 
 项目中发现三处 anti-distillation 相关代码，全部移除。
 
@@ -16,6 +16,7 @@
   - [x] Auto Mode 回归
   - [x] 所有 Feature 现在可以通过环境变量配置, 而不是垃圾的 bun --feature
   - [x] 移除牢 A 的反蒸馏代码!!!
+  - [x] 补全 web search 能力(用的 Bing 搜索)!!!
 - [ ] V5 大规模重构石山代码, 全面模块分包
   - [ ] V5 将会为全新分支, 届时 main 分支将会封存为历史版本
 
 
@@ -139,11 +139,137 @@ function getDeferredToolsCacheKey(deferredTools: Tools): string {
 
 AI 的信息获取不局限于本地代码：
 
-- **WebSearch**：搜索互联网获取最新信息
-- **WebFetch**：抓取特定网页内容，转换为 Markdown 供 AI 阅读
+- **WebSearch**（`src/tools/WebSearchTool/`）：调用 Anthropic API 的 `web_search_20250305` server tool 搜索互联网
+- **WebFetch**（`src/tools/WebFetchTool/`）：抓取特定 URL 内容，转换为 Markdown 供 AI 阅读
 
 这让 AI 可以查阅文档、搜索 Stack Overflow、阅读 GitHub issue——和人类开发者的工作方式一致。
 
+### WebSearch 实现机制
+
+WebSearch 通过适配器模式支持两种搜索后端，由 `src/tools/WebSearchTool/adapters/` 中的工厂函数 `createAdapter()` 选择：
+
+```
+适配器架构:
+  WebSearchTool.call()
+    → createAdapter() 选择后端
+      ├─ ApiSearchAdapter — Anthropic API 服务端搜索（需官方 API 密钥）
+      └─ BingSearchAdapter — 直接抓取 Bing 搜索页面解析（无需 API 密钥）
+    → adapter.search(query, options)
+    → 转换为统一 SearchResult[] 格式返回
+```
+
+#### 适配器选择逻辑
+
+`adapters/index.ts` 中的工厂函数按以下优先级选择后端：
+
+| 优先级 | 条件 | 适配器 |
+|--------|------|--------|
+| 1 | 环境变量 `WEB_SEARCH_ADAPTER=api` | `ApiSearchAdapter` |
+| 2 | 环境变量 `WEB_SEARCH_ADAPTER=bing` | `BingSearchAdapter` |
+| 3 | API Base URL 指向 Anthropic 官方 | `ApiSearchAdapter` |
+| 4 | 第三方代理 / 非官方端点 | `BingSearchAdapter` |
+
+适配器是无状态的，同一会话内缓存复用。
+
+#### ApiSearchAdapter — API 服务端搜索
+
+将搜索请求委托给 Anthropic API 的 `web_search_20250305` server tool：
+
+```
+调用链:
+  ApiSearchAdapter.search(query, options)
+    → queryModelWithStreaming() 发起独立的 API 调用
+      → 携带 extraToolSchemas: [BetaWebSearchTool20250305]
+      → API 服务端执行搜索，返回流式事件
+        → server_tool_use / web_search_tool_result / text 交替返回
+    → extractSearchResults() 从 content blocks 提取 SearchResult[]
+```
+
+| 特性 | 实现 |
+|------|------|
+| **模型选择** | Feature flag `tengu_plum_vx3` 控制用 Haiku（强制 tool_choice）还是主模型 |
+| **搜索上限** | 每次调用最多 8 次搜索（`max_uses: 8`） |
+| **域过滤** | 支持 `allowedDomains` / `blockedDomains` |
+| **进度追踪** | 流式解析 `input_json_delta` 提取 query，实时回调 `onProgress` |
+
+#### BingSearchAdapter — Bing 搜索页面解析
+
+直接抓取 Bing 搜索 HTML 并用正则提取结果，无需 API 密钥：
+
+```
+调用链:
+  BingSearchAdapter.search(query, options)
+    → axios.get(bing.com/search?q=...)  — 使用浏览器级别 headers 绕过反爬
+    → extractBingResults(html)
+      → 正则匹配 <li class="b_algo"> 块
+      → 提取 <h2><a> 标题和 URL
+      → resolveBingUrl() 解码 Bing 重定向链接
+      → extractSnippet() 三级降级提取摘要
+    → 客户端域过滤 (allowedDomains / blockedDomains)
+    → 返回 SearchResult[]
+```
+
+**反爬策略**：Bing 对非浏览器 UA 返回需要 JS 渲染的空页面。适配器使用完整的 Edge 浏览器请求头（包含 `Sec-Ch-Ua`、`Sec-Fetch-*` 等现代浏览器标头）确保获得完整 HTML。同时使用 `setmkt=en-US` 参数统一市场定位，避免 Bing 基于用户 IP 做区域化定向（如跳转到德语/新加坡市场导致结果不相关）。
+
+**URL 解码**：Bing 搜索结果中的 URL 为重定向格式（`bing.com/ck/a?...&u=a1aHR0cHM6Ly9...`），`resolveBingUrl()` 从 `u` 参数中 base64 解码出真实目标 URL（`a1` 前缀 = https，`a0` = http）。
+
+**摘要提取**（`extractSnippet()`）按优先级尝试三个来源：
+1. `<p class="b_lineclamp...">` — 带行截断的摘要段落
+2. `<div class="b_caption">` 内的 `<p>` — 普通摘要段落
+3. `<div class="b_caption">` 的直接文本内容 — 兜底方案
+
+| 特性 | 实现 |
+|------|------|
+| **超时** | 30 秒（`FETCH_TIMEOUT_MS`） |
+| **域过滤** | 支持 `allowedDomains` / `blockedDomains`，含子域名匹配 |
+| **进度追踪** | 发送 query_update 和 search_results_received 回调 |
+| **中止支持** | 外部 AbortSignal 传播到 axios 请求 |
+
+### WebSearchTool 统一接口
+
+`WebSearchTool`（`src/tools/WebSearchTool/WebSearchTool.ts`）是面向主循环的工具定义，所有 provider 均可使用（`isEnabled()` 始终返回 true）。它将适配器返回的 `SearchResult[]` 转换为内部 `Output` 格式，`mapToolResultToToolResultBlockParam` 将搜索结果格式化为带 markdown 超链接的文本，并附加 "REMINDER" 要求主模型在回复中包含 Sources。
+
+### WebFetch 实现机制
+
+WebFetch 是一个完整的 HTTP 客户端 + 内容处理管线：
+
+```
+调用链:
+  WebFetchTool.call({ url, prompt })
+    → getURLMarkdownContent(url)
+      → validateURL() — 长度≤2000、无用户名密码、公网域名
+      → URL_CACHE 命中检查（15 分钟 TTL LRU，50MB 上限）
+      → checkDomainBlocklist() — 调用 api.anthropic.com/api/web/domain_info 预检
+      → getWithPermittedRedirects() — axios 请求，自定义重定向处理
+        → HTML → Turndown 转 Markdown（懒加载单例，~1.4MB）
+        → 非 HTML → 原始文本
+        → 二进制（PDF 等）→ persistBinaryContent() 保存到磁盘
+    → applyPromptToMarkdown()
+      → 截断到 100K 字符
+      → queryHaiku() 用小模型按 prompt 提取信息
+    → 返回处理后的结果
+```
+
+安全防护多层设计：
+
+| 层级 | 机制 | 说明 |
+|------|------|------|
+| **域名预检** | `checkDomainBlocklist()` | 调用 `api.anthropic.com/api/web/domain_info?domain=…`，5 分钟缓存 |
+| **重定向控制** | `isPermittedRedirect()` | 仅允许同 host（±www）重定向，跨域重定向返回提示让 AI 重新调用 |
+| **重定向深度** | `MAX_REDIRECTS = 10` | 防止重定向循环无限挂起 |
+| **内容大小** | `MAX_HTTP_CONTENT_LENGTH = 10MB` | 单次响应上限 |
+| **请求超时** | `FETCH_TIMEOUT_MS = 60s` | 主请求超时；域名预检 10s |
+| **URL 验证** | `validateURL()` | 长度、协议、用户名密码、公网域名检查 |
+| **egress 检测** | `X-Proxy-Error: blocked-by-allowlist` | 检测企业代理拦截 |
+
+预批准域名（`src/tools/WebFetchTool/preapproved.ts`）：
+
+用户无需手动授权即可抓取的域名列表，包含 ~90 个主流技术文档站点（MDN、Python docs、React docs、AWS docs 等）。列表分为 hostname-only 和 path-prefix 两类，查找复杂度 O(1)。
+
+对预批准域名，WebFetch 跳过 Haiku 摘要步骤（如果内容是 Markdown 且 < 100K 字符），直接返回原文——因为技术文档本身的结构化程度已经足够好。
+
+权限模型方面，WebFetch 按 hostname 生成 `domain:xxx` 规则匹配用户的 allow/deny/ask 规则，支持用户对特定域名配置永久允许或拒绝。
+
 ### ripgrep 的流式输出
 
 对于交互式场景（如 QuickOpen），ripgrep 支持**流式输出**（`ripGrepStream()`）：
 
@@ -67,6 +67,7 @@
     "@aws-sdk/credential-provider-node": "^3.972.28",
     "@aws-sdk/credential-providers": "^3.1020.0",
     "@azure/identity": "^4.13.1",
+    "@biomejs/biome": "^2.4.10",
     "@commander-js/extra-typings": "^14.0.0",
     "@growthbook/growthbook": "^1.6.5",
     "@modelcontextprotocol/sdk": "^1.29.0",
@@ -90,6 +91,13 @@
     "@opentelemetry/semantic-conventions": "^1.40.0",
     "@smithy/core": "^3.23.13",
     "@smithy/node-http-handler": "^4.5.1",
+    "@types/bun": "^1.3.11",
+    "@types/cacache": "^20.0.1",
+    "@types/plist": "^3.0.5",
+    "@types/react": "^19.2.14",
+    "@types/react-reconciler": "^0.33.0",
+    "@types/sharp": "^0.32.0",
+    "@types/turndown": "^5.0.6",
     "ajv": "^8.18.0",
     "asciichart": "^1.5.25",
     "audio-capture-napi": "workspace:*",
@@ -112,12 +120,14 @@
     "fuse.js": "^7.1.0",
     "get-east-asian-width": "^1.5.0",
     "google-auth-library": "^10.6.2",
+    "he": "^1.2.0",
     "highlight.js": "^11.11.1",
     "https-proxy-agent": "^8.0.0",
     "ignore": "^7.0.5",
     "image-processor-napi": "workspace:*",
     "indent-string": "^5.0.0",
     "jsonc-parser": "^3.3.1",
+    "knip": "^6.1.1",
     "lodash-es": "^4.17.23",
     "lru-cache": "^11.2.7",
     "marked": "^17.0.5",
@@ -140,6 +150,7 @@
     "tree-kill": "^1.2.2",
     "turndown": "^7.2.2",
     "type-fest": "^5.5.0",
+    "typescript": "^6.0.2",
     "undici": "^7.24.6",
     "url-handler-napi": "workspace:*",
     "usehooks-ts": "^3.1.1",
@@ -150,16 +161,6 @@
     "ws": "^8.20.0",
     "xss": "^1.0.15",
     "yaml": "^2.8.3",
-    "zod": "^4.3.6",
-    "@biomejs/biome": "^2.4.10",
-    "@types/bun": "^1.3.11",
-    "@types/cacache": "^20.0.1",
-    "@types/plist": "^3.0.5",
-    "@types/react": "^19.2.14",
-    "@types/react-reconciler": "^0.33.0",
-    "@types/sharp": "^0.32.0",
-    "@types/turndown": "^5.0.6",
-    "knip": "^6.1.1",
-    "typescript": "^6.0.2"
+    "zod": "^4.3.6"
   }
 }
@@ -384,7 +384,7 @@ export async function getURLMarkdownContent(
     // This is for enterprise customers with restrictive security policies
     // that prevent outbound connections to claude.ai
     const settings = getSettings_DEPRECATED()
-    if (!settings.skipWebFetchPreflight) {
+    if (settings.skipWebFetchPreflight === false) {
       const checkResult = await checkDomainBlocklist(hostname)
       switch (checkResult.status) {
         case 'allowed':