docs(ai)：AI 应用评测体系

Snailclimb · Snailclimb · commit fd6f0e0e5f56 · 2026-05-14T14:30:08.000+08:00
diff --git a/docs/.vuepress/sidebar/ai.ts b/docs/.vuepress/sidebar/ai.ts
@@ -27,7 +27,7 @@ export const ai = arraySidebar([
       { text: "万字详解 Agent Skills", link: "skills" },
       { text: "万字拆解 MCP 协议", link: "mcp" },
       { text: "Harness Engineering 详解", link: "harness-engineering" },
-      { text: "AI 工作流中详解", link: "workflow-graph-loop" },
+      { text: "AI 工作流详解", link: "workflow-graph-loop" },
     ],
   },
   {
diff --git a/docs/ai/README.md b/docs/ai/README.md
@@ -38,6 +38,8 @@ head:
 
 [《大模型结构化输出详解》](./llm-basis/structured-output-function-calling.md)深入拆解 JSON Schema、Function Calling、Tool Calling 与 MCP 的底层链路，结合 Java 后端示例讲清楚 Schema 设计、服务端校验、工具分发和安全治理。
 
+有了调用链路和结构化输出基础，还有一个问题没有解决：怎么知道你的 AI 应用到底好不好？[《AI 应用评测体系：从 Golden Set 构建到线上灰度闭环》](./llm-basis/llm-evaluation.md)系统拆解了评测的完整闭环：Golden Set 怎么构建、LLM-as-Judge 的三类偏差怎么管控、RAG 的检索指标和生成指标如何分段评测、Agent 轨迹准确率如何衡量、离线评测到线上灰度怎么串成一条发布流水线。
+
 ### 2. AI Agent 知识体系
 
 AI Agent 是当下最热的方向，但网上的资料要么太浅要么太散，很难串起来。[《一文搞懂 AI Agent 核心概念》](./agent/agent-basis.md)把 Agent 从 2022 到 2025 年的六代进化史梳理了一遍，讲清楚 Agent 和传统编程、Workflow 的本质区别，以及 Agent Loop、Context Engineering、Tools 注册这些核心概念。
@@ -90,6 +92,7 @@ AI 编程相关面试题详见 [AI 编程](../ai-coding/) 专栏。
 - [万字拆解 LLM 运行机制：Token、上下文与采样参数](./llm-basis/llm-operation-mechanism.md) - 深入剖析大模型底层原理，把 Token、上下文窗口、Temperature 等概念还原为清晰、可控的工程概念
 - [大模型 API 调用工程实践：流式输出、重试、限流与结构化返回](./llm-basis/llm-api-engineering.md) - 系统拆解 AI 应用调用大模型 API 的生产链路，覆盖流式输出、重试、限流、结构化返回与 Java 后端落地
 - [大模型结构化输出详解：JSON Schema、Function Calling 与工具调用](./llm-basis/structured-output-function-calling.md) - 深入拆解 JSON Schema、Function Calling、Tool Calling 与 MCP 的底层链路，结合 Java 后端示例讲清楚 Schema 设计、服务端校验、工具分发和安全治理
+- [AI 应用评测体系：从 Golden Set 构建到线上灰度闭环](./llm-basis/llm-evaluation.md) - 系统拆解 AI 应用评测完整闭环，覆盖 Golden Set 构建、LLM-as-Judge 偏差控制、RAG/Agent/结构化输出分领域指标体系、Trace 回放与 CI 自动回归落地
 
 ### AI Agent
 
diff --git a/docs/ai/TODO.md b/docs/ai/TODO.md
@@ -0,0 +1,58 @@
+### P0 · 大模型基础补全（llm-basis）
+
+| 文件名                   | 标题                                               | 核心切入                                                                                                   |
+| ------------------------ | -------------------------------------------------- | ---------------------------------------------------------------------------------------------------------- |
+| `llm-model-selection.md` | 大模型选型指南：通用、推理、代码、多模态模型怎么选 | 不同能力维度对比、Router / fallback / 多模型编排、选型表（客服 / RAG / 代码 / 语音 Agent）                 |
+| `llm-evaluation.md`      | AI 应用评测体系：离线评测、Trace 回放到线上灰度    | 为什么公开 benchmark 不够、Golden Set 构建、LLM-as-Judge、RAG / Agent / 工具调用分别怎么评测、接入 CI 回归 |
+
+### P0 · 系统设计补全（system-design）
+
+| 文件名                | 标题                                                   | 核心切入                                                                                                                                   |
+| --------------------- | ------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------ |
+| `llm-gateway.md`      | 大模型网关深度设计：多模型路由、限流、降级与成本控制   | 为什么需要 LLM Gateway、多供应商适配、fallback / 熔断、Token 预算与用户配额、日志脱敏与审计                                                |
+| `ai-observability.md` | AI 可观测性与 Trace：为什么 Agent 失败不能只看最终答案 | 一次请求里模型调用 / 检索 / 工具调用 / 上下文拼装 / 重试 / fallback 全链路 span、Langfuse / OpenTelemetry / 自建审计表、Java 后端落地结构  |
+| `llm-security.md`     | LLM 应用安全实战：Prompt 注入、工具越权与数据泄露防护  | 从传统"输入不可信"切入 AI 新攻击面、Prompt Injection / Indirect Injection、工具权限边界、MCP Server 风险、沙箱与最小权限、OWASP LLM Top 10 |
+
+### P1 · Agent 工程短板补全（agent）
+
+| 文件名                | 标题                                                      | 核心切入                                                    |
+| --------------------- | --------------------------------------------------------- | ----------------------------------------------------------- |
+| `tool-calling.md`     | Agent 工具调用详解：Function Calling、MCP Tool 与权限控制 | 可与 mcp.md、structured-output-function-calling.md 互相引用 |
+| `agent-evaluation.md` | Agent 评测与调试：如何判断 Agent 真的完成了任务           | 工具调用成功率、幻觉率、格式遵循率、延迟成本                |
+| `multi-agent.md`      | 多 Agent 协作：Sub-Agent、任务拆分与上下文隔离            | 面试高频：Agent 为什么不稳定、如何拆分任务、上下文怎么隔离  |
+
+### P1 · RAG 深水区扩展（rag）
+
+| 文件名                  | 标题                                                         | 核心切入                                                         |
+| ----------------------- | ------------------------------------------------------------ | ---------------------------------------------------------------- |
+| `embedding-reranker.md` | Embedding 与 Reranker 模型选型：RAG 效果差未必是向量库的问题 | 不同 Embedding 模型能力对比、Reranker 原理、选型场景             |
+| `rag-multimodal.md`     | 多模态 RAG：PDF 表格、图片、截图与视频的知识库处理           | 企业知识库最难处理的是 PDF 表格和截图、OCR、图表理解、多模态检索 |
+| `finetune-vs-rag.md`    | 微调、蒸馏与 RAG 怎么选：什么时候该做数据训练？              | SFT / LoRA / DPO / RFT 原理对比，什么时候调 Prompt 已经不够了    |
+
+### P2 · 框架专题（framework）
+
+| 文件名                     | 标题                                                                   | 写作顺序                                   |
+| -------------------------- | ---------------------------------------------------------------------- | ------------------------------------------ |
+| `spring-ai.md`             | Spring AI 入门与实战：Java 后端如何接入大模型                          | 先写，贴合 JavaGuide 读者群体              |
+| `langchain4j.md`           | LangChain4j 实战：Java 应用如何构建 RAG 和 Agent                       | 第二篇                                     |
+| `ai-workflow-framework.md` | LangGraph / Spring AI Alibaba Graph：AI Workflow、Graph、Loop 如何落地 | 第三篇，与 workflow-graph-loop.md 互相引用 |
+
+### P2 · MCP 进阶与合规（agent / system-design）
+
+| 文件名             | 标题                                                            | 核心切入                            |
+| ------------------ | --------------------------------------------------------------- | ----------------------------------- |
+| `mcp-advanced.md`  | MCP 生产安全与高级能力：Roots、Sampling、Elicitation 与权限边界 | MCP Server 不是工具集合而是新攻击面 |
+| `ai-compliance.md` | AI 合规与隐私治理：AI 应用上线前安全、审计、隐私要查什么        | 企业落地越来越常见，面试频率会上升  |
+
+---
+
+建议下一步实际动手顺序：
+
+1. `llm-evaluation.md` — 能把整个专栏拉到更工程化的层次，RAG / Agent / 工具调用评测的总纲
+2. `llm-security.md` — JavaGuide 读者对安全话题接受度高，从传统 Web 安全切入非常顺滑
+3. `ai-observability.md` — 能和 harness-engineering.md、rag-optimization.md 自然接上，形成"调 → 测 → 观测"闭环
+4. `llm-gateway.md` — 面试高频，和 ai-application-architecture.md 配合形成系统设计系列
+
+framework 那三篇建议 P0 全部写完后再启动，届时 llm-basis 和 system-design 已经构成底座，框架文章直接引用即可，不会显得孤立。
+
+另外，README.md 里目前漏掉了 `workflow-graph-loop.md`、`ai-voice.md`、`ai-application-architecture.md` 的入口，需要在下次整理版本前补进文章列表。
diff --git a/docs/ai/llm-basis/llm-evaluation.md b/docs/ai/llm-basis/llm-evaluation.md

Original file line number	Diff line number	Diff line change
`@@ -27,7 +27,7 @@ export const ai = arraySidebar([`
`27`	`27`	`{ text: "万字详解 Agent Skills", link: "skills" },`
`28`	`28`	`{ text: "万字拆解 MCP 协议", link: "mcp" },`
`29`	`29`	`{ text: "Harness Engineering 详解", link: "harness-engineering" },`
`30`		`- { text: "AI 工作流中详解", link: "workflow-graph-loop" },`
	`30`	`+ { text: "AI 工作流详解", link: "workflow-graph-loop" },`
`31`	`31`	`],`
`32`	`32`	`},`
`33`	`33`	`{`