Skip to content

Commit fd6f0e0

Browse files
committed
docs(ai):AI 应用评测体系
1 parent debb2e3 commit fd6f0e0

4 files changed

Lines changed: 763 additions & 1 deletion

File tree

docs/.vuepress/sidebar/ai.ts

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -27,7 +27,7 @@ export const ai = arraySidebar([
2727
{ text: "万字详解 Agent Skills", link: "skills" },
2828
{ text: "万字拆解 MCP 协议", link: "mcp" },
2929
{ text: "Harness Engineering 详解", link: "harness-engineering" },
30-
{ text: "AI 工作流中详解", link: "workflow-graph-loop" },
30+
{ text: "AI 工作流详解", link: "workflow-graph-loop" },
3131
],
3232
},
3333
{

docs/ai/README.md

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -38,6 +38,8 @@ head:
3838

3939
[《大模型结构化输出详解》](./llm-basis/structured-output-function-calling.md)深入拆解 JSON Schema、Function Calling、Tool Calling 与 MCP 的底层链路,结合 Java 后端示例讲清楚 Schema 设计、服务端校验、工具分发和安全治理。
4040

41+
有了调用链路和结构化输出基础,还有一个问题没有解决:怎么知道你的 AI 应用到底好不好?[《AI 应用评测体系:从 Golden Set 构建到线上灰度闭环》](./llm-basis/llm-evaluation.md)系统拆解了评测的完整闭环:Golden Set 怎么构建、LLM-as-Judge 的三类偏差怎么管控、RAG 的检索指标和生成指标如何分段评测、Agent 轨迹准确率如何衡量、离线评测到线上灰度怎么串成一条发布流水线。
42+
4143
### 2. AI Agent 知识体系
4244

4345
AI Agent 是当下最热的方向,但网上的资料要么太浅要么太散,很难串起来。[《一文搞懂 AI Agent 核心概念》](./agent/agent-basis.md)把 Agent 从 2022 到 2025 年的六代进化史梳理了一遍,讲清楚 Agent 和传统编程、Workflow 的本质区别,以及 Agent Loop、Context Engineering、Tools 注册这些核心概念。
@@ -90,6 +92,7 @@ AI 编程相关面试题详见 [AI 编程](../ai-coding/) 专栏。
9092
- [万字拆解 LLM 运行机制:Token、上下文与采样参数](./llm-basis/llm-operation-mechanism.md) - 深入剖析大模型底层原理,把 Token、上下文窗口、Temperature 等概念还原为清晰、可控的工程概念
9193
- [大模型 API 调用工程实践:流式输出、重试、限流与结构化返回](./llm-basis/llm-api-engineering.md) - 系统拆解 AI 应用调用大模型 API 的生产链路,覆盖流式输出、重试、限流、结构化返回与 Java 后端落地
9294
- [大模型结构化输出详解:JSON Schema、Function Calling 与工具调用](./llm-basis/structured-output-function-calling.md) - 深入拆解 JSON Schema、Function Calling、Tool Calling 与 MCP 的底层链路,结合 Java 后端示例讲清楚 Schema 设计、服务端校验、工具分发和安全治理
95+
- [AI 应用评测体系:从 Golden Set 构建到线上灰度闭环](./llm-basis/llm-evaluation.md) - 系统拆解 AI 应用评测完整闭环,覆盖 Golden Set 构建、LLM-as-Judge 偏差控制、RAG/Agent/结构化输出分领域指标体系、Trace 回放与 CI 自动回归落地
9396

9497
### AI Agent
9598

docs/ai/TODO.md

Lines changed: 58 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,58 @@
1+
### P0 · 大模型基础补全(llm-basis)
2+
3+
| 文件名 | 标题 | 核心切入 |
4+
| ------------------------ | -------------------------------------------------- | ---------------------------------------------------------------------------------------------------------- |
5+
| `llm-model-selection.md` | 大模型选型指南:通用、推理、代码、多模态模型怎么选 | 不同能力维度对比、Router / fallback / 多模型编排、选型表(客服 / RAG / 代码 / 语音 Agent) |
6+
| `llm-evaluation.md` | AI 应用评测体系:离线评测、Trace 回放到线上灰度 | 为什么公开 benchmark 不够、Golden Set 构建、LLM-as-Judge、RAG / Agent / 工具调用分别怎么评测、接入 CI 回归 |
7+
8+
### P0 · 系统设计补全(system-design)
9+
10+
| 文件名 | 标题 | 核心切入 |
11+
| --------------------- | ------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------ |
12+
| `llm-gateway.md` | 大模型网关深度设计:多模型路由、限流、降级与成本控制 | 为什么需要 LLM Gateway、多供应商适配、fallback / 熔断、Token 预算与用户配额、日志脱敏与审计 |
13+
| `ai-observability.md` | AI 可观测性与 Trace:为什么 Agent 失败不能只看最终答案 | 一次请求里模型调用 / 检索 / 工具调用 / 上下文拼装 / 重试 / fallback 全链路 span、Langfuse / OpenTelemetry / 自建审计表、Java 后端落地结构 |
14+
| `llm-security.md` | LLM 应用安全实战:Prompt 注入、工具越权与数据泄露防护 | 从传统"输入不可信"切入 AI 新攻击面、Prompt Injection / Indirect Injection、工具权限边界、MCP Server 风险、沙箱与最小权限、OWASP LLM Top 10 |
15+
16+
### P1 · Agent 工程短板补全(agent)
17+
18+
| 文件名 | 标题 | 核心切入 |
19+
| --------------------- | --------------------------------------------------------- | ----------------------------------------------------------- |
20+
| `tool-calling.md` | Agent 工具调用详解:Function Calling、MCP Tool 与权限控制 | 可与 mcp.md、structured-output-function-calling.md 互相引用 |
21+
| `agent-evaluation.md` | Agent 评测与调试:如何判断 Agent 真的完成了任务 | 工具调用成功率、幻觉率、格式遵循率、延迟成本 |
22+
| `multi-agent.md` | 多 Agent 协作:Sub-Agent、任务拆分与上下文隔离 | 面试高频:Agent 为什么不稳定、如何拆分任务、上下文怎么隔离 |
23+
24+
### P1 · RAG 深水区扩展(rag)
25+
26+
| 文件名 | 标题 | 核心切入 |
27+
| ----------------------- | ------------------------------------------------------------ | ---------------------------------------------------------------- |
28+
| `embedding-reranker.md` | Embedding 与 Reranker 模型选型:RAG 效果差未必是向量库的问题 | 不同 Embedding 模型能力对比、Reranker 原理、选型场景 |
29+
| `rag-multimodal.md` | 多模态 RAG:PDF 表格、图片、截图与视频的知识库处理 | 企业知识库最难处理的是 PDF 表格和截图、OCR、图表理解、多模态检索 |
30+
| `finetune-vs-rag.md` | 微调、蒸馏与 RAG 怎么选:什么时候该做数据训练? | SFT / LoRA / DPO / RFT 原理对比,什么时候调 Prompt 已经不够了 |
31+
32+
### P2 · 框架专题(framework)
33+
34+
| 文件名 | 标题 | 写作顺序 |
35+
| -------------------------- | ---------------------------------------------------------------------- | ------------------------------------------ |
36+
| `spring-ai.md` | Spring AI 入门与实战:Java 后端如何接入大模型 | 先写,贴合 JavaGuide 读者群体 |
37+
| `langchain4j.md` | LangChain4j 实战:Java 应用如何构建 RAG 和 Agent | 第二篇 |
38+
| `ai-workflow-framework.md` | LangGraph / Spring AI Alibaba Graph:AI Workflow、Graph、Loop 如何落地 | 第三篇,与 workflow-graph-loop.md 互相引用 |
39+
40+
### P2 · MCP 进阶与合规(agent / system-design)
41+
42+
| 文件名 | 标题 | 核心切入 |
43+
| ------------------ | --------------------------------------------------------------- | ----------------------------------- |
44+
| `mcp-advanced.md` | MCP 生产安全与高级能力:Roots、Sampling、Elicitation 与权限边界 | MCP Server 不是工具集合而是新攻击面 |
45+
| `ai-compliance.md` | AI 合规与隐私治理:AI 应用上线前安全、审计、隐私要查什么 | 企业落地越来越常见,面试频率会上升 |
46+
47+
---
48+
49+
建议下一步实际动手顺序:
50+
51+
1. `llm-evaluation.md` — 能把整个专栏拉到更工程化的层次,RAG / Agent / 工具调用评测的总纲
52+
2. `llm-security.md` — JavaGuide 读者对安全话题接受度高,从传统 Web 安全切入非常顺滑
53+
3. `ai-observability.md` — 能和 harness-engineering.md、rag-optimization.md 自然接上,形成"调 → 测 → 观测"闭环
54+
4. `llm-gateway.md` — 面试高频,和 ai-application-architecture.md 配合形成系统设计系列
55+
56+
framework 那三篇建议 P0 全部写完后再启动,届时 llm-basis 和 system-design 已经构成底座,框架文章直接引用即可,不会显得孤立。
57+
58+
另外,README.md 里目前漏掉了 `workflow-graph-loop.md``ai-voice.md``ai-application-architecture.md` 的入口,需要在下次整理版本前补进文章列表。

0 commit comments

Comments
 (0)