Skip to content

Commit 1d55964

Browse files
committed
Refresh context guide facts
1 parent e9795b2 commit 1d55964

21 files changed

Lines changed: 170 additions & 150 deletions

.github/workflows/auto-release.yml

Lines changed: 9 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -24,13 +24,16 @@ jobs:
2424
sudo apt-get update
2525
sudo apt-get install -y fonts-noto-cjk fonts-noto-cjk-extra
2626
27-
- name: Install mdpress (latest)
27+
- name: Install mdpress 0.7.10
28+
env:
29+
MDPRESS_VERSION: "0.7.10"
30+
MDPRESS_SHA256: "17e53e455996940bbbce64c69c43b3fb543f1501e03b74cf0434074efebd2db4"
2831
run: |
29-
LATEST_TAG=$(curl -fsSL -H "Accept: application/vnd.github+json" -H "Authorization: Bearer ${{ github.token }}" https://api.github.com/repos/yeasy/mdpress/releases/latest | jq -r .tag_name)
30-
VERSION="${LATEST_TAG#v}"
31-
echo "Installing mdpress $VERSION"
32-
curl -fsSL "https://github.com/yeasy/mdPress/releases/download/$LATEST_TAG/mdpress_${VERSION}_linux_amd64.tar.gz" -o /tmp/mdpress.tar.gz
33-
tar xzf /tmp/mdpress.tar.gz -C /tmp mdpress
32+
archive="/tmp/mdpress_${MDPRESS_VERSION}_linux_amd64.tar.gz"
33+
echo "Installing mdpress ${MDPRESS_VERSION}"
34+
curl -fsSL "https://github.com/yeasy/mdPress/releases/download/v${MDPRESS_VERSION}/mdpress_${MDPRESS_VERSION}_linux_amd64.tar.gz" -o "$archive"
35+
echo "${MDPRESS_SHA256} $archive" | sha256sum -c -
36+
tar xzf "$archive" -C /tmp mdpress
3437
sudo mv /tmp/mdpress /usr/local/bin/
3538
mdpress --version
3639

.github/workflows/ci.yaml

Lines changed: 9 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -24,13 +24,16 @@ jobs:
2424
run: |
2525
sudo apt-get update
2626
sudo apt-get install -y fonts-noto-cjk fonts-noto-cjk-extra
27-
- name: Install mdpress (latest)
27+
- name: Install mdpress 0.7.10
28+
env:
29+
MDPRESS_VERSION: "0.7.10"
30+
MDPRESS_SHA256: "17e53e455996940bbbce64c69c43b3fb543f1501e03b74cf0434074efebd2db4"
2831
run: |
29-
LATEST_TAG=$(curl -fsSL -H "Accept: application/vnd.github+json" -H "Authorization: Bearer ${{ github.token }}" https://api.github.com/repos/yeasy/mdpress/releases/latest | jq -r .tag_name)
30-
VERSION="${LATEST_TAG#v}"
31-
echo "Installing mdpress $VERSION"
32-
curl -fsSL "https://github.com/yeasy/mdPress/releases/download/$LATEST_TAG/mdpress_${VERSION}_linux_amd64.tar.gz" -o /tmp/mdpress.tar.gz
33-
tar xzf /tmp/mdpress.tar.gz -C /tmp mdpress
32+
archive="/tmp/mdpress_${MDPRESS_VERSION}_linux_amd64.tar.gz"
33+
echo "Installing mdpress ${MDPRESS_VERSION}"
34+
curl -fsSL "https://github.com/yeasy/mdPress/releases/download/v${MDPRESS_VERSION}/mdpress_${MDPRESS_VERSION}_linux_amd64.tar.gz" -o "$archive"
35+
echo "${MDPRESS_SHA256} $archive" | sha256sum -c -
36+
tar xzf "$archive" -C /tmp mdpress
3437
sudo mv /tmp/mdpress /usr/local/bin/
3538
mdpress --version
3639
- name: Build PDF

.github/workflows/dependabot-automerge.yml

Lines changed: 25 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -4,6 +4,7 @@ on: pull_request
44
permissions:
55
contents: write
66
pull-requests: write
7+
checks: read
78

89
jobs:
910
dependabot:
@@ -12,15 +13,36 @@ jobs:
1213
steps:
1314
- name: Dependabot metadata
1415
id: metadata
15-
uses: dependabot/fetch-metadata@v2
16+
uses: dependabot/fetch-metadata@25dd0e34f4fe68f24cc83900b1fe3fe149efef98 # v3
1617
with:
1718
github-token: "${{ secrets.GITHUB_TOKEN }}"
18-
- name: Approve a PR
19+
20+
- name: Confirm required checks are configured
21+
if: >
22+
steps.metadata.outputs.package-ecosystem == 'github_actions' &&
23+
contains(fromJSON('["version-update:semver-patch","version-update:semver-minor"]'), steps.metadata.outputs.update-type)
24+
run: |
25+
REQUIRED=$(gh api "repos/${GITHUB_REPOSITORY}/branches/${{ github.event.pull_request.base.ref }}/protection/required_status_checks" --jq '((.contexts // []) | length) + ((.checks // []) | length)' 2>/dev/null || echo 0)
26+
if [ "$REQUIRED" -eq 0 ]; then
27+
echo "No required status checks configured on the base branch; refusing Dependabot auto-merge."
28+
exit 1
29+
fi
30+
env:
31+
GH_TOKEN: ${{secrets.GITHUB_TOKEN}}
32+
33+
- name: Approve low-risk Dependabot PR
34+
if: >
35+
steps.metadata.outputs.package-ecosystem == 'github_actions' &&
36+
contains(fromJSON('["version-update:semver-patch","version-update:semver-minor"]'), steps.metadata.outputs.update-type)
1937
run: gh pr review --approve "$PR_URL"
2038
env:
2139
PR_URL: ${{github.event.pull_request.html_url}}
2240
GH_TOKEN: ${{secrets.GITHUB_TOKEN}}
23-
- name: Enable auto-merge for Dependabot PRs
41+
42+
- name: Enable auto-merge for low-risk Dependabot PRs
43+
if: >
44+
steps.metadata.outputs.package-ecosystem == 'github_actions' &&
45+
contains(fromJSON('["version-update:semver-patch","version-update:semver-minor"]'), steps.metadata.outputs.update-type)
2446
run: gh pr merge --auto --merge "$PR_URL"
2547
env:
2648
PR_URL: ${{github.event.pull_request.html_url}}

.github/workflows/preview-pdf.yml

Lines changed: 9 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -31,13 +31,16 @@ jobs:
3131
sudo apt-get update
3232
sudo apt-get install -y fonts-noto-cjk fonts-noto-cjk-extra
3333
34-
- name: Install mdpress (latest)
34+
- name: Install mdpress 0.7.10
35+
env:
36+
MDPRESS_VERSION: "0.7.10"
37+
MDPRESS_SHA256: "17e53e455996940bbbce64c69c43b3fb543f1501e03b74cf0434074efebd2db4"
3538
run: |
36-
LATEST_TAG=$(curl -fsSL -H "Accept: application/vnd.github+json" -H "Authorization: Bearer ${{ github.token }}" https://api.github.com/repos/yeasy/mdpress/releases/latest | jq -r .tag_name)
37-
VERSION="${LATEST_TAG#v}"
38-
echo "Installing mdpress $VERSION"
39-
curl -fsSL "https://github.com/yeasy/mdPress/releases/download/$LATEST_TAG/mdpress_${VERSION}_linux_amd64.tar.gz" -o /tmp/mdpress.tar.gz
40-
tar xzf /tmp/mdpress.tar.gz -C /tmp mdpress
39+
archive="/tmp/mdpress_${MDPRESS_VERSION}_linux_amd64.tar.gz"
40+
echo "Installing mdpress ${MDPRESS_VERSION}"
41+
curl -fsSL "https://github.com/yeasy/mdPress/releases/download/v${MDPRESS_VERSION}/mdpress_${MDPRESS_VERSION}_linux_amd64.tar.gz" -o "$archive"
42+
echo "${MDPRESS_SHA256} $archive" | sha256sum -c -
43+
tar xzf "$archive" -C /tmp mdpress
4144
sudo mv /tmp/mdpress /usr/local/bin/
4245
mdpress --version
4346

02_llm_basics/2.1_how_llm_works.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -47,7 +47,7 @@
4747

4848
大模型的发展经历了多个重要阶段,呈现加速演进的特点:
4949

50-
**OpenAI GPT 系列**:从 GPT-3(2020年,175B 参数,4K 上下文)→ GPT-3.5(2022年,改进推理与指令遵循)→ GPT-4(2023年3月,多模态能力,8K/32K 上下文)→ GPT-4 Turbo(2023年11月,128K 上下文)→ GPT-5(2025年8月,400K 上下文)→ GPT-5.1-5.4 系列(2025–2026年迭代5.4 达到 1M 上下文)。
50+
**OpenAI GPT 系列**:从 GPT-3(2020年,175B 参数,4K 上下文)→ GPT-3.5(2022年,改进推理与指令遵循)→ GPT-4(2023年3月,多模态能力,8K/32K 上下文)→ GPT-4 Turbo(2023年11月,128K 上下文)→ GPT-5 系列(2025–2026年迭代;截至 2026-05-17,官方模型页列出的 GPT-5.4/5.5 档位已达到 1M 上下文)。
5151

5252
**Meta LLaMA 系列**:从 LLaMA(2023年,开源基座)→ LLaMA 2(2023年7月,70B 增强)→ LLaMA 3(2024年,改进指令遵循)→ Llama 4 Scout(2025年4月,10M 超长上下文)与 Llama 4 Maverick(2025年4月,1M 上下文高性能)。
5353

02_llm_basics/2.3_tokens.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -111,7 +111,7 @@ graph TB
111111
|----------|------|
112112
| 输入 Token | 按输入的上下文 Token 数量计费 |
113113
| 输出 Token | 按生成的 Token 数量计费,通常比输入贵 2-4 倍 |
114-
| 缓存 Token | Prompt Caching 可节省 50-90% 的输入成本 |
114+
| 缓存 Token | Prompt Caching 的折扣取决于平台价格、缓存写入/读取规则和命中率 |
115115
| 模型层级 | 同系列中更强的模型价格更高 |
116116

117117
> **注意**:Token 价格变化频繁,建议查阅各平台最新定价:

02_llm_basics/2.4_model_comparison.md

Lines changed: 12 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -2,29 +2,17 @@
22

33
### 2.4.1 主流模型概览
44

5-
模型参数变化非常快。以下内容是 **能力分层示意**更新快照:2026-05-16),用于帮助理解选型思路,而非实时参数公告。请以各厂商官网为准
5+
模型参数变化非常快。以下内容是 **能力分层示意**官方核验日期:2026-05-17),用于帮助理解选型思路,而非实时参数公告。生产决策必须以各厂商官网模型页、价格页和实际账号可用区为准
66

7-
| 模型系列 | 常见上下文窗口(官方可能随版本调整) | 典型优势 | 典型取舍 |
7+
| 模型系列 | 官方快照中的代表能力 | 典型优势 | 典型取舍 |
88
|------|--------|------------|------------|
9-
| OpenAI GPT 系列 | 128K–1M(GPT-5 系列 最高 1M) | 通用推理与工具生态成熟 | 成本与延迟需按档位权衡 |
10-
| — GPT-5(2025年8月) | 400K | 强大推理能力 | 需按版本评估 |
11-
| — GPT-5.1-5.4(2025–2026年迭代) | 128K–1M(5.4 达到 1M) | 性能优化与稳定性 | 版本差异需关注 |
12-
| — GPT-5.5(2026年4月) | 1M | 最新旗舰,编码与深度研究能力提升 | $5/$30;相比 5.4 更智能但 token 单价翻倍 |
13-
| Anthropic Claude 系列 | 200K–1M | 长文理解、代码与写作稳定性 | 峰值吞吐与成本需按场景评估 |
14-
| — Claude Opus 4.7(2026年4月) | 1M | 强化推理与 SWE、视觉精度提升 | 基础价 $5/$25;无长上下文溢价;新 tokenizer 同文本 token 数约 1.0–1.35× |
15-
| — Claude Opus 4.6(2026年2月) | 1M | 最强推理与分析能力 | 基础价 $5/$25;无长上下文溢价 |
16-
| — Claude Sonnet 4.6(2026年2月) | 1M | 高性能与成本均衡 | 基础价 $3/$15;无长上下文溢价 |
17-
| — Claude Haiku 4.5(2025年10月) | 200K | 轻量快速推理 | $1/$5 per 1M tokens |
18-
| Google Gemini 系列 | 1M | 多模态与长上下文任务 | 生态与部署模式需结合现有栈 |
19-
| — Gemini 3 Pro(2025年11月) | 1M | 多模态与推理 | 需结合现有栈评估 |
20-
| — Gemini 3.1 Pro(2026年2月) | 1M | 优化推理与工具集成 | 需结合现有栈评估 |
21-
| Meta Llama 系列 | 128K–10M(开源) | 私有化与可定制能力 | 需要较强工程集成能力 |
22-
| — Llama 4 Scout(2025年4月) | 10M | 超长上下文 | 开源,需自行部署 |
23-
| — Llama 4 Maverick(2025年4月) | 1M | 高能力推理 | 开源,需自行部署 |
24-
| Qwen 系列 | 32K–1M | 中文与多语言表现、开源适配 | 需结合部署环境做压测 |
25-
| DeepSeek 系列 | 64K–128K | 推理性价比与工程落地速度 | 需关注版本变更与兼容策略 |
26-
27-
*注:生产决策请以厂商官网模型页和账单页为准,并在方案文档中记录“查询日期 + 具体版本 + 价格页链接”。上下文窗口、价格、工具能力和区域可用性属于高波动信息,应在每次上线或迁移前重新核验。*
9+
| OpenAI GPT 系列 | 官方模型页显示 `gpt-5.5``gpt-5.4` 为 1M 上下文,`gpt-5.4-mini` 为 400K;均通过 Responses API 和 SDK 使用 | 通用推理、代码与工具生态成熟 | 价格按短/长上下文、缓存、区域处理和服务层级变化 |
10+
| Anthropic Claude 系列 | 官方文档显示 Claude Opus 4.7、Opus 4.6、Sonnet 4.6 为 1M 上下文,Haiku 4.5 为 200K;Opus 4.7 tokenizer 对同一文本可能多用至多 35% tokens | 长文理解、代码与写作稳定性 | 峰值吞吐、区域路由、缓存和批处理价格需按场景评估 |
11+
| Google Gemini 系列 | Gemini API 模型页同时列出稳定、预览和已弃用模型;页面显示 Gemini 3 Pro Preview 已关闭,应以具体模型页的 token limits 为准 | 多模态与长上下文任务 | 预览/弃用状态变化快,部署前需确认可用模型字符串 |
12+
| Meta Llama 系列 | Meta 2025-04-05 官方博客称 Llama 4 Scout 支持 10M 输入上下文;实际托管服务可能给出更低上限 | 私有化与可定制能力 | 需要自行评估部署、显存、量化和服务商限制 |
13+
| Qwen / DeepSeek 等开源或开放 API 系列 | 上下文窗口、价格和工具能力随具体模型、服务商和部署方式变化 | 中文、多语言或推理性价比突出 | 需结合官方文档、模型卡和本地压测确认 |
14+
15+
*注:价格、上下文窗口、工具能力、区域可用性和弃用状态都属于高波动信息。方案文档应记录“查询日期 + 具体模型 ID + 模型页/价格页链接”,并在上线或迁移前重新核验。*
2816

2917
![模型选型象限图](../_images/ch02-model-selection-quadrant.svg)
3018

@@ -57,7 +45,7 @@
5745
上下文长度直接影响成本:
5846
- 更长的上下文意味着更高的 Token 费用
5947
- 需要权衡上下文丰富度与成本效益
60-
- 考虑是否有批量折扣或缓存机制
48+
- 考虑是否有批量折扣、缓存机制、区域处理溢价或长上下文溢价
6149

6250
**延迟要求**
6351

@@ -124,7 +112,9 @@
124112
### 2.4.6 官方信息入口(用于参数核验)
125113

126114
- [OpenAI Models](https://platform.openai.com/docs/models)
115+
- [OpenAI Pricing](https://platform.openai.com/docs/pricing)
127116
- [Anthropic Claude Models](https://docs.anthropic.com/en/docs/about-claude/models)
117+
- [Anthropic Pricing](https://docs.anthropic.com/en/docs/about-claude/pricing)
128118
- [Google Gemini Models](https://ai.google.dev/gemini-api/docs/models)
129119
- [Meta Llama](https://www.llama.com/)
130120
- [Qwen](https://qwenlm.github.io/)

02_llm_basics/2.5_ssm_vs_transformer.md

Lines changed: 13 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -254,11 +254,11 @@ class SSMRetrievalStrategy:
254254
return candidates # ≈ 50K tokens, 成本仍可接受
255255
```
256256

257-
#### Token成本的实际差异
257+
#### Token 成本的示例差异
258258

259-
假设一个QA系统,平均查询返回50个检索结果
259+
以下是教学测算,使用示例单价说明上下文长度如何影响成本;实际项目应以部署当天的官方价格页、缓存命中率和账号服务层级重新计算。假设一个 QA 系统,平均查询返回 50 个检索结果
260260

261-
**Transformer架构(GPT-5.4**
261+
**Transformer 架构(代表性 API 模型**
262262
- 每query成本:50×256字/chunk×0.75字/token×$0.0025/1K = $0.024
263263
- 月成本(10000 queries):$240
264264

@@ -275,9 +275,9 @@ class SSMRetrievalStrategy:
275275

276276
1. **上下文控制**
277277
```text
278-
推荐窗口大小:4K-8K tokens
279-
最大容纳:32K tokens(成本陡增)
280-
超过32K:ROI快速下降
278+
成本敏感路径:优先控制在任务必需范围内
279+
长上下文路径:按模型官方窗口、延迟和预算上限决定
280+
超过阈值:用实测质量收益与额外成本判断
281281
```
282282

283283
2. **检索优化优先级**
@@ -294,9 +294,9 @@ class SSMRetrievalStrategy:
294294
```python
295295
# 成本优化的优先级
296296
优化1:减少检索chunk数(影响最大)
297-
优化2:启用缓存(30-50%节省
298-
优化3:压缩上下文(20-30%节省
299-
优化4:使用更便宜模型(10-20%节省
297+
优化2:启用缓存(收益取决于供应商价格与命中率
298+
优化3:压缩上下文(收益取决于压缩率与质量损失
299+
优化4:使用更便宜模型(需同步验证质量
300300
```
301301

302302
#### 对于SSM/Mamba模型
@@ -368,7 +368,7 @@ class HybridArchitectureStrategy:
368368

369369
**总需求上下文:~245K tokens**
370370

371-
#### Transformer架构方案(如GPT-5.4
371+
#### Transformer 架构方案(代表性 API 模型
372372

373373
```text
374374
实际可用上下文:128K(最大)
@@ -402,7 +402,7 @@ class HybridArchitectureStrategy:
402402
4. 用户历史:5K
403403
5. 总计:245K tokens
404404
405-
成本计算(使用GPT-5.4,假设与Transformer定价相同):
405+
成本计算(沿用上文示例单价,非实时价格):
406406
- 245K tokens×$0.0025/K = $0.6125
407407
- 输出:~2K tokens×$0.015/K = $0.03
408408
- 总成本/请求:$0.6425
@@ -413,11 +413,10 @@ class HybridArchitectureStrategy:
413413
- 更全面的风险识别
414414
- 一次完整分析,无遗漏
415415
416-
ROI分析
416+
价值评估(需项目实测)
417417
成本增加:$0.6425 - $0.269 = $0.3735(139%)
418418
价值增加:更全面的法律风险识别,可避免潜在法律风险
419-
粗估:若识别一个风险可节省$5K法律费用,
420-
此方案年均ROI仍为正(按照合理的查询频率)
419+
只有在真实评测证明额外上下文能稳定发现高价值风险时,增加的推理成本才可能成立。
421420
```
422421

423422
### 2.5.8 如何选择最适合的架构

06_compress/6.1_compression_principles.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -136,7 +136,7 @@ xychart-beta
136136

137137
**直接指标**
138138
- 压缩率:压缩后大小 / 原始大小
139-
- Token 节省:减少的 Token 数量
139+
- Token 减少量:压缩前后 Token 数量差异
140140

141141
**间接指标**
142142
- 任务效果:压缩后任务完成质量

0 commit comments

Comments
 (0)