|
1 | 1 | --- |
2 | | -title: 负载均衡 |
3 | | -version: '简体中文' |
| 2 | +title: 配置负载均衡 |
4 | 3 | --- |
5 | 4 |
|
6 | | -模型速率限制(Rate limits)是模型厂商对用户或客户在指定时间内访问 API 服务次数所添加的限制。它有助于防止 API 的滥用或误用,有助于确保每个用户都能公平地访问 API,控制基础设施的总体负载。 |
| 5 | +## 介绍 |
7 | 6 |
|
8 | | -在企业级大规模调用模型 API 时,高并发请求会导致超过请求速率限制并影响用户访问。负载均衡可以通过在多个 API 端点之间分配 API 请求,确保所有用户都能获得最快的响应和最高的模型调用吞吐量,保障业务稳定运行。 |
| 7 | +<Info> |
| 8 | +负载均衡为付费特性,可通过 [订阅 SaaS 付费服务或者购买企业版](https://dify.ai/zh/pricing) 以启用。 |
| 9 | +</Info> |
9 | 10 |
|
10 | | -你可以在 **模型供应商 -- 模型列表 -- 设置模型负载均衡** 打开该功能,并在同一个模型上添加多个凭据 (API key)。 |
| 11 | +通常,模型供应商会限制用户在指定时间内访问 API 服务的次数(模型速率限制),以确保服务的稳定性与合理使用。对于企业级应用,来自单一凭据的高并发请求容易触发模型速率限制,从而影响用户访问。 |
11 | 12 |
|
12 | | -<Frame caption="模型负载均衡" width="563"> |
13 | | - <img src="/zh-cn/user-guide/.gitbook/assets/load-balancing.png" alt="模型负载均衡设置界面" /> |
14 | | -</Frame> |
| 13 | +而负载均衡可将请求流量分配至多个模型凭据,有效避免模型速率限制和单点故障,并为所有用户提供更快的响应速度,保障业务稳定运行。 |
15 | 14 |
|
16 | | -默认配置中的 API Key 为初次配置模型供应商时添加的凭据,你需要点击 **增加配置** 添加同一模型的不同 API Key 来正常使用负载均衡功能。 |
| 15 | +Dify 采用轮询策略的负载均衡机制,即:将模型请求按顺序依次分配给负载均衡池中的各个凭据。若某个凭据触发模型速率限制,系统将在接下来一分钟内的轮询中暂时跳过该凭据,以避免无效重试。 |
17 | 16 |
|
18 | | -<Frame caption="配置负载均衡" width="563"> |
19 | | - <img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-1.png" alt="负载均衡配置界面" /> |
20 | | -</Frame> |
| 17 | +## 步骤 |
21 | 18 |
|
22 | | -**需要额外添加至少 1 个模型凭据**即可保存并开启负载均衡。 |
| 19 | +为模型配置负载均衡,按照以下步骤操作: |
23 | 20 |
|
24 | | -你也可以将已配置的凭据**临时停用**或者**删除**。 |
| 21 | +1. 在模型列表中找到目标模型,点击对应的 **配置**,选择 **负载均衡** 模式。 |
25 | 22 |
|
26 | | -<Frame caption="凭据管理" width="563"> |
27 | | - <img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-3.png" alt="凭据停用和删除选项" /> |
28 | | -</Frame> |
| 23 | +2. 在负载均衡池中,点击 **添加凭据**,从已有凭据中选择或添加新凭据。 |
29 | 24 |
|
30 | | -配置完成后再模型列表内会显示所有已开启负载均衡的模型。 |
31 | | - |
32 | | -<Frame caption="开启负载均衡" width="563"> |
33 | | - <img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-4.png" alt="已开启负载均衡的模型列表" /> |
34 | | -</Frame> |
| 25 | +<Info> |
| 26 | +**默认配置** 为当前指定的默认凭据。 |
| 27 | +</Info> |
35 | 28 |
|
36 | 29 | <Tip> |
37 | | -默认情况下,负载均衡使用 Round-robin 策略。如果触发速率限制,将应用 1 分钟的冷却时间。 |
| 30 | +若某个凭据的配额充足或性能更优,可重复添加该凭据以增加其在负载均衡中的权重,使其承担更大比例的请求负载。 |
38 | 31 | </Tip> |
39 | 32 |
|
40 | | -你也可以从 **添加模型** 配置负载均衡,配置流程与上面一致。 |
| 33 | + |
| 34 | + |
| 35 | +3. 在负载均衡池中启用至少 2 个凭据,点击 **保存**。已启用负载均衡的模型将带有特殊标识。 |
| 36 | + |
| 37 | + |
41 | 38 |
|
42 | | -<Frame caption="从添加模型配置负载均衡" width="563"> |
43 | | - <img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-5.png" alt="从添加模型界面配置负载均衡" /> |
44 | | -</Frame> |
| 39 | +<Info> |
| 40 | +从负载均衡模式切换回默认的单凭据模式时,系统将保留负载均衡配置以备后用。 |
| 41 | +</Info> |
0 commit comments