Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Original file line number Diff line number Diff line change
Expand Up @@ -148,7 +148,7 @@ Container Created
┌─────────────────────────────────┐
│ Wait for initial_delay (60s) │ ← Model loading, GPU init, warmup
│ Status: DEGRADED
│ Status: NOT_CHECKED
│ No health checks during this │
└─────────────────────────────────┘
Expand Down Expand Up @@ -617,26 +617,29 @@ The rule list provides:

- A property filter bar to filter rules by **Created At** and **Last Triggered** datetime ranges.
- Server-side pagination.
- The following columns: **Metric Source**, **Condition**, **Time Window**, **Step Size**, **Min / Max Replicas**, **Created At**, and **Last Triggered**. The **Step Size** column automatically shows `+`, `−`, or `±` based on the direction derived from the thresholds you have set, so you no longer choose **Scale Out** or **Scale In** explicitly.
- The following columns: **Metric Source**, **Condition**, **Cooldown Sec.**, **Step Size**, **Min / Max Replicas**, **Created At**, and **Last Triggered**. The **Step Size** column automatically shows `+`, `−`, or `±` based on the direction derived from the thresholds you have set, so you no longer choose **Scale Out** or **Scale In** explicitly.
- Per-row edit and delete icons shown next to the condition summary in each row.

Click the `Add Rules` button to open the **Add Auto Scaling Rule** editor. To modify an existing rule, click the edit icon on its row; the **Edit Auto Scaling Rule** editor opens with the rule's values pre-filled. The editor contains the following fields in order:

- **Metric Source**: Select one of `Kernel`, `Inference Framework`, or `Prometheus`.
- **Metric Name**: For `Kernel` and `Inference Framework`, enter a metric name. For `Kernel`, a list of common metrics (such as `cpu_util`, `mem`, `net_rx`, and `net_tx`) is offered as autocomplete suggestions, and you can also type a custom name freely.
- **Metric Name (Prometheus Preset)**: Shown only when **Metric Source** is `Prometheus`. Select a preset from the dropdown; the preset's metric name, query template, and (when defined) **Time Window** are filled in automatically. Below the selector, a **Current value** preview shows the latest value returned by the preset, with a refresh button. When multiple series are returned, the preview shows the number of series and the most recent value; if no data is available, it shows **No data available**.
- **Condition**: A segmented control with two modes:
- **Metric Name (Prometheus Preset)**: Shown only when **Metric Source** is `Prometheus`. Select a preset from the dropdown; the preset's metric name, query template, and (when defined) **Cooldown Sec.** are filled in automatically. Below the selector, a **Current value** preview shows the latest value returned by the preset, with a refresh button. When multiple series are returned, the preview shows the number of series and the most recent value; if no data is available, it shows **No data available**.
- **Condition**: A segmented control for choosing the scaling direction. It provides three options.

- **Single**: Defines a single comparison `Metric <op> Threshold`, where `<op>` is either `>` or `<`.
- **Range**: Defines a range `Min Threshold < Metric < Max Threshold`. Both thresholds are required; the minimum must be less than the maximum.
- **Scale In**: Decreases replicas when the metric falls below a threshold. Sets `Metric < [threshold]`.
- **Scale Out**: Increases replicas when the metric rises above a threshold. Sets `Metric > [threshold]`.
- **Scale In & Out**: Automatically scales in or out depending on which side of the configured range the metric crosses. Sets `Metric < Min Threshold` or `Metric > Max Threshold`.

- **Step Size**: A positive integer specifying how many replicas to add or remove per scaling event. The direction (add or remove) is derived automatically from which threshold is configured:
![](../images/auto_scaling_condition_selector.png)

- **Step Size**: A positive integer specifying how many replicas to add or remove per scaling event. The `-`, `+`, or `±` sign is shown automatically based on the selected condition (Scale In / Scale Out / Scale In & Out).

- Only a minimum threshold is set: `[metric] < [minThreshold]` triggers **Scale In** (replicas decrease when the metric falls below the threshold).
- Only a maximum threshold is set: `[metric] > [maxThreshold]` triggers **Scale Out** (replicas increase when the metric rises above the threshold).
- Both thresholds are set: replicas are scaled in or out depending on which boundary the metric crosses (`[minThreshold] < [metric] < [maxThreshold]` is the normal operating range).

- **Time Window**: The time window, in seconds, over which the metric is aggregated and evaluated for scaling. This replaces the legacy `CoolDown Seconds` field and has a different meaning.
- **Cooldown Sec.**: The time, in seconds, to wait after a scaling event before the next evaluation.
- **Min Replicas** and **Max Replicas**: The lower and upper bounds that auto-scaling enforces on the replica count. Auto-scaling will not reduce the number of replicas below **Min Replicas** or increase it above **Max Replicas**.

![](../images/auto_scaling_rules_modal_v2.png)
Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Original file line number Diff line number Diff line change
Expand Up @@ -133,7 +133,7 @@ Container Created
┌─────────────────────────────────┐
│ Wait for initial_delay (60s) │ ← Model loading, GPU init, warmup
│ Status: DEGRADED
│ Status: NOT_CHECKED
│ No health checks during this │
└─────────────────────────────────┘
Expand Down Expand Up @@ -593,26 +593,29 @@ SGLangは次のタブを提供します:**Model Loading**、**Resource Memory*

- 作成された時間(Created At)および最後にトリガーされました(Last Triggered)の日時範囲でルールをフィルタリングできるプロパティフィルターバー。
- サーバーサイドのページネーション。
- メトリックソース(Metric Source)、コンディション(Condition)、時間ウィンドウ(Time Window)、ステップサイズ(Step Size)、min / max レプリカ(Min / Max Replicas)、作成された時間(Created At)、最後にトリガーされました(Last Triggered)の列。ステップサイズ列は、設定されたしきい値から導出される方向に基づいて `+`、`−`、`±` を自動的に表示するため、`Scale Out` または `Scale In` を明示的に選択する必要はなくなりました。
- メトリックソース(Metric Source)、コンディション(Condition)、クールダウン秒(Cooldown Sec.)、ステップサイズ(Step Size)、min / max レプリカ(Min / Max Replicas)、作成された時間(Created At)、最後にトリガーされました(Last Triggered)の列。ステップサイズ列は、設定されたしきい値から導出される方向に基づいて `+`、`−`、`±` を自動的に表示するため、`Scale Out` または `Scale In` を明示的に選択する必要はなくなりました。
- 各行のコンディションサマリーの横に表示される行ごとの編集および削除アイコン。

`Add Rules` ボタンをクリックすると、**自動スケーリングルールを追加します** エディターが開きます。既存のルールを変更するには、その行の編集アイコンをクリックします。ルールの値が事前に入力された状態で **自動スケーリングルールを編集します** エディターが開きます。エディターには次のフィールドが順番に含まれます:

- **メトリックソース(Metric Source)**: `Kernel`、`Inference Framework`、`Prometheus` のいずれかを選択します。
- **メトリック名(Metric Name)**: `Kernel` および `Inference Framework` の場合、メトリック名を入力します。`Kernel` では、`cpu_util`、`mem`、`net_rx`、`net_tx` などの一般的なメトリックがオートコンプリートの候補として提案され、カスタム名を自由に入力することもできます。
- **メトリック名プリセット(Metric Name (Prometheus Preset))**: メトリックソースが `Prometheus` の場合のみ表示されます。ドロップダウンからプリセットを選択すると、プリセットのメトリック名、クエリテンプレート、および(定義されている場合)時間ウィンドウが自動的に入力されます。セレクタの下にある現在の値(Current value)プレビューは、プリセットが返す最新の値を更新ボタンとともに表示します。複数のシリーズが返される場合、プレビューにはシリーズの件数と最新の値が表示されます。利用可能なデータがない場合は、データがありません(No data available)と表示されます。
- **コンディション(Condition)**: 2 つのモードを持つセグメント化されたコントロールです
- **メトリック名プリセット(Metric Name (Prometheus Preset))**: メトリックソースが `Prometheus` の場合のみ表示されます。ドロップダウンからプリセットを選択すると、プリセットのメトリック名、クエリテンプレート、および(定義されている場合)クールダウン秒(Cooldown Sec.)が自動的に入力されます。セレクタの下にある現在の値(Current value)プレビューは、プリセットが返す最新の値を更新ボタンとともに表示します。複数のシリーズが返される場合、プレビューにはシリーズの件数と最新の値が表示されます。利用可能なデータがない場合は、データがありません(No data available)と表示されます。
- **コンディション(Condition)**: スケーリング方向を選択するセグメントコントロールです。3 つのオプションがあります

* シングル(Single): `Metric <op> Threshold` の単一比較を定義します。ここで `<op>` は `>` または `<` です。
* 範囲(Range): `Min Threshold < Metric < Max Threshold` の範囲を定義します。両方のしきい値が必須で、最小値は最大値より小さくなければなりません。
* **Scale In**: メトリックがしきい値を下回るとレプリカを減らします。`Metric < [しきい値]` の条件を設定します。
* **Scale Out**: メトリックがしきい値を上回るとレプリカを増やします。`Metric > [しきい値]` の条件を設定します。
* **Scale In & Out**: メトリックが設定した範囲のどちら側を超えたかに応じて、自動的に縮小または拡張します。`Metric < Min Threshold` または `Metric > Max Threshold` の条件を設定します。

- **ステップサイズ(Step Size)**: スケーリングイベントごとに追加または削除するレプリカ数を指定する正の整数です。方向(追加または削除)は設定されたしきい値から自動的に導出されます。
![](../images/auto_scaling_condition_selector.png)

- **ステップサイズ(Step Size)**: スケーリングイベントごとに追加または削除するレプリカ数を指定する正の整数です。選択したコンディション(Scale In / Scale Out / Scale In & Out)に応じて `-`、`+`、`±` の符号が自動的に表示されます。

* 最小しきい値のみ設定: `[metric] < [minThreshold]` 条件になるとスケール**イン**(Scale In)されます(メトリックがしきい値を下回るとレプリカが減少します)。
* 最大しきい値のみ設定: `[metric] > [maxThreshold]` 条件になるとスケール**アウト**(Scale Out)されます(メトリックがしきい値を上回るとレプリカが増加します)。
* 両方設定: メトリックがどちらの境界を超えたかに応じてスケールインまたはスケールアウトされます(`[minThreshold] < [metric] < [maxThreshold]` が正常稼働範囲です)。

- **時間ウィンドウ(Time Window)**: メトリックが集約されてスケーリング評価に使用される時間(秒単位)です。これは以前の `CoolDown Seconds` フィールドを置き換えるもので、意味が異なります
- **クールダウン秒(Cooldown Sec.)**: スケーリングイベント後、次の評価まで待機する時間(秒単位)です。
- **最小レプリカ(Min Replicas)および最大レプリカ(Max Replicas)**: 自動スケーリングがレプリカ数に対して強制する下限と上限です。自動スケーリングは、レプリカ数を最小レプリカより下げたり、最大レプリカより上げたりすることはありません。

![](../images/auto_scaling_rules_modal_v2.png)
Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Original file line number Diff line number Diff line change
Expand Up @@ -133,7 +133,7 @@ Container Created
┌─────────────────────────────────┐
│ Wait for initial_delay (60s) │ ← Model loading, GPU init, warmup
│ Status: DEGRADED
│ Status: NOT_CHECKED
│ No health checks during this │
└─────────────────────────────────┘
Expand Down Expand Up @@ -591,26 +591,29 @@ SGLang은 다음 탭을 제공합니다: **Model Loading**, **Resource Memory**,

- 생성 시간(Created At)과 최근 실행 시점(Last Triggered) 날짜-시간 범위로 규칙을 필터링할 수 있는 속성 필터 바.
- 서버 측 페이지네이션.
- 메트릭 소스(Metric Source), 조건(Condition), 타임 윈도우(Time Window), 단계 크기(Step Size), 최소 / 최대 복제본 수(Min / Max Replicas), 생성 시간(Created At), 최근 실행 시점(Last Triggered) 컬럼.
- 메트릭 소스(Metric Source), 조건(Condition), 쿨다운 초(Cooldown Sec.), 단계 크기(Step Size), 최소 / 최대 복제본 수(Min / Max Replicas), 생성 시간(Created At), 최근 실행 시점(Last Triggered) 컬럼. **단계 크기** 컬럼은 설정한 조건에 따라 `+`, `−`, `±` 부호가 자동으로 표시되므로, **Scale Out** 또는 **Scale In**을 명시적으로 선택할 필요가 없습니다.
- 각 행의 조건 요약 옆에 표시되는 행별 편집 및 삭제 아이콘.

`Add Rules` 버튼을 클릭하면 **오토스케일링 규칙 추가** 편집기가 열립니다. 기존 규칙을 수정하려면 해당 행의 편집 아이콘을 클릭하세요. 규칙 값이 미리 채워진 상태로 **오토스케일링 규칙 수정** 편집기가 열립니다. 편집기에는 다음 필드가 순서대로 포함됩니다:

- **메트릭 소스(Metric Source)**: `Kernel`, `Inference Framework`, `Prometheus` 중 하나를 선택합니다.
- **메트릭 이름(Metric Name)**: `Kernel`과 `Inference Framework`의 경우 메트릭 이름을 입력합니다. `Kernel`에서는 `cpu_util`, `mem`, `net_rx`, `net_tx`와 같은 일반적인 메트릭이 자동 완성 제안으로 제공되며, 사용자 정의 이름을 자유롭게 입력할 수도 있습니다.
- **메트릭 이름 프리셋(Metric Name (Prometheus Preset))**: 메트릭 소스가 `Prometheus`일 때만 표시됩니다. 드롭다운에서 프리셋을 선택하면 프리셋의 메트릭 이름, 쿼리 템플릿, 그리고 (정의된 경우) 타임 윈도우가 자동으로 채워집니다. 선택기 아래의 현재 값(Current value) 미리보기는 프리셋이 반환하는 최신 값을 새로 고침 버튼과 함께 표시합니다. 여러 시리즈가 반환되는 경우 미리보기에는 시리즈 수와 가장 최근 값이 표시되며, 사용 가능한 데이터가 없으면 사용 가능한 데이터가 없습니다(No data available)라고 표시됩니다.
- **조건(Condition)**: 두 가지 모드를 가진 세그먼트형 컨트롤입니다.
- **메트릭 이름 프리셋(Metric Name (Prometheus Preset))**: 메트릭 소스가 `Prometheus`일 때만 표시됩니다. 드롭다운에서 프리셋을 선택하면 프리셋의 메트릭 이름, 쿼리 템플릿, 그리고 (정의된 경우) 쿨다운 초(Cooldown Sec.)가 자동으로 채워집니다. 선택기 아래의 현재 값(Current value) 미리보기는 프리셋이 반환하는 최신 값을 새로 고침 버튼과 함께 표시합니다. 여러 시리즈가 반환되는 경우 미리보기에는 시리즈 수와 가장 최근 값이 표시되며, 사용 가능한 데이터가 없으면 사용 가능한 데이터가 없습니다(No data available)라고 표시됩니다.
- **조건(Condition)**: 스케일링 방향을 선택하는 세그먼트 컨트롤입니다. 세 가지 옵션이 있습니다.

* 단일(Single): `Metric <op> Threshold` 단일 비교를 정의합니다. 여기서 `<op>`는 `>` 또는 `<` 중 하나입니다.
* 범위(Range): `Min Threshold < Metric < Max Threshold` 범위를 정의합니다. 두 임계값 모두 필수이며, 최소값은 최대값보다 작아야 합니다.
* **Scale In**: 메트릭이 임계값 아래로 떨어지면 복제본을 줄입니다. `Metric < [임계값]` 조건을 설정합니다.
* **Scale Out**: 메트릭이 임계값 위로 올라가면 복제본을 늘립니다. `Metric > [임계값]` 조건을 설정합니다.
* **Scale In & Out**: 메트릭이 설정한 범위를 벗어나는 방향에 따라 자동으로 축소 또는 확장합니다. `Metric < Min Threshold` 또는 `Metric > Max Threshold` 조건을 설정합니다.

- **단계 크기(Step Size)**: 스케일링 이벤트마다 추가하거나 제거할 복제본 수를 지정하는 양의 정수입니다. 방향(추가 또는 제거)은 설정된 임계값에서 자동으로 도출됩니다.
![](../images/auto_scaling_condition_selector.png)

- **단계 크기(Step Size)**: 스케일링 이벤트마다 추가하거나 제거할 복제본 수를 지정하는 양의 정수입니다. 선택한 조건(Scale In / Scale Out / Scale In & Out)에 따라 `-`, `+`, `±` 부호가 자동으로 표시됩니다.
Comment thread
agatha197 marked this conversation as resolved.

* 최솟값 임계값만 설정: `[metric] < [minThreshold]` 조건이 되면 스케일 **인**(Scale In)됩니다.
* 최댓값 임계값만 설정: `[metric] > [maxThreshold]` 조건이 되면 스케일 **아웃**(Scale Out)됩니다.
* 둘 다 설정: `[minThreshold] < [metric] < [maxThreshold]` 범위를 벗어나는 방향에 따라 스케일 인 또는 스케일 아웃됩니다.

- **타임 윈도우(Time Window)**: 메트릭이 집계되어 스케일링 평가에 사용되는 시간(초 단위)입니다. 이는 기존의 `CoolDown Seconds` 필드를 대체하며 의미가 다릅니다.
- **쿨다운 초(Cooldown Sec.)**: 스케일링 이벤트 이후 다음 평가까지 대기하는 시간(초 단위)입니다.
- **최소 복제본 수(Min Replicas) 및 최대 복제본 수(Max Replicas)**: 자동 스케일링이 복제본 수에 대해 강제하는 하한과 상한입니다. 자동 스케일링은 복제본 수를 최소 복제본 수 아래로 줄이거나 최대 복제본 수 위로 늘리지 않습니다.
Comment thread
agatha197 marked this conversation as resolved.

![](../images/auto_scaling_rules_modal_v2.png)
Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Loading