Bump kilo-auto/balanced to 1M context (#2860)

chrarnoldus · web-flow · commit 23c3511564b1 · 2026-04-28T16:22:21.000+02:00
Auto Balanced tweaks
diff --git a/apps/web/src/lib/ai-gateway/kilo-auto/index.ts b/apps/web/src/lib/ai-gateway/kilo-auto/index.ts
@@ -29,8 +29,6 @@ export type ResolvedAutoModel = {
   verbosity?: Verbosity;
 };
 
-export const GPT_53_CODEX_ID = 'openai/gpt-5.3-codex';
-
 export const KILO_AUTO_LEGACY_MODEL = 'kilo/auto'; // hardcoded in upstream OpenClaw
 
 export const modeSchema = z.enum([
@@ -78,14 +76,14 @@ export const FRONTIER_MODE_TO_MODEL: Record<Mode, ResolvedAutoModel> = {
   code: SONNET_FRONTIER,
 };
 
-export const BALANCED_CODEX_MODEL: ResolvedAutoModel = {
-  model: GPT_53_CODEX_ID,
+export const BALANCED_RESPONSES_FALLBACK_MODEL: ResolvedAutoModel = {
+  model: 'openai/gpt-5.5',
   reasoning: { enabled: true, effort: 'low' },
 };
 
-export const BALANCED_HAIKU_MODEL: ResolvedAutoModel = {
-  model: 'anthropic/claude-haiku-4.5',
-  reasoning: { enabled: true, effort: 'medium' },
+export const BALANCED_MESSAGES_FALLBACK_MODEL: ResolvedAutoModel = {
+  model: CLAUDE_SONNET_CURRENT_MODEL_ID,
+  reasoning: { enabled: true, effort: 'low' },
 };
 
 export const BALANCED_CLAW_SETUP_MODEL: ResolvedAutoModel = {
@@ -137,7 +135,7 @@ export const KILO_AUTO_BALANCED_MODEL: AutoModel = {
   id: 'kilo-auto/balanced',
   name: 'Kilo Auto Balanced',
   description: 'Great balance of price and capability.',
-  context_length: 400_000,
+  context_length: 1_000_000,
   max_completion_tokens: 65_536,
   prompt_price: '0.000000325',
   completion_price: '0.00000195',
@@ -146,7 +144,7 @@ export const KILO_AUTO_BALANCED_MODEL: AutoModel = {
   supports_images: true,
   supports_pdf: false,
   opencode_settings: {
-    ai_sdk_provider: 'openai-compatible',
+    ai_sdk_provider: 'alibaba',
   },
 };
 
diff --git a/apps/web/src/lib/ai-gateway/kilo-auto/resolution.ts b/apps/web/src/lib/ai-gateway/kilo-auto/resolution.ts
@@ -16,12 +16,12 @@ import {
   modeSchema,
   BALANCED_CLAW_SETUP_MODEL,
   BALANCED_QWEN_MODEL,
-  BALANCED_CODEX_MODEL,
+  BALANCED_RESPONSES_FALLBACK_MODEL,
   FRONTIER_MODE_TO_MODEL,
   FRONTIER_CODE_MODEL,
   type ResolvedAutoModel,
   KILO_AUTO_LEGACY_MODEL,
-  BALANCED_HAIKU_MODEL,
+  BALANCED_MESSAGES_FALLBACK_MODEL,
 } from '@/lib/ai-gateway/kilo-auto';
 import { userIsWithinFirstKiloClawInstanceWindow } from '@/lib/kiloclaw/setup-promo';
 import { getRandomNumber } from '@/lib/ai-gateway/getRandomNumber';
@@ -121,10 +121,11 @@ export async function resolveAutoModel(
     // Alibaba doesn't expose a messages endpoint
     // and does not support prompt caching on the responses endpoint
     // so we use a fallback in those cases.
+    // This should be rare, both CLI and KiloClaw default to chat completions.
     if (apiKind === 'responses') {
-      return BALANCED_CODEX_MODEL;
+      return BALANCED_RESPONSES_FALLBACK_MODEL;
     } else if (apiKind === 'messages') {
-      return BALANCED_HAIKU_MODEL;
+      return BALANCED_MESSAGES_FALLBACK_MODEL;
     } else {
       return BALANCED_QWEN_MODEL;
     }
diff --git a/apps/web/src/lib/ai-gateway/providers/model-settings.ts b/apps/web/src/lib/ai-gateway/providers/model-settings.ts
@@ -95,11 +95,12 @@ export function getModelVariants(model: string): OpenCodeSettings['variants'] {
 
 function getAiSdkProvider(model: string): CustomLlmProvider | undefined {
   if (qwen36_plus_model.public_id === model) {
-    // with 'openai' prompt caching doesn't seem to work
-    return 'openai-compatible';
+    // with 'openai' (Responses) prompt caching doesn't work
+    // with 'openai-compatible' (Chat Completions) cost is wrong (cache writes are not counted)
+    return 'alibaba';
   }
   if (seed_20_pro_free_model.public_id === model) {
-    // with 'openai' a bunch of bugs in vercel ai sdk v5 get triggered
+    // with 'openai' (Responses API) prompt caching doesn't work
     return 'openai-compatible';
   }
   if (isAnthropicModel(model)) {
diff --git a/apps/web/src/lib/ai-gateway/providers/openai.ts b/apps/web/src/lib/ai-gateway/providers/openai.ts
@@ -9,7 +9,3 @@ export function isOpenAiModel(requestedModel: string) {
 export function isOpenAiOssModel(requestedModel: string) {
   return modelStartsWith(requestedModel, 'openai/gpt-oss');
 }
-
-export const GPT_5_NANO_ID = 'openai/gpt-5-nano';
-
-export const GPT_5_NANO_NAME = 'GPT-5 Nano';

Original file line number	Diff line number	Diff line change
`@@ -9,7 +9,3 @@ export function isOpenAiModel(requestedModel: string) {`
`9`	`9`	`export function isOpenAiOssModel(requestedModel: string) {`
`10`	`10`	`return modelStartsWith(requestedModel, 'openai/gpt-oss');`
`11`	`11`	`}`
`12`		`-`
`13`		`-export const GPT_5_NANO_ID = 'openai/gpt-5-nano';`
`14`		`-`
`15`		`-export const GPT_5_NANO_NAME = 'GPT-5 Nano';`