feat: global max_tokens config with 32768 default

jimgqyu · DeepSeek · jimgqyu · commit 4175714d6750 · 2026-06-03T17:01:21.000+08:00
- Raise max_tokens default from 8192 to 32768 across all providers
- Wire max_tokens through full config pipeline: settings.json → Engine → Provider
- Priority: CODER_MAX_TOKENS env &gt; model_entry.max_tokens &gt; settings.max_tokens
- All models share a single global max_tokens value

Co-Authored-By: DeepSeek &lt;noreply@deepseek.com&gt;
diff --git a/configs/default-settings.json b/configs/default-settings.json
@@ -1,5 +1,6 @@
 {
   "theme": "dark",
+  "max_tokens": 32768,
   "default_model": "deepseek/deepseek-v4-pro",
   "model_list": [
     {
diff --git a/packages/cli/src/gateway/coder-client.ts b/packages/cli/src/gateway/coder-client.ts
@@ -50,6 +50,7 @@ interface ModelEntry {
   base_url?: string      // Provider endpoint URL
   auth_token_env?: string // API key / auth token
   proxy?: string         // HTTP/HTTPS proxy URL for this provider (e.g. "http://127.0.0.1:7890")
+  max_tokens?: number    // Maximum output tokens for this model (default: 32768)
   provider?: string      // e.g. "anthropic", "deepseek", "openai"
   price?: {
     input: number
@@ -80,6 +81,7 @@ interface ClaudeSettings {
   theme?: string
   model_list?: ModelEntry[]
   default_model?: string
+  max_tokens?: number    // Global max output tokens for all providers (default: 32768)
   display?: {
     tui_auto_resume_recent?: boolean
   }
@@ -99,6 +101,7 @@ function resolveModelConfig(settings: ClaudeSettings, fallbackModel: string): {
   baseUrl?: string
   apiKey?: string
   proxy?: string
+  maxTokens?: number
   name: string
   provider: string
 } {
@@ -121,6 +124,7 @@ function resolveModelConfig(settings: ClaudeSettings, fallbackModel: string): {
       baseUrl: entry.base_url,
       apiKey: entry.auth_token_env,
       proxy: entry.proxy,
+      maxTokens: entry.max_tokens,
       name: selectedModel,
       provider: entry.provider ?? inferProvider(selectedModel),
     }
@@ -227,7 +231,7 @@ export class CoderGatewayClient extends EventEmitter implements IGatewayClient {
   private thinkingBudget: number
 
   // ── Model config ────────────────────────────────────────────────────
-  private modelConfig: { model: string; baseUrl?: string; apiKey?: string; proxy?: string; name: string; provider: string } | null = null
+  private modelConfig: { model: string; baseUrl?: string; apiKey?: string; proxy?: string; maxTokens?: number; name: string; provider: string } | null = null
 
   // ── Session fork config ─────────────────────────────────────────────
   private forkSessionId?: string
@@ -249,7 +253,7 @@ export class CoderGatewayClient extends EventEmitter implements IGatewayClient {
     // CODER_MODEL env var — highest-priority model override.
     // Check before resolveModelConfig so the env var wins over settings.json.
     const coderModel = process.env.CODER_MODEL
-    let resolved: { model: string; baseUrl?: string; apiKey?: string; proxy?: string; name: string; provider: string }
+    let resolved: { model: string; baseUrl?: string; apiKey?: string; proxy?: string; maxTokens?: number; name: string; provider: string }
     if (coderModel) {
       // Helper: resolve from a model_list entry
       const resolveEntry = (entry: ModelEntry, preferredModel?: string) => {
@@ -261,6 +265,7 @@ export class CoderGatewayClient extends EventEmitter implements IGatewayClient {
           baseUrl: entry.base_url,
           apiKey: entry.auth_token_env,
           proxy: entry.proxy,
+          maxTokens: entry.max_tokens,
           name: selectedModel,
           provider: entry.provider ?? inferProvider(selectedModel),
         }
@@ -838,6 +843,12 @@ export class CoderGatewayClient extends EventEmitter implements IGatewayClient {
       env.CODER_PROXY ??
       process.env.CODER_PROXY
 
+    // Resolve maxTokens: env var > per-model entry > global settings > undefined (uses provider default)
+    const maxTokens =
+      process.env.CODER_MAX_TOKENS
+        ? parseInt(process.env.CODER_MAX_TOKENS, 10)
+        : (modelCfg?.maxTokens ?? settings.max_tokens)
+
     // Check CODER_COORDINATOR_MODE env var (set by entry.tsx or manually)
     const coordinatorMode =
       this.coordinatorMode ||
@@ -858,6 +869,7 @@ export class CoderGatewayClient extends EventEmitter implements IGatewayClient {
       model: this.model,
       providerName: modelCfg?.provider,
       maxTurns: 100,
+      maxTokens,
       sessionId: this.gatewaySessionId ?? undefined,
       sessionManager,
       coordinatorMode,
diff --git a/packages/cli/src/gateway/engine-factory.ts b/packages/cli/src/gateway/engine-factory.ts
@@ -116,6 +116,8 @@ export interface EngineFactoryOptions {
   thinkingMode?: boolean;
   /** Extended thinking budget in tokens (default: 1024) */
   thinkingBudget?: number;
+  /** Maximum output tokens for the model (default: 32768) */
+  maxTokens?: number;
   /** External SessionManager — when provided, the engine shares the same
    *  instance as the gateway (session.create/list/resume RPCs). Without
    *  this, each engine creates its own instance, leading to session state
@@ -350,6 +352,7 @@ export function createQueryEngine(
     mode: engineMode,
     thinkingConfig,
     hookManager,
+    maxTokens: opts.maxTokens,
   });
 
   // ── 7. Interrupt function ──────────────────────────────────────────
diff --git a/packages/core/src/provider-adapter.ts b/packages/core/src/provider-adapter.ts
@@ -27,6 +27,7 @@ export function createCallModelFromProvider(
   provider: Provider,
   model: string,
   thinking?: ThinkingConfig,
+  maxTokens?: number,
 ): (params: CallModelParams) => AsyncGenerator<SharedStreamEvent | AssistantMessage> {
   return async function* callModel(
     params: CallModelParams,
@@ -70,8 +71,11 @@ export function createCallModelFromProvider(
       if (out) { enqueue(out); if (drain) { const d = drain; drain = null; d(); } }
     };
 
-    // Build ModelConfig with optional thinking configuration
+    // Build ModelConfig with optional thinking configuration and maxTokens
     const modelConfig: ModelConfig = { model };
+    if (maxTokens !== undefined) {
+      modelConfig.maxTokens = maxTokens;
+    }
     if (thinking && thinking.mode !== 'disabled') {
       modelConfig.thinking = thinking;
     }
diff --git a/packages/core/src/query-engine.ts b/packages/core/src/query-engine.ts
@@ -81,6 +81,8 @@ export interface QueryEngineConfig {
   mode?: 'default' | 'coordinator' | 'worker';
   /** Extended thinking configuration (passed to Provider via ModelConfig.thinking) */
   thinkingConfig?: ThinkingConfig;
+  /** Maximum output tokens for the model (default: provider-specific fallback, 32768) */
+  maxTokens?: number;
   /** Optional HookManager for lifecycle hook execution (UserPromptSubmit, etc.) */
   hookManager?: HookManager;
 }
@@ -391,6 +393,7 @@ export class QueryEngine {
         this.config.provider,
         this.config.providerModel,
         this.config.thinkingConfig,
+        this.config.maxTokens,
       );
     }
     return mockCallModel;
diff --git a/packages/provider/src/anthropic.ts b/packages/provider/src/anthropic.ts
@@ -161,7 +161,7 @@ export class AnthropicProvider implements Provider {
       model: modelConfig.model,
       system: system || undefined,
       messages: apiMessages as MessageParam[],
-      max_tokens: modelConfig.maxTokens ?? 8192,
+      max_tokens: modelConfig.maxTokens ?? 32768,
       temperature: modelConfig.temperature,
       tools: anthropicTools as Anthropic.MessageCreateParams['tools'],
       thinking: this.buildThinkingConfig(modelConfig),
diff --git a/packages/provider/src/openai-compat.ts b/packages/provider/src/openai-compat.ts
@@ -241,7 +241,7 @@ export class OpenAICompatProvider implements Provider {
       messages: openaiMessages,
       stream: true,
       stream_options: { include_usage: true },
-      max_tokens: modelConfig.maxTokens ?? 8192,
+      max_tokens: modelConfig.maxTokens ?? 32768,
     };
 
     if (modelConfig.temperature !== undefined) {
diff --git a/packages/shared/src/types/config.ts b/packages/shared/src/types/config.ts
@@ -220,7 +220,7 @@ export const DEFAULT_CODER_CONFIG: CoderConfig = {
   model: {
     provider: 'anthropic',
     model: 'claude-sonnet-4-6',
-    maxTokens: 8192,
+    maxTokens: 32768,
     thinking: {
       mode: 'adaptive',
       budgetTokens: 16000,

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,6 @@`
`1`	`1`	`{`
`2`	`2`	`"theme": "dark",`
	`3`	`+ "max_tokens": 32768,`
`3`	`4`	`"default_model": "deepseek/deepseek-v4-pro",`
`4`	`5`	`"model_list": [`
`5`	`6`	`{`