让 router 在 200 SSE quota_exceeded 上也能冷却实例

cuipengfei · cuipengfei · commit 80663a993ab8 · 2026-06-03T00:50:58.000+08:00
stream 模式下，Copilot 可能把 quota_exceeded 藏进 SSE error 帧而不是 HTTP status。Router 需要在不改 body 的前提下识别该信号并冷却实例，否则会继续把流量打回同一台耗尽机器。

Constraint: 不能依赖 PII 或手动本地探针；只能用可观察的 SSE 错误帧。
Rejected: 继续只看 HTTP 402/429 | stream 200 会漏掉真实耗尽信号。
Confidence: high
Scope-risk: narrow
Directive: 未来若再出现 200 SSE quota_exceeded，先查流解析，再查路由。
Tested: bun test tests/router/; bun run lint:all --fix; bun run build; bun run typecheck
diff --git a/router/state.ts b/router/state.ts
@@ -16,7 +16,7 @@ const DEFAULT_ENCODER = new TextEncoder()
 
 export const DEFAULT_HISTORY_LIMIT = 200
 export const DEFAULT_SSE_RETRY_MS = 2000
-export const DEFAULT_INSTANCE_COOLDOWN_MS = 60_000
+export const DEFAULT_INSTANCE_COOLDOWN_MS = 3_600_000 // 60 min: exhausted instance (402/429 w/o Retry-After) stays out long enough to skip dead quota
 
 export interface ProxyContext {
   body: string
@@ -91,6 +91,7 @@ export interface ProxyToOptions {
   logger: (line: string) => void
   fetchImpl?: typeof fetch
   onQuotaSnapshots?: (quotaSnapshots: unknown) => void
+  onQuotaExceeded?: () => void
 }
 
 export interface DashboardHandlerOptions {
@@ -539,8 +540,9 @@ export function getInstanceName(
 function observeResponsesSseQuotaSnapshots(
   body: ReadableStream<Uint8Array> | null,
   onQuotaSnapshots?: (quotaSnapshots: unknown) => void,
+  onQuotaExceeded?: () => void,
 ): ReadableStream<Uint8Array> | null {
-  if (!body || !onQuotaSnapshots) {
+  if (!body || (!onQuotaSnapshots && !onQuotaExceeded)) {
     return body
   }
 
@@ -559,10 +561,20 @@ function observeResponsesSseQuotaSnapshots(
     }
 
     try {
-      const parsed = JSON.parse(data) as { copilot_quota_snapshots?: unknown }
-      if (parsed.copilot_quota_snapshots) {
+      const parsed = JSON.parse(data) as {
+        code?: unknown
+        error?: { code?: unknown }
+        copilot_quota_snapshots?: unknown
+      }
+      if (parsed.copilot_quota_snapshots && onQuotaSnapshots) {
         onQuotaSnapshots(parsed.copilot_quota_snapshots)
       }
+      if (
+        parsed.code === "quota_exceeded"
+        || parsed.error?.code === "quota_exceeded"
+      ) {
+        onQuotaExceeded?.()
+      }
     } catch {
       return
     }
@@ -619,6 +631,7 @@ export async function proxyTo(options: ProxyToOptions): Promise<Response> {
         observeResponsesSseQuotaSnapshots(
           upstream.body,
           options.onQuotaSnapshots,
+          options.onQuotaExceeded,
         )
       : upstream.body
 
@@ -724,24 +737,58 @@ function applyCooldownOnExhaustion(
     model: string
     requestNowMs: number
   },
-) {
+): boolean {
   if (!COOLDOWN_STATUSES.has(proxied.status)) {
-    return
+    return false
   }
 
   // 402 has no Retry-After; falls back to defaultCooldownMs below.
-  const retryAfter = proxied.headers.get("Retry-After")
-  const retryAfterMs = parseRetryAfterMs(retryAfter, params.requestNowMs)
+  applyCooldown(runtime, {
+    ...params,
+    status: proxied.status,
+    retryAfter: proxied.headers.get("Retry-After"),
+  })
+  return true
+}
+
+function applyCooldown(
+  runtime: RouterRuntime,
+  params: {
+    port: number
+    instanceName: string
+    model: string
+    requestNowMs: number
+    status: number
+    retryAfter: string | null
+  },
+) {
+  const retryAfterMs = parseRetryAfterMs(params.retryAfter, params.requestNowMs)
   const cooldownMs = retryAfterMs ?? runtime.defaultCooldownMs
   const cooldownUntilMs = params.requestNowMs + cooldownMs
 
   runtime.state.portCooldownUntil.set(params.port, cooldownUntilMs)
-  runtime.state.portCooldownRetryAfter.set(params.port, retryAfter)
+  runtime.state.portCooldownRetryAfter.set(params.port, params.retryAfter)
   runtime.logger(
-    `cooldown set instance=${params.instanceName}:${params.port} model=${params.model} status=${proxied.status} until=${new Date(cooldownUntilMs).toISOString()} retry-after=${retryAfter || "_"}`,
+    `cooldown set instance=${params.instanceName}:${params.port} model=${params.model} status=${params.status} until=${new Date(cooldownUntilMs).toISOString()} retry-after=${params.retryAfter || "_"}`,
   )
 }
 
+function applyCooldownOnStreamQuotaExceeded(
+  runtime: RouterRuntime,
+  params: {
+    port: number
+    instanceName: string
+    model: string
+    requestNowMs: number
+  },
+) {
+  applyCooldown(runtime, {
+    ...params,
+    status: 402,
+    retryAfter: null,
+  })
+}
+
 function createAllCoolingResponse(
   runtime: RouterRuntime,
   params: {
@@ -830,6 +877,13 @@ async function handleNoModelRequest(
     fetchImpl: runtime.fetchImpl,
     onQuotaSnapshots: (quotaSnapshots) =>
       updateUpstreamQuotaSnapshot(runtime.state, port, quotaSnapshots),
+    onQuotaExceeded: () =>
+      applyCooldownOnStreamQuotaExceeded(runtime, {
+        port,
+        instanceName,
+        model: "_",
+        requestNowMs: request.requestNowMs,
+      }),
   })
   applyCooldownOnExhaustion(runtime, proxied, {
     port,
@@ -846,70 +900,89 @@ async function handleModelRequest(
   runtime: RouterRuntime,
   request: RouterRequestContext,
 ): Promise<Response> {
-  const result = pickPort(runtime.state, {
-    sessionId: request.sessionId,
-    agent: request.agent,
-    model: request.model,
-    nowMs: request.requestNowMs,
-  })
+  const modelPorts = runtime.state.modelToPorts.get(request.model) || []
+  const maxAttempts = Math.max(modelPorts.length, 1)
 
-  if (!result) {
-    const modelPorts = runtime.state.modelToPorts.get(request.model) || []
-    const allCoolingResponse = createAllCoolingResponse(runtime, {
+  for (let attempt = 0; attempt < maxAttempts; attempt++) {
+    const result = pickPort(runtime.state, {
       sessionId: request.sessionId,
       agent: request.agent,
+      model: request.model,
+      nowMs: request.requestNowMs,
+    })
+
+    if (!result) {
+      break
+    }
+
+    const instanceName = getInstanceName(runtime.state, result.port)
+    const routeRecord: RouteRecord = {
+      ts: runtime.now(),
+      sid: request.sessionId || "-",
+      agent: request.agent,
+      model: request.model,
       provider: request.provider,
+      port: result.port,
+      reason: result.reason,
+      instanceName,
+    }
+    recordRoute(runtime.state, routeRecord)
+    runtime.logger(
+      `sid=${routeRecord.sid} agent=${request.agent} provider=${request.provider} → ${instanceName}:${result.port} model=${request.model} reason=${result.reason}`,
+    )
+
+    const proxied = await proxyTo({
+      port: result.port,
+      context: { body: request.bodyText, req: request.req, url: request.url },
+      logger: runtime.logger,
+      fetchImpl: runtime.fetchImpl,
+      onQuotaSnapshots: (quotaSnapshots) =>
+        updateUpstreamQuotaSnapshot(runtime.state, result.port, quotaSnapshots),
+      onQuotaExceeded: () =>
+        applyCooldownOnStreamQuotaExceeded(runtime, {
+          port: result.port,
+          instanceName,
+          model: request.model,
+          requestNowMs: request.requestNowMs,
+        }),
+    })
+    const exhausted = applyCooldownOnExhaustion(runtime, proxied, {
+      port: result.port,
+      instanceName,
       model: request.model,
-      ports: modelPorts,
       requestNowMs: request.requestNowMs,
-      error: `all upstream instances are cooling down for model: ${request.model}`,
     })
-    if (allCoolingResponse) {
-      return allCoolingResponse
+    updateUpstreamHeaderSnapshot(runtime.state, result.port, proxied.headers)
+
+    if (!exhausted) {
+      return proxied
     }
 
     runtime.logger(
-      `NO PORT sid=${request.sessionId || "-"} agent=${request.agent} model=${request.model} provider=${request.provider}`,
-    )
-    return Response.json(
-      { error: `no instance serves model: ${request.model}` },
-      { status: 502 },
+      `retry model=${request.model} after exhausted instance=${instanceName}:${result.port} status=${proxied.status}`,
     )
   }
 
-  const instanceName = getInstanceName(runtime.state, result.port)
-  const routeRecord: RouteRecord = {
-    ts: runtime.now(),
-    sid: request.sessionId || "-",
+  const allCoolingResponse = createAllCoolingResponse(runtime, {
+    sessionId: request.sessionId,
     agent: request.agent,
-    model: request.model,
     provider: request.provider,
-    port: result.port,
-    reason: result.reason,
-    instanceName,
-  }
-  recordRoute(runtime.state, routeRecord)
-  runtime.logger(
-    `sid=${routeRecord.sid} agent=${request.agent} provider=${request.provider} → ${instanceName}:${result.port} model=${request.model} reason=${result.reason}`,
-  )
-
-  const proxied = await proxyTo({
-    port: result.port,
-    context: { body: request.bodyText, req: request.req, url: request.url },
-    logger: runtime.logger,
-    fetchImpl: runtime.fetchImpl,
-    onQuotaSnapshots: (quotaSnapshots) =>
-      updateUpstreamQuotaSnapshot(runtime.state, result.port, quotaSnapshots),
-  })
-  applyCooldownOnExhaustion(runtime, proxied, {
-    port: result.port,
-    instanceName,
     model: request.model,
+    ports: modelPorts,
     requestNowMs: request.requestNowMs,
+    error: `all upstream instances are cooling down for model: ${request.model}`,
   })
-  updateUpstreamHeaderSnapshot(runtime.state, result.port, proxied.headers)
+  if (allCoolingResponse) {
+    return allCoolingResponse
+  }
 
-  return proxied
+  runtime.logger(
+    `NO PORT sid=${request.sessionId || "-"} agent=${request.agent} model=${request.model} provider=${request.provider}`,
+  )
+  return Response.json(
+    { error: `no instance serves model: ${request.model}` },
+    { status: 502 },
+  )
 }
 
 export function createRouterHandler(options: RouterHandlerOptions) {
diff --git a/tests/router/proxy.test.ts b/tests/router/proxy.test.ts
@@ -234,7 +234,7 @@ describe("router discovery and proxy helpers", () => {
 
 // eslint-disable-next-line max-lines-per-function
 describe("router handler cooldown semantics", () => {
-  test("router handler cools down instance on upstream 402 quota_exceeded", async () => {
+  test("router handler retries another instance on upstream 402 quota_exceeded", async () => {
     const state = createState()
     state.modelToPorts.set("gpt-4.1", [4141, 4142])
     state.sessionBindings.set("session-1:atlas:gpt-4.1", 4141)
@@ -268,9 +268,10 @@ describe("router handler cooldown semantics", () => {
       }),
     )
 
-    // 402 has no Retry-After → default cooldown applied, instance cooled down.
-    expect(res.status).toBe(402)
+    expect(res.status).toBe(200)
+    expect(await res.text()).toBe("ok")
     expect(state.portCooldownUntil.get(4141)).toBeGreaterThan(fixedNowMs)
+    expect(state.sessionBindings.get("session-1:atlas:gpt-4.1")).toBe(4142)
   })
 
   test("router handler sets cooldown on upstream 429 using Retry-After seconds", async () => {
@@ -313,7 +314,8 @@ describe("router handler cooldown semantics", () => {
       }),
     )
 
-    expect(res.status).toBe(429)
+    expect(res.status).toBe(200)
+    expect(await res.text()).toBe("ok")
     expect(state.portCooldownUntil.get(4141)).toBe(fixedNowMs + 7000)
     expect(state.portCooldownRetryAfter.get(4141)).toBe("7")
     expect(state.portHeaderSnapshots.get(4141)).toEqual({
@@ -459,6 +461,40 @@ describe("router handler cooldown semantics", () => {
     })
   })
 
+  test("router handler cools down instance when 200 SSE stream carries quota_exceeded error", async () => {
+    const state = createState()
+    state.modelToPorts.set("gpt-5.5", [4141])
+    const fixedNowMs = new Date("2026-03-13T00:00:00.000Z").getTime()
+
+    const fetchImpl = createFetchStub(() =>
+      Promise.resolve(
+        new Response(
+          [
+            'event: error\ndata: {"type":"error","error":{"code":"quota_exceeded","message":"You have exceeded your monthly quota"},"code":"quota_exceeded","message":"You have exceeded your monthly quota"}\n\n',
+          ].join(""),
+          {
+            status: 200,
+            headers: { "content-type": "text/event-stream" },
+          },
+        ),
+      ),
+    )
+    const handler = createRouterHandlerForTest({
+      state,
+      fetchImpl,
+      fixedNowMs,
+    })
+
+    const res = await handler(
+      createRouterRequest('{"model":"gpt-5.5","stream":true}'),
+    )
+
+    expect(res.status).toBe(200)
+    expect(await res.text()).toContain("quota_exceeded")
+    expect(state.portCooldownUntil.get(4141)).toBe(fixedNowMs + 3_600_000)
+    expect(state.portCooldownRetryAfter.get(4141)).toBeNull()
+  })
+
   test("router handler returns 503 on nomodel when all instances are cooling", async () => {
     const state = createState()
     const fixedNowMs = new Date("2026-03-13T00:00:00.000Z").getTime()
@@ -509,8 +545,8 @@ describe("router handler cooldown semantics", () => {
 
     const res = await handler(createRouterRequest('{"model":"gpt-4.1"}'))
 
-    expect(res.status).toBe(429)
-    expect(state.portCooldownUntil.get(4141)).toBe(fixedNowMs + 60000)
+    expect(res.status).toBe(503)
+    expect(state.portCooldownUntil.get(4141)).toBe(fixedNowMs + 3600000)
     expect(state.portCooldownRetryAfter.get(4141)).toBe("invalid")
   })
 
@@ -537,7 +573,7 @@ describe("router handler cooldown semantics", () => {
 
     const res = await handler(createRouterRequest('{"model":"gpt-4.1"}'))
 
-    expect(res.status).toBe(429)
+    expect(res.status).toBe(503)
     expect(state.portCooldownUntil.get(4141)).toBe(
       new Date("2026-03-13T00:00:05.000Z").getTime(),
     )