fix(ai-gateway): override status code on in-stream error events (#2782)

kilo-code-bot[bot] · web-flow · commit 65f1ab9ca69e · 2026-04-24T13:39:27.000+02:00
* fix(ai-gateway): override status code on in-stream error events

When an OpenRouter SSE chunk contains an `error.code` during usage
processing (e.g. a 200 response stream that ends up carrying a 502
provider_unavailable error), propagate that numeric code into the
microdollar_usage_metadata.status_code column instead of recording the
outer HTTP 200. `has_error` was already set in this path.

* refactor: use status_code field directly on NotYetCostedUsageStats

Per review, drop the separate status_code_override concept; instead let
the parsers emit the effective status code on the stats as required
`status_code`, and have logMicrodollarUsage apply it to usageContext
so all paths (chat/messages/responses/fim/embedding) behave uniformly.

---------

Co-authored-by: kiloconnect[bot] &lt;240665456+kiloconnect[bot]@users.noreply.github.com&gt;
diff --git a/apps/web/src/lib/ai-gateway/llm-proxy-helpers.test.ts b/apps/web/src/lib/ai-gateway/llm-proxy-helpers.test.ts
@@ -288,7 +288,7 @@ describe('parseEmbeddingUsageFromResponse', () => {
       usage: { prompt_tokens: 100, total_tokens: 100, cost: 0.00005 },
     });
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     // toMicrodollars(0.00005) = Math.round(0.00005 * 1_000_000) = 50
     expect(result.cost_mUsd).toBe(50);
@@ -299,15 +299,15 @@ describe('parseEmbeddingUsageFromResponse', () => {
       usage: { prompt_tokens: 1000, total_tokens: 1000 },
     });
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     expect(result.cost_mUsd).toBe(0);
   });
 
   it('should extract id as messageId', () => {
     const response = makeResponse({ id: 'embd-abc' });
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     expect(result.messageId).toBe('embd-abc');
   });
@@ -317,31 +317,31 @@ describe('parseEmbeddingUsageFromResponse', () => {
     const parsed = JSON.parse(response);
     delete parsed.id;
 
-    const result = parseEmbeddingUsageFromResponse(JSON.stringify(parsed));
+    const result = parseEmbeddingUsageFromResponse(JSON.stringify(parsed), 200);
 
     expect(result.messageId).toBeNull();
   });
 
   it('should set hasError to true when model is empty', () => {
     const response = makeResponse({ model: '' });
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     expect(result.hasError).toBe(true);
   });
 
   it('should set hasError to false when model is present', () => {
     const response = makeResponse({ model: 'text-embedding-3-small' });
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     expect(result.hasError).toBe(false);
   });
 
   it('should always set outputTokens to 0 and streamed/cancelled to false', () => {
     const response = makeResponse();
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     expect(result.outputTokens).toBe(0);
     expect(result.streamed).toBe(false);
@@ -353,7 +353,7 @@ describe('parseEmbeddingUsageFromResponse', () => {
       usage: { prompt_tokens: 42, total_tokens: 42 },
     });
 
-    const result = parseEmbeddingUsageFromResponse(response);
+    const result = parseEmbeddingUsageFromResponse(response, 200);
 
     expect(result.inputTokens).toBe(42);
   });
diff --git a/apps/web/src/lib/ai-gateway/llm-proxy-helpers.ts b/apps/web/src/lib/ai-gateway/llm-proxy-helpers.ts
@@ -513,6 +513,7 @@ function parseMistralFimUsageFromString(
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: statusCode,
   };
 }
 
@@ -612,6 +613,7 @@ async function parseMistralFimUsageFromStream(
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: statusCode,
   };
 }
 
@@ -679,7 +681,10 @@ type EmbeddingResponse = {
   usage: EmbeddingUsage;
 };
 
-export function parseEmbeddingUsageFromResponse(responseText: string): MicrodollarUsageStats {
+export function parseEmbeddingUsageFromResponse(
+  responseText: string,
+  statusCode: number
+): MicrodollarUsageStats {
   const json: EmbeddingResponse = JSON.parse(responseText);
 
   // Upstream providers (OpenRouter, Vercel) include cost in USD → convert to microdollars.
@@ -689,7 +694,7 @@ export function parseEmbeddingUsageFromResponse(responseText: string): Microdoll
     messageId: json.id ?? null,
     model: json.model,
     responseContent: '',
-    hasError: !json.model,
+    hasError: !json.model || statusCode >= 400,
     inference_provider: null,
     inputTokens: json.usage.prompt_tokens,
     outputTokens: 0,
@@ -704,6 +709,7 @@ export function parseEmbeddingUsageFromResponse(responseText: string): Microdoll
     generation_time: null,
     streamed: false,
     cancelled: false,
+    status_code: statusCode,
   };
 }
 
@@ -730,11 +736,12 @@ export function countAndStoreEmbeddingUsage(
 ) {
   debugSaveProxyResponseStream(clonedResponse, '.log.resp.json');
 
+  const statusCode = usageContext.status_code ?? 0;
   const usageStatsPromise = !clonedResponse.body
     ? Promise.resolve(null)
     : clonedResponse
         .text()
-        .then(text => parseEmbeddingUsageFromResponse(text))
+        .then(text => parseEmbeddingUsageFromResponse(text, statusCode))
         .catch(() => null);
 
   after(
diff --git a/apps/web/src/lib/ai-gateway/processUsage.messages.test.ts b/apps/web/src/lib/ai-gateway/processUsage.messages.test.ts
@@ -26,6 +26,7 @@ describe('processMessagesApiUsage', () => {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
 
   test('correctly processes OpenRouter usage for a non-byok case', () => {
diff --git a/apps/web/src/lib/ai-gateway/processUsage.messages.ts b/apps/web/src/lib/ai-gateway/processUsage.messages.ts
@@ -180,6 +180,7 @@ export async function parseMessagesMicrodollarUsageFromStream(
     generation_time: null,
     streamed: true,
     cancelled: null,
+    status_code: statusCode,
   } satisfies NotYetCostedUsageStats;
 
   const costs = processMessagesApiUsage(usage, providerMetadata, coreProps);
@@ -216,6 +217,7 @@ export function parseMessagesMicrodollarUsageFromString(
     generation_time: null,
     streamed: false,
     cancelled: null,
+    status_code: statusCode,
   } satisfies NotYetCostedUsageStats;
 
   const costs = processMessagesApiUsage(usage, providerMetadata, coreProps);
diff --git a/apps/web/src/lib/ai-gateway/processUsage.responses.test.ts b/apps/web/src/lib/ai-gateway/processUsage.responses.test.ts
@@ -26,6 +26,7 @@ describe('processResponsesApiUsage', () => {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
 
   test('correctly processes OpenRouter usage for a non-byok case', () => {
diff --git a/apps/web/src/lib/ai-gateway/processUsage.responses.ts b/apps/web/src/lib/ai-gateway/processUsage.responses.ts
@@ -214,6 +214,7 @@ export async function parseResponsesMicrodollarUsageFromStream(
     generation_time: null,
     streamed: true,
     cancelled: null,
+    status_code: statusCode,
   } satisfies NotYetCostedUsageStats;
 
   const costs = processResponsesApiUsage(usage, providerMetadata, coreProps);
@@ -244,6 +245,7 @@ export function parseResponsesMicrodollarUsageFromString(
     generation_time: null,
     streamed: false,
     cancelled: null,
+    status_code: statusCode,
   } satisfies NotYetCostedUsageStats;
 
   const costs = processResponsesApiUsage(usage, providerMetadata, coreProps);
diff --git a/apps/web/src/lib/ai-gateway/processUsage.test.ts b/apps/web/src/lib/ai-gateway/processUsage.test.ts
@@ -43,6 +43,7 @@ describe('processOpenRouterUsage', () => {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
 
   test('should correctly process usage for a non-byok case', () => {
@@ -181,6 +182,28 @@ describe('parseMicrodollarUsageFromStream approval tests', () => {
     expect(result.responseContent).toBe('Hello world');
     expect(result.hasError).toBe(true); // Should be marked as error due to abort
   });
+
+  test('captures numeric error.code from in-stream error event as status_code_override', async () => {
+    const errorChunk = `data: {"id":"gen-1","object":"chat.completion.chunk","created":1,"model":"","provider":"Amazon Bedrock","choices":[],"error":{"code":502,"message":"Internal server error","metadata":{"error_type":"provider_unavailable"}}}\n\n`;
+
+    const stream = new ReadableStream<Uint8Array>({
+      start(controller) {
+        controller.enqueue(new TextEncoder().encode(errorChunk));
+        controller.close();
+      },
+    });
+
+    const result = await parseMicrodollarUsageFromStream(
+      stream,
+      'fake-user-id',
+      undefined,
+      'openrouter',
+      200
+    );
+
+    expect(result.hasError).toBe(true);
+    expect(result.status_code).toBe(502);
+  });
 });
 
 const sampleReqDir = join(process.cwd(), 'src/tests/req_sample');
@@ -328,6 +351,7 @@ describe('logMicrodollarUsage', () => {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
   const createBaseUsageContext = (user: {
     id: string;
@@ -770,6 +794,7 @@ describe('toInsertableDbUsageRecord NUL-byte sanitization', () => {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
 
   // Node's Headers constructor rejects values containing NUL bytes (invalid
diff --git a/apps/web/src/lib/ai-gateway/processUsage.ts b/apps/web/src/lib/ai-gateway/processUsage.ts
@@ -240,6 +240,7 @@ export async function logMicrodollarUsage(
   usageStats: MicrodollarUsageStats,
   usageContext: MicrodollarUsageContext
 ) {
+  usageContext.status_code = usageStats.status_code;
   const contextInfo = extractUsageContextInfo(usageContext);
   const { core, metadata } = toInsertableDbUsageRecord(usageStats, contextInfo);
 
@@ -696,6 +697,7 @@ export async function parseMicrodollarUsageFromStream(
   let model: string | null = null;
   let responseContent = ''; // for abuse investigation
   let reportedError = statusCode >= 400;
+  let effectiveStatusCode = statusCode;
   const startedAt = performance.now();
   let firstTokenReceived = false;
   let usage: OpenRouterUsage | null = null;
@@ -729,6 +731,9 @@ export async function parseMicrodollarUsageFromStream(
       if ('error' in json) {
         const error = json.error as OpenRouterError;
         reportedError = true;
+        if (typeof error.code === 'number') {
+          effectiveStatusCode = error.code;
+        }
         captureException(new Error(`OpenRouter error: ${error.message}`), {
           tags: { source: 'sse_processing' },
           extra: { json, event },
@@ -780,6 +785,7 @@ export async function parseMicrodollarUsageFromStream(
     generation_time: null,
     streamed: true,
     cancelled: null,
+    status_code: effectiveStatusCode,
   };
 
   const costs = processOpenRouterUsage(usage, coreProps);
@@ -822,6 +828,7 @@ export function parseMicrodollarUsageFromString(
     generation_time: null,
     streamed: false,
     cancelled: null,
+    status_code: statusCode,
   };
 
   const costs = processOpenRouterUsage(responseJson?.usage, coreProps);
@@ -892,6 +899,7 @@ async function processTokenData(
 
     genStats.model = usageStats.model; // openrouter bug?
     genStats.hasError = usageStats.hasError; // retain by choice
+    genStats.status_code = usageStats.status_code; // retain by choice
     genStats.streamed ??= usageContext.isStreaming;
     if (genStats.cost_mUsd !== usageStats.cost_mUsd) {
       console.warn(
@@ -1004,5 +1012,6 @@ export const mapToUsageStats = (
     generation_time: data.generation_time ?? null,
     streamed: data.streamed ?? null,
     cancelled: data.cancelled ?? null,
+    status_code: 200,
   };
 };
diff --git a/apps/web/src/lib/ai-gateway/processUsage.types.ts b/apps/web/src/lib/ai-gateway/processUsage.types.ts
@@ -65,6 +65,10 @@ export type NotYetCostedUsageStats = {
   generation_time: number | null;
   streamed: boolean | null;
   cancelled: boolean | null;
+  /** Effective HTTP status code for this usage record. Starts from the upstream
+   *  response status and is overwritten by a numeric `error.code` encountered
+   *  in-stream (e.g. a 200 response that ends up carrying a 502 error event). */
+  status_code: number;
 };
 
 export type JustTheCostsUsageStats = {
@@ -171,7 +175,7 @@ export type UsageMetaData = {
 
 export type OpenRouterError = {
   message: string;
-  code: string;
+  code: number | string;
   metadata?: Record<string, unknown>;
   provider_name?: string;
 };
diff --git a/apps/web/src/lib/usageDeduction.test.ts b/apps/web/src/lib/usageDeduction.test.ts
@@ -31,6 +31,7 @@ function createMockUsageStats(cost_mUsd: number): MicrodollarUsageStats {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
 }
 
diff --git a/apps/web/src/tests/helpers/microdollar-usage.helper.ts b/apps/web/src/tests/helpers/microdollar-usage.helper.ts
@@ -31,6 +31,7 @@ function defineDefaultUsageStats(): MicrodollarUsageStats {
     generation_time: null,
     streamed: null,
     cancelled: null,
+    status_code: 200,
   };
 }
 
diff --git a/apps/web/src/tests/sample/claude-3-7-sonnet-generation.log.generation.json.mapToUsageStats.approved.json b/apps/web/src/tests/sample/claude-3-7-sonnet-generation.log.generation.json.mapToUsageStats.approved.json
@@ -17,5 +17,6 @@
   "moderation_latency": null,
   "generation_time": 7793,
   "streamed": true,
-  "cancelled": false
+  "cancelled": false,
+  "status_code": 200
 }
diff --git a/apps/web/src/tests/sample/nonstreaming-anthropic.log.resp.json.approved.json b/apps/web/src/tests/sample/nonstreaming-anthropic.log.resp.json.approved.json
@@ -12,6 +12,7 @@
   "generation_time": null,
   "streamed": false,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 55,
   "cacheHitTokens": 0,
   "cacheWriteTokens": 0,
diff --git a/apps/web/src/tests/sample/normal-anthropic.log.resp.sse.approved.json b/apps/web/src/tests/sample/normal-anthropic.log.resp.sse.approved.json
@@ -12,6 +12,7 @@
   "generation_time": null,
   "streamed": true,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 32488,
   "cacheHitTokens": 31429,
   "cacheWriteTokens": 0,
diff --git a/apps/web/src/tests/sample/normal-gpt41.log.resp.sse.approved.json b/apps/web/src/tests/sample/normal-gpt41.log.resp.sse.approved.json
@@ -12,6 +12,7 @@
   "generation_time": null,
   "streamed": true,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 14108,
   "cacheHitTokens": 13696,
   "cacheWriteTokens": 0,
diff --git a/apps/web/src/tests/sample/openrouter-key-out-of-credits.log.resp.sse.approved.json b/apps/web/src/tests/sample/openrouter-key-out-of-credits.log.resp.sse.approved.json
@@ -12,6 +12,7 @@
   "generation_time": null,
   "streamed": true,
   "cancelled": null,
+  "status_code": 402,
   "inputTokens": 0,
   "cacheHitTokens": 0,
   "cacheWriteTokens": 0,
diff --git a/apps/web/src/tests/sample/openrouter-responses.log.resp.json.approved.json b/apps/web/src/tests/sample/openrouter-responses.log.resp.json.approved.json
@@ -11,6 +11,7 @@
   "generation_time": null,
   "streamed": false,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 2425,
   "outputTokens": 5,
   "cacheHitTokens": 0,
diff --git a/apps/web/src/tests/sample/openrouter-responses.log.resp.sse.approved.json b/apps/web/src/tests/sample/openrouter-responses.log.resp.sse.approved.json
@@ -11,6 +11,7 @@
   "generation_time": null,
   "streamed": true,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 2425,
   "outputTokens": 5,
   "cacheHitTokens": 0,
diff --git a/apps/web/src/tests/sample/vercel-messages.log.resp.json.approved.json b/apps/web/src/tests/sample/vercel-messages.log.resp.json.approved.json
@@ -11,6 +11,7 @@
   "generation_time": null,
   "streamed": false,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 9,
   "outputTokens": 25,
   "cacheHitTokens": 0,
diff --git a/apps/web/src/tests/sample/vercel-messages.log.resp.sse.approved.json b/apps/web/src/tests/sample/vercel-messages.log.resp.sse.approved.json
@@ -11,6 +11,7 @@
   "generation_time": null,
   "streamed": true,
   "cancelled": null,
+  "status_code": 200,
   "inputTokens": 9,
   "outputTokens": 25,
   "cacheHitTokens": 0,
diff --git a/apps/web/src/tests/sample/vercel-responses.log.resp.json.approved.json b/apps/web/src/tests/sample/vercel-responses.log.resp.json.approved.json
diff --git a/apps/web/src/tests/sample/vercel-responses.log.resp.sse.approved.json b/apps/web/src/tests/sample/vercel-responses.log.resp.sse.approved.json

Original file line number	Diff line number	Diff line change
`@@ -31,6 +31,7 @@ function createMockUsageStats(cost_mUsd: number): MicrodollarUsageStats {`
`31`	`31`	`generation_time: null,`
`32`	`32`	`streamed: null,`
`33`	`33`	`cancelled: null,`
	`34`	`+ status_code: 200,`
`34`	`35`	`};`
`35`	`36`	`}`
`36`	`37`