fix(ollama): invoke calculateUsageCost so cost.total populates

yyyyaaa · yyyyaaa · commit 6d34ed757679 · 2026-05-21T12:55:11.000+07:00
The Ollama adapter previously assigned input/output/totalTokens but never
ran the cost schedule, leaving cost.total at zero even when the model
descriptor defined per-token rates. Apply the local calculateUsageCost
helper after token assignment so the same Usage invariants hold across
providers.
diff --git a/packages/ollama/__tests__/ollama.test.ts b/packages/ollama/__tests__/ollama.test.ts
@@ -146,6 +146,7 @@ describe('OllamaAdapter', () => {
           usage: {
             input: 0,
             output: 0,
+            reasoning: 0,
             cacheRead: 0,
             cacheWrite: 0,
             totalTokens: 0,
@@ -212,6 +213,40 @@ describe('OllamaAdapter', () => {
     expect(message.errorMessage).toContain('aborted');
   });
 
+  it('populates usage.cost when the model descriptor has a cost schedule', async () => {
+    (fetch as jest.Mock).mockResolvedValueOnce(
+      createLineResponse([
+        JSON.stringify({ message: { content: 'Hi' }, done: false }),
+        JSON.stringify({ done: true, done_reason: 'stop', prompt_eval_count: 100, eval_count: 50 }),
+      ]),
+    );
+
+    const adapter = new OllamaAdapter('http://localhost:11434');
+    const model = adapter.createModel('llama3', {
+      cost: { input: 2, output: 4 },
+    });
+    const stream = adapter.stream(model, {
+      messages: [{ role: 'user', content: 'hi', timestamp: Date.now() }],
+    });
+
+    for await (const _event of stream) {
+      // Drain stream.
+    }
+
+    const message = await stream.result();
+    expect(message.usage.input).toBe(100);
+    expect(message.usage.output).toBe(50);
+    expect(message.usage.cost.total).toBeGreaterThan(0);
+    expect(message.usage.cost.input + message.usage.cost.output).toBeCloseTo(
+      message.usage.cost.total,
+      10,
+    );
+    // 100 * (2 / 1_000_000) = 0.0002, 50 * (4 / 1_000_000) = 0.0002, total = 0.0004
+    expect(message.usage.cost.input).toBeCloseTo(0.0002, 10);
+    expect(message.usage.cost.output).toBeCloseTo(0.0002, 10);
+    expect(message.usage.cost.total).toBeCloseTo(0.0004, 10);
+  });
+
   it('lists models through the client API', async () => {
     (fetch as jest.Mock).mockResolvedValueOnce({
       ok: true,
diff --git a/packages/ollama/src/index.ts b/packages/ollama/src/index.ts
@@ -18,6 +18,12 @@ interface ModelDescriptor {
   tools?: boolean;
   contextWindow?: number;
   maxOutputTokens?: number;
+  cost?: {
+    input?: number;
+    output?: number;
+    cacheRead?: number;
+    cacheWrite?: number;
+  };
   headers?: Record<string, string>;
 }
 
@@ -47,6 +53,7 @@ interface ToolCallContent {
 interface Usage {
   input: number;
   output: number;
+  reasoning: number;
   cacheRead: number;
   cacheWrite: number;
   totalTokens: number;
@@ -464,6 +471,7 @@ export class OllamaAdapter {
           output.usage.input = payload.prompt_eval_count ?? output.usage.input;
           output.usage.output = payload.eval_count ?? output.usage.output;
           output.usage.totalTokens = output.usage.input + output.usage.output;
+          calculateUsageCost(model, output.usage);
           output.stopReason = payload.done_reason === 'length' ? 'length' : 'stop';
 
           if (thinkingIndex !== undefined) {
@@ -622,6 +630,7 @@ function createAssistantMessage(model: ModelDescriptor): AssistantMessage {
     usage: {
       input: 0,
       output: 0,
+      reasoning: 0,
       cacheRead: 0,
       cacheWrite: 0,
       totalTokens: 0,
@@ -632,6 +641,15 @@ function createAssistantMessage(model: ModelDescriptor): AssistantMessage {
   };
 }
 
+function calculateUsageCost(model: ModelDescriptor, usage: Usage): void {
+  usage.cost.input = ((model.cost?.input ?? 0) / 1_000_000) * usage.input;
+  usage.cost.output = ((model.cost?.output ?? 0) / 1_000_000) * usage.output;
+  usage.cost.cacheRead = ((model.cost?.cacheRead ?? 0) / 1_000_000) * usage.cacheRead;
+  usage.cost.cacheWrite = ((model.cost?.cacheWrite ?? 0) / 1_000_000) * usage.cacheWrite;
+  usage.cost.total =
+    usage.cost.input + usage.cost.output + usage.cost.cacheRead + usage.cost.cacheWrite;
+}
+
 function legacyInputToContext(input: GenerateInput): Context {
   const messages: Message[] = input.messages
     ? input.messages
@@ -647,6 +665,7 @@ function legacyInputToContext(input: GenerateInput): Context {
             usage: {
               input: 0,
               output: 0,
+              reasoning: 0,
               cacheRead: 0,
               cacheWrite: 0,
               totalTokens: 0,