fix: support non-default runtime endpoint in on-demand evals (#634)

notgitika · web-flow · commit ec38020ebc6d · 2026-03-27T13:13:18.000-04:00
* fix: support non-default runtime endpoint in on-demand evals

* fix: format command.tsx with prettier
diff --git a/src/cli/commands/run/command.tsx b/src/cli/commands/run/command.tsx
@@ -45,6 +45,10 @@ export const registerRun = (program: Command) => {
     .option('--region <region>', 'AWS region (required with --agent-arn, auto-detected otherwise)')
     .option('-s, --session-id <id>', 'Evaluate a specific session only')
     .option('-t, --trace-id <id>', 'Evaluate a specific trace only')
+    .option(
+      '--endpoint <name>',
+      'Runtime endpoint name (e.g. PROMPT_V1). Defaults to AGENTCORE_RUNTIME_ENDPOINT env var, then DEFAULT'
+    )
     .option('--days <days>', 'Lookback window in days', '7')
     .option('--output <path>', 'Custom output file path for results')
     .option('--json', 'Output as JSON')
@@ -57,6 +61,7 @@ export const registerRun = (program: Command) => {
         region?: string;
         sessionId?: string;
         traceId?: string;
+        endpoint?: string;
         days: string;
         output?: string;
         json?: boolean;
@@ -84,6 +89,7 @@ export const registerRun = (program: Command) => {
           region: cliOptions.region,
           sessionId: cliOptions.sessionId,
           traceId: cliOptions.traceId,
+          endpoint: cliOptions.endpoint,
           days: parseInt(cliOptions.days, 10),
           output: cliOptions.output,
           json: cliOptions.json,
diff --git a/src/cli/operations/eval/__tests__/run-eval.test.ts b/src/cli/operations/eval/__tests__/run-eval.test.ts
@@ -598,6 +598,146 @@ describe('handleRunEval', () => {
     expect(result.error).toContain('No evaluators specified');
   });
 
+  // ─── Endpoint selection ──────────────────────────────────────────────────
+
+  it('uses --endpoint option to construct runtime log group', async () => {
+    const ctx = makeDeployedContext();
+    mockLoadDeployedProjectConfig.mockResolvedValue(ctx);
+    mockResolveAgent.mockReturnValue({
+      success: true,
+      agent: {
+        agentName: 'my-agent',
+        targetName: 'dev',
+        region: 'us-east-1',
+        accountId: '111222333444',
+        runtimeId: 'rt-123',
+      },
+    });
+
+    const spanRows = [makeOtelSpanRow('session-1', 'trace-1')];
+    setupCloudWatchToReturn(spanRows);
+
+    mockEvaluate.mockResolvedValue({
+      evaluationResults: [{ value: 4.0, context: { spanContext: { sessionId: 'session-1' } } }],
+    });
+
+    await handleRunEval({ evaluator: ['Builtin.GoalSuccessRate'], days: 7, endpoint: 'PROMPT_V1' });
+
+    // The second CloudWatch query (runtime logs) should target the PROMPT_V1 log group
+    const runtimeLogCall = mockSend.mock.calls.find((c: unknown[]) => {
+      const input = (c[0] as { input?: { logGroupName?: string } }).input;
+      return input?.logGroupName?.includes('PROMPT_V1');
+    });
+    expect(runtimeLogCall).toBeDefined();
+  });
+
+  it('uses AGENTCORE_RUNTIME_ENDPOINT env var when --endpoint is not provided', async () => {
+    const originalEnv = process.env.AGENTCORE_RUNTIME_ENDPOINT;
+    process.env.AGENTCORE_RUNTIME_ENDPOINT = 'CUSTOM_V2';
+
+    try {
+      const ctx = makeDeployedContext();
+      mockLoadDeployedProjectConfig.mockResolvedValue(ctx);
+      mockResolveAgent.mockReturnValue({
+        success: true,
+        agent: {
+          agentName: 'my-agent',
+          targetName: 'dev',
+          region: 'us-east-1',
+          accountId: '111222333444',
+          runtimeId: 'rt-123',
+        },
+      });
+
+      const spanRows = [makeOtelSpanRow('session-1', 'trace-1')];
+      setupCloudWatchToReturn(spanRows);
+
+      mockEvaluate.mockResolvedValue({
+        evaluationResults: [{ value: 4.0, context: { spanContext: { sessionId: 'session-1' } } }],
+      });
+
+      await handleRunEval({ evaluator: ['Builtin.GoalSuccessRate'], days: 7 });
+
+      const runtimeLogCall = mockSend.mock.calls.find((c: unknown[]) => {
+        const input = (c[0] as { input?: { logGroupName?: string } }).input;
+        return input?.logGroupName?.includes('CUSTOM_V2');
+      });
+      expect(runtimeLogCall).toBeDefined();
+    } finally {
+      if (originalEnv === undefined) {
+        delete process.env.AGENTCORE_RUNTIME_ENDPOINT;
+      } else {
+        process.env.AGENTCORE_RUNTIME_ENDPOINT = originalEnv;
+      }
+    }
+  });
+
+  it('--endpoint takes precedence over AGENTCORE_RUNTIME_ENDPOINT env var', async () => {
+    const originalEnv = process.env.AGENTCORE_RUNTIME_ENDPOINT;
+    process.env.AGENTCORE_RUNTIME_ENDPOINT = 'ENV_ENDPOINT';
+
+    try {
+      const ctx = makeDeployedContext();
+      mockLoadDeployedProjectConfig.mockResolvedValue(ctx);
+      mockResolveAgent.mockReturnValue({
+        success: true,
+        agent: {
+          agentName: 'my-agent',
+          targetName: 'dev',
+          region: 'us-east-1',
+          accountId: '111222333444',
+          runtimeId: 'rt-123',
+        },
+      });
+
+      const spanRows = [makeOtelSpanRow('session-1', 'trace-1')];
+      setupCloudWatchToReturn(spanRows);
+
+      mockEvaluate.mockResolvedValue({
+        evaluationResults: [{ value: 4.0, context: { spanContext: { sessionId: 'session-1' } } }],
+      });
+
+      await handleRunEval({ evaluator: ['Builtin.GoalSuccessRate'], days: 7, endpoint: 'FLAG_ENDPOINT' });
+
+      const flagCall = mockSend.mock.calls.find((c: unknown[]) => {
+        const input = (c[0] as { input?: { logGroupName?: string } }).input;
+        return input?.logGroupName?.includes('FLAG_ENDPOINT');
+      });
+      const envCall = mockSend.mock.calls.find((c: unknown[]) => {
+        const input = (c[0] as { input?: { logGroupName?: string } }).input;
+        return input?.logGroupName?.includes('ENV_ENDPOINT');
+      });
+      expect(flagCall).toBeDefined();
+      expect(envCall).toBeUndefined();
+    } finally {
+      if (originalEnv === undefined) {
+        delete process.env.AGENTCORE_RUNTIME_ENDPOINT;
+      } else {
+        process.env.AGENTCORE_RUNTIME_ENDPOINT = originalEnv;
+      }
+    }
+  });
+
+  it('uses --endpoint in ARN mode', async () => {
+    setupCloudWatchToReturn([makeOtelSpanRow('s1', 't1')]);
+    mockEvaluate.mockResolvedValue({
+      evaluationResults: [{ value: 4.0, context: { spanContext: { sessionId: 's1' } } }],
+    });
+
+    await handleRunEval({
+      agentArn: 'arn:aws:bedrock-agentcore:us-west-2:123456789012:runtime/rt-arn-ep',
+      evaluator: ['Builtin.Helpfulness'],
+      days: 3,
+      endpoint: 'PROMPT_V1',
+    });
+
+    const runtimeLogCall = mockSend.mock.calls.find((c: unknown[]) => {
+      const input = (c[0] as { input?: { logGroupName?: string } }).input;
+      return input?.logGroupName?.includes('PROMPT_V1');
+    });
+    expect(runtimeLogCall).toBeDefined();
+  });
+
   // ─── Evaluator-level grouping ────────────────────────────────────────────
 
   it('sends targetTraceIds for TRACE-level builtin evaluators', async () => {
diff --git a/src/cli/operations/eval/run-eval.ts b/src/cli/operations/eval/run-eval.ts
@@ -93,7 +93,8 @@ function resolveFromArn(options: RunEvalOptions): ResolveResult {
     return { success: false, error: 'No evaluators specified. Use -e/--evaluator with Builtin.* or --evaluator-arn.' };
   }
 
-  const runtimeLogGroup = `/aws/bedrock-agentcore/runtimes/${runtimeId}-${DEFAULT_ENDPOINT_NAME}`;
+  const endpointName = options.endpoint ?? process.env.AGENTCORE_RUNTIME_ENDPOINT ?? DEFAULT_ENDPOINT_NAME;
+  const runtimeLogGroup = `/aws/bedrock-agentcore/runtimes/${runtimeId}-${endpointName}`;
 
   return {
     success: true,
@@ -118,7 +119,8 @@ function resolveFromProject(context: DeployedProjectConfig, options: RunEvalOpti
   }
 
   const { agent } = agentResult;
-  const runtimeLogGroup = `/aws/bedrock-agentcore/runtimes/${agent.runtimeId}-${DEFAULT_ENDPOINT_NAME}`;
+  const endpointName = options.endpoint ?? process.env.AGENTCORE_RUNTIME_ENDPOINT ?? DEFAULT_ENDPOINT_NAME;
+  const runtimeLogGroup = `/aws/bedrock-agentcore/runtimes/${agent.runtimeId}-${endpointName}`;
 
   // Resolve evaluator names to IDs
   const evaluatorIds: string[] = [];
diff --git a/src/cli/operations/eval/types.ts b/src/cli/operations/eval/types.ts
@@ -56,6 +56,8 @@ export interface RunEvalOptions {
   sessionIds?: string[];
   /** Filter to a specific trace */
   traceId?: string;
+  /** Runtime endpoint name (e.g. PROMPT_V1). Defaults to AGENTCORE_RUNTIME_ENDPOINT env var, then DEFAULT. */
+  endpoint?: string;
   days: number;
   output?: string;
   json?: boolean;