sourcefuse
diff --git a/‎README.md‎
Lines changed: 109 additions & 0 deletions b/‎README.md‎
Lines changed: 109 additions & 0 deletions
diff --git a/‎package.json‎
Lines changed: 3 additions & 3 deletions b/‎package.json‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/components/db-query/testing/generation.acceptance.builder.ts‎
Lines changed: 262 additions & 0 deletions b/‎src/components/db-query/testing/generation.acceptance.builder.ts‎
Lines changed: 262 additions & 0 deletions
@@ -355,3 +355,112 @@ export class AddTool implements IGraphTool {
   }
 }
 ```
+
+# Testing
+
+## Generation Acceptance Builder
+
+The `generation.acceptance.builder.ts` file provides a utility to run acceptance tests for the `llm-chat-component`. These tests validate the functionality of the `/reply` endpoint and ensure that the generated SQL queries and their results align with expectations.
+
+## Overview
+
+This builder facilitates the execution of multiple test cases, each defined with specific prompts, expected results, and configurations. It also generates detailed reports to analyze the performance and correctness of the tests.
+
+## Key Features
+
+- **Dynamic Prompt Parsing**: Replaces placeholders in prompts with environment-specific values.
+- **Token Generation**: Creates JWT tokens with required permissions for test execution.
+- **Query Execution**: Executes the generated SQL queries and compares the results with expected outputs.
+- **Detailed Reporting**: Generates markdown reports with metrics such as success rates, token usage, and execution times.
+
+## Usage
+
+### Importing the Builder
+
+```typescript
+import {generationAcceptanceBuilder} from './generation.acceptance.builder';
+```
+
+### Running Tests
+
+To use the builder, define your test cases as an array of `GenerationAcceptanceTestCase` objects and pass them to the `generationAcceptanceBuilder` function along with the required parameters.
+
+#### Example
+
+```typescript
+const testCases = [
+  {
+    case: 'Test Case 1',
+    prompt: 'Find all the active resources',
+    outputInstructions:
+      'The output should have a single column `resource_name` arranged in alphabetical order.',
+    resultQuery:
+      'SELECT name as resource_name FROM resource WHERE status = 1 ORDER BY name',
+    count: 1,
+  },
+];
+
+const result = await generationAcceptanceBuilder(
+  testCases,
+  client,
+  app,
+  1,
+  true,
+);
+console.log(result);
+```
+
+### Parameters
+
+- `cases`: An array of test cases to execute.
+- `client`: The LoopBack test client.
+- `app`: The LoopBack application instance.
+- `countPerPrompt`: Number of iterations per test case (default: 1).
+- `writeReport`: Whether to generate a markdown report (default: false).
+
+### Test Case Structure
+
+Each test case should follow the `GenerationAcceptanceTestCase` interface:
+
+```typescript
+interface GenerationAcceptanceTestCase {
+  case: string; // Name of the test case
+  prompt: string; // Prompt to send to the LLM
+  outputInstructions: string; // Additional instructions for the output
+  resultQuery: string; // Expected SQL query
+  count?: number; // Number of iterations (optional)
+  only?: boolean; // Run only this test case (optional)
+  skip?: boolean; // Skip this test case (optional)
+}
+```
+
+## Report Generation
+
+The builder generates a markdown report summarizing the test results. The report includes:
+
+- Success metrics
+- Time metrics
+- Token usage metrics
+- Detailed results for each test case
+- Failed queries with actual and expected results
+
+The report is saved in the `llm-reports` directory with a filename based on the model name.
+
+## Environment Variables
+
+The builder relies on the following environment variables:
+
+- `SAMPLE_DEAL_NAME`: Default value for `<testDeal>` placeholder.
+- `TEST_TENANT_ID`: Tenant ID for token generation.
+- `JWT_SECRET`: Secret key for signing JWT tokens.
+- `JWT_ISSUER`: Issuer for JWT tokens.
+
+## Dependencies
+
+- `@loopback/testlab`
+- `@loopback/core`
+- `@loopback/repository`
+- `@sourceloop/core`
+- `jsonwebtoken`
+- `crypto`
+- `fs`
@@ -46,8 +46,8 @@
       "default": "./dist/sub-modules/providers/pg/index.js"
     },
     "./db-query/testing": {
-      "type": "./dist/sub-modules/providers/db-query/testing/index.d.ts",
-      "default": "./dist/sub-modules/providers/db-query/testing/index.js"
+      "type": "./dist/components/db-query/testing/index.d.ts",
+      "default": "./dist/components/db-query/testing/index.js"
     }
   },
   "typesVersions": {
@@ -77,7 +77,7 @@
         "dist/sub-modules/providers/pg/index.d.ts"
       ],
       "db-query/testing": [
-        "dist/sub-modules/providers/db-query/testing/index.d.ts"
+        "dist/components/db-query/testing/index.d.ts"
       ]
     }
   },
 
@@ -0,0 +1,262 @@
+import {Client} from '@loopback/testlab';
+import {
+  GenerationAcceptanceSuiteResult,
+  GenerationAcceptanceTestCase,
+  GenerationAcceptanceTestResult,
+} from './types';
+import {Application} from '@loopback/core';
+import {PermissionKey} from '../../../permissions';
+import {DbQueryAIExtensionBindings} from '../keys';
+import {sign} from 'jsonwebtoken';
+import {randomUUID} from 'crypto';
+import {
+  LLMStreamEvent,
+  LLMStreamEventType,
+  LLMStreamTokenCountEvent,
+  LLMStreamToolStatusEvent,
+  ToolStatus,
+} from '../../../graphs';
+import {generateMarkdownTable, getModelNameFromEnv} from './utils';
+import {writeFileSync} from 'fs';
+import {juggler} from '@loopback/repository';
+import {ILogger, LOGGER} from '@sourceloop/core';
+
+function parsePrompt(prompt: string) {
+  const keys: Record<string, string> = {
+    testDeal: process.env.SAMPLE_DEAL_NAME ?? 'test-deal',
+  };
+  for (const key of Object.keys(keys)) {
+    prompt = prompt.replace(new RegExp(`\\<${key}\\>`, 'g'), keys[key]);
+  }
+  return prompt;
+}
+
+function parseQuery(prompt: string) {
+  const keys: Record<string, string> = {
+    testDeal: (process.env.SAMPLE_DEAL_NAME ?? 'test-deal')
+      .split(' ')
+      .join('%')
+      .split('_')
+      .join('%'),
+    tenantId: process.env.TEST_TENANT_ID ?? 'test-tenant',
+    date: new Date().toISOString().split('T')[0],
+  };
+  for (const key of Object.keys(keys)) {
+    prompt = prompt.replace(new RegExp(`\\<${key}\\>`, 'g'), keys[key]);
+  }
+  return prompt;
+}
+
+function tokenBuilder(tenantid: string, permissions: string[]) {
+  return sign(
+    {
+      id: randomUUID(),
+      userTenantId: randomUUID(),
+      permissions: permissions,
+      tenantId: tenantid,
+    },
+    process.env.JWT_SECRET ?? '',
+    {
+      issuer: process.env.JWT_ISSUER ?? '',
+    },
+  );
+}
+
+export async function generationAcceptanceBuilder(
+  cases: GenerationAcceptanceTestCase[],
+  client: Client,
+  app: Application,
+  countPerPrompt = 1,
+  writeReport = false,
+): Promise<GenerationAcceptanceSuiteResult> {
+  // setup app
+  const config = app.getSync(DbQueryAIExtensionBindings.Config);
+  const token = tokenBuilder(process.env.TEST_TENANT_ID ?? 'test-tenant', [
+    ...config.models.map(v => v.readPermissionKey),
+    PermissionKey.AskAI,
+    PermissionKey.ViewDataset,
+    PermissionKey.ExecuteDataset,
+  ]);
+  const datasetStore = await app.get(DbQueryAIExtensionBindings.DatasetStore);
+  const ds = await app.get<juggler.DataSource>('datasources.db');
+  const logger = await app.get<ILogger>(LOGGER.LOGGER_INJECT);
+
+  const results: GenerationAcceptanceTestResult[] = [];
+  const anyOnly = cases.some(q => q.only);
+  const queriesToRun = anyOnly
+    ? cases.filter(q => q.only && !q.skip)
+    : cases.filter(q => !q.skip);
+
+  for (const query of queriesToRun) {
+    const count = query.count ?? countPerPrompt;
+    for (let i = 0; i < count; i++) {
+      logger.info(
+        `Running query: ${query.case} ${i > 0 ? `Iteration: ${i + 1}` : ''}`,
+      );
+      const result: GenerationAcceptanceTestResult = {
+        success: false,
+        time: 0,
+        inputTokens: 0,
+        outputTokens: 0,
+        emptyOutput: false,
+        generationCount: 0,
+        query: '',
+        case: query.case,
+        description: '',
+        actualResult: null,
+        expectedResult: null,
+      };
+      try {
+        const startTime = Date.now();
+        const {body} = await client
+          .post('/reply')
+          .set('Authorization', `Bearer ${token}`)
+          .field(
+            'prompt',
+            `${parsePrompt(query.prompt)}. ${query.outputInstructions}`,
+          )
+          .expect(200);
+        // time in seconds
+        result.time = (Date.now() - startTime) / 1000;
+        const status = body.filter(
+          (v: LLMStreamEvent) => v.type === LLMStreamEventType.ToolStatus,
+        );
+        const lastStatus: LLMStreamToolStatusEvent = status[status.length - 1];
+        const [tokenCount]: LLMStreamTokenCountEvent[] = body.filter(
+          (v: LLMStreamEvent) => v.type === LLMStreamEventType.TokenCount,
+        );
+        result.inputTokens = tokenCount.data.inputTokens;
+        result.outputTokens = tokenCount.data.outputTokens;
+
+        const finalDescription = body.filter(
+          (v: LLMStreamEvent) =>
+            v.type === LLMStreamEventType.ToolStatus &&
+            v.data.status.startsWith('DESCRIPTION:'),
+        );
+        if (finalDescription.length > 0) {
+          result.description = finalDescription
+            .pop()
+            .data.status.replace('DESCRIPTION:', '');
+        }
+        result.generationCount = body.filter(
+          (v: LLMStreamEvent) =>
+            v.type === LLMStreamEventType.ToolStatus &&
+            v.data.status === 'Generating SQL query from the prompt',
+        ).length;
+        if (lastStatus.data.status === ToolStatus.Completed) {
+          const dataset = await datasetStore.findById(
+            lastStatus.data.data?.['datasetId'],
+          );
+          result.query = parseQuery(dataset.query);
+          const {body: actualData} = await client
+            .get(`/datasets/${dataset.id}/execute`)
+            .set('Authorization', `Bearer ${token}`)
+            .expect(200);
+          const expectedData = await ds.execute(parseQuery(query.resultQuery));
+          result.actualResult = actualData;
+          result.expectedResult = expectedData;
+          // compare actualData and expectedData
+          if (JSON.stringify(actualData) === JSON.stringify(expectedData)) {
+            result.success = true;
+          }
+          if (expectedData.length === 0) {
+            result.emptyOutput = true;
+          }
+        } else {
+          result.actualResult = JSON.stringify(lastStatus);
+          logger.error('Tool did not complete successfully');
+        }
+      } catch (error) {
+        result.actualResult = error.message ?? error.toString();
+        logger.error('Error: ', error);
+      }
+      results.push(result);
+      if (writeReport) {
+        writeResultSoFar(results);
+      }
+    }
+  }
+
+  return buildFinalResult(results);
+}
+
+function buildFinalResult(results: GenerationAcceptanceTestResult[]) {
+  const success = results.filter(r => r.success).length;
+  const total = results.length;
+  return {
+    total,
+    success,
+    results,
+  };
+}
+
+function writeResultSoFar(results: GenerationAcceptanceTestResult[]) {
+  const successCount = results.filter(r => r.success).length;
+  const totalCount = results.length;
+  const totalInputTokens = results.reduce((acc, r) => acc + r.inputTokens, 0);
+  const totalOutputTokens = results.reduce((acc, r) => acc + r.outputTokens, 0);
+  const totalTime = results.reduce((acc, r) => acc + r.time, 0);
+  const avgTime = totalTime / totalCount || 0;
+  const avgInputTokens = totalInputTokens / totalCount || 0;
+  const avgOutputTokens = totalOutputTokens / totalCount || 0;
+  const modelName = getModelNameFromEnv();
+  let report = `# For Model - ${modelName}\n`;
+  // print a table with success, non empty success, total time, avg time, total tokens, avg tokens
+  report += `## Success Metrics\n`;
+  report += generateMarkdownTable([
+    {
+      'Success Count': successCount,
+      'Total Count': results.length,
+      'Success Rate': ((successCount / totalCount) * 100).toFixed(2) + '%',
+    },
+  ]);
+  report += `\n## Time Metrics\n`;
+  report += generateMarkdownTable([
+    {
+      'Total Time (s)': totalTime.toFixed(2),
+      'Avg Time (s)': avgTime.toFixed(2),
+    },
+  ]);
+  report += `\n## Token Metrics\n`;
+  report += generateMarkdownTable([
+    {
+      'Total Input Tokens': totalInputTokens,
+      'Total Output Tokens': totalOutputTokens,
+      'Avg Input Tokens': avgInputTokens.toFixed(2),
+      'Avg Output Tokens': avgOutputTokens.toFixed(2),
+      'Total Tokens': (totalInputTokens + totalOutputTokens).toFixed(2),
+    },
+  ]);
+  report += `\n## Detailed Results\n`;
+  report += generateMarkdownTable(
+    results.map(result => ({
+      Query: result.case,
+      Success: result.success ? `:green_circle:` : `:red_circle:`,
+      'Empty Output': result.emptyOutput,
+      'Time (s)': result.time.toFixed(2),
+      'Input Tokens Used': result.inputTokens,
+      'Output Tokens Used': result.outputTokens,
+      'Generation Count': result.generationCount,
+    })),
+  );
+  report += `\n## Failed Queries and Results\n`;
+  for (const result of results) {
+    if (result.success) continue;
+    report += `\n ### Query: ${result.case}\n`;
+    report += `**Description:** ${result.description}\n\n`;
+    report += `\n \`\`\`sql\n${result.query}\n\`\`\`\n`;
+    report += `\n**Actual Result:**\n\n`;
+    if (Array.isArray(result.actualResult)) {
+      report += generateMarkdownTable(result.actualResult ?? []);
+    } else {
+      report += '```\n' + JSON.stringify(result.actualResult) + '\n```\n';
+    }
+    report += `\n**Expected Result:**\n\n`;
+    report += generateMarkdownTable(result.expectedResult ?? []);
+    report += `\n---\n`;
+  }
+  writeFileSync(
+    `./llm-reports/generation-report-${modelName.toLowerCase().replace(/[\s\_\/\\]/g, '-')}.md`,
+    report,
+  );
+}
Original file line number	Diff line number	Diff line change
`@@ -46,8 +46,8 @@`
`46`	`46`	`"default": "./dist/sub-modules/providers/pg/index.js"`
`47`	`47`	`},`
`48`	`48`	`"./db-query/testing": {`
`49`		`- "type": "./dist/sub-modules/providers/db-query/testing/index.d.ts",`
`50`		`- "default": "./dist/sub-modules/providers/db-query/testing/index.js"`
	`49`	`+ "type": "./dist/components/db-query/testing/index.d.ts",`
	`50`	`+ "default": "./dist/components/db-query/testing/index.js"`
`51`	`51`	`}`
`52`	`52`	`},`
`53`	`53`	`"typesVersions": {`
`@@ -77,7 +77,7 @@`
`77`	`77`	`"dist/sub-modules/providers/pg/index.d.ts"`
`78`	`78`	`],`
`79`	`79`	`"db-query/testing": [`
`80`		`- "dist/sub-modules/providers/db-query/testing/index.d.ts"`
	`80`	`+ "dist/components/db-query/testing/index.d.ts"`
`81`	`81`	`]`
`82`	`82`	`}`
`83`	`83`	`},`