sourcegraph
diff --git a/‎README.md‎
Lines changed: 3 additions & 3 deletions b/‎README.md‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎benchmarks/README.md‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/README.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-057/task.toml‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-057/task.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-057/tests/eval.sh‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-057/tests/eval.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-057/tests/oracle_checks.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-057/tests/oracle_checks.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-188/task.toml‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-188/task.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-188/tests/eval.sh‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-188/tests/eval.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-188/tests/oracle_checks.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_doe_trim/ccx-compliance-188/tests/oracle_checks.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_extra/ccx-compliance-057-ds/task.toml‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_extra/ccx-compliance-057-ds/task.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/backups/csb_org_compliance_extra/ccx-compliance-057-ds/tests/eval.sh‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/backups/csb_org_compliance_extra/ccx-compliance-057-ds/tests/eval.sh‎
Lines changed: 1 addition & 1 deletion
@@ -15,7 +15,7 @@ time_limit_sec = 900
 mcp_suite = "csb_org_compliance"
 use_case_id = 57
 repo_set_id = "grafana-observability"
-mcp_unique = true
+org_scale = true
 verification_modes = ["artifact"]
 
 [verification]
 
@@ -1,5 +1,5 @@
 #!/bin/bash
-# eval.sh — MCP-unique benchmark evaluator for CCX-compliance-057
+# eval.sh — org-scale benchmark evaluator for CCX-compliance-057
 # Exit-code-first (SWE-Factory pattern):
 #   exit 0 — agent produced useful output (composite score > 0)
 #   exit 1 — total failure (composite score == 0 or missing answer)
 
@@ -1,5 +1,5 @@
 #!/usr/bin/env python3
-"""Deterministic oracle check library for MCP-unique benchmark evaluation.
+"""Deterministic oracle check library for org-scale benchmark evaluation.
 
 Provides reusable check functions that eval.sh scripts invoke to score agent
 answers against closed-world oracle definitions. Returns raw scores (no
 
@@ -15,7 +15,7 @@ time_limit_sec = 900
 mcp_suite = "csb_org_compliance"
 use_case_id = 188
 repo_set_id = "envoy-service-mesh"
-mcp_unique = true
+org_scale = true
 verification_modes = ["artifact"]
 
 [verification]
 
@@ -1,5 +1,5 @@
 #!/bin/bash
-# eval.sh — MCP-unique benchmark evaluator for CCX-compliance-188
+# eval.sh — org-scale benchmark evaluator for CCX-compliance-188
 # Exit-code-first (SWE-Factory pattern):
 #   exit 0 — agent produced useful output (composite score > 0)
 #   exit 1 — total failure (composite score == 0 or missing answer)
 
@@ -1,5 +1,5 @@
 #!/usr/bin/env python3
-"""Deterministic oracle check library for MCP-unique benchmark evaluation.
+"""Deterministic oracle check library for org-scale benchmark evaluation.
 
 Provides reusable check functions that eval.sh scripts invoke to score agent
 answers against closed-world oracle definitions. Returns raw scores (no
 
@@ -15,7 +15,7 @@ time_limit_sec = 1200
 mcp_suite = "csb_org_compliance"
 use_case_id = 57
 repo_set_id = "grafana-observability"
-mcp_unique = true
+org_scale = true
 deepsearch_relevant = true
 
 [verification]
 
@@ -1,5 +1,5 @@
 #!/bin/bash
-# eval.sh — MCP-unique benchmark evaluator for CCX-compliance-057-ds
+# eval.sh — org-scale benchmark evaluator for CCX-compliance-057-ds
 # Exit-code-first (SWE-Factory pattern):
 #   exit 0 — agent produced useful output (composite score > 0)
 #   exit 1 — total failure (composite score == 0 or missing answer)