Add benchmark version to result json.

superdosh · superdosh · commit 1546793c2e0e · 2025-12-05T14:16:04.000-05:00
diff --git a/src/modelbench/record.py b/src/modelbench/record.py
@@ -103,7 +103,8 @@ def default(self, o):
                 del result["_scoring_log"]
             return result
         elif isinstance(o, BenchmarkDefinition):
-            return {"uid": o.uid, "hazards": o.hazards()}
+            benchmark_version = o.get_uid_part("version")
+            return {"uid": o.uid, "hazards": o.hazards(), "version": benchmark_version}
         elif isinstance(o, HazardDefinition):
             result = {"uid": o.uid, "reference_standard": o.reference_standard()}
             if o._tests:
diff --git a/src/modelbench/uid.py b/src/modelbench/uid.py
@@ -78,5 +78,16 @@ def uid(self):
 
         return HasUid._render_uid(self, self.__class__._uid_definition)
 
+    def get_uid_part(self, part_name: str) -> str:
+        """Gets string-rendered value of a specific part of the UID."""
+        if not hasattr(self.__class__, "_uid_definition"):
+            raise AttributeError("classes with HasUid must define _uid_definition")
+
+        uid_def = self.__class__._uid_definition
+        if part_name not in uid_def:
+            raise KeyError(f"part name {part_name} not found in _uid_definition")
+
+        return HasUid._render_uid(self, {part_name: uid_def[part_name]})
+
     def __str__(self):
         return f"{self.__class__.__name__}({self.uid})"
diff --git a/tests/modelbench_tests/test_record.py b/tests/modelbench_tests/test_record.py
@@ -186,12 +186,21 @@ def test_v1_hazard_definition_with_tests_loaded(secrets):
     assert j["reference_standard"] == hazard.reference_standard()
 
 
-def test_benchmark_definition():
+def test_general_benchmark_definition():
     j = encode_and_parse(GeneralPurposeAiChatBenchmarkV1(locale=EN_US, prompt_set="practice"))
     assert j["uid"] == "general_purpose_ai_chat_benchmark-1.1-en_us-practice-default"
+    assert j["version"] == "1.1"
     assert "safe_hazard-1.1-cse-en_us-practice" in [i["uid"] for i in j["hazards"]]
 
 
+def test_security_benchmark_definition():
+    j = encode_and_parse(SecurityBenchmark(locale=EN_US, prompt_set="official"))
+    assert j["uid"] == "security_benchmark-0.5-en_us-official-default"
+    assert j["version"] == "0.5"
+    hazard_uids = [i["uid"] for i in j["hazards"]]
+    assert "security_jailbreak_hazard-0.5-en_us-official" in hazard_uids
+
+
 def test_hazard_score():
     hazard = SafeHazardV1("cse", EN_US, "practice")
     hazard.set_standard(GeneralPurposeAiChatBenchmarkV1(locale=EN_US, prompt_set="practice").standards)