eval-protocol
diff --git a/‎eval_protocol/benchmarks/test_frozen_lake.py‎
Lines changed: 1 addition & 1 deletion b/‎eval_protocol/benchmarks/test_frozen_lake.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎eval_protocol/quickstart/aha_judge/llm_judge.py‎
Lines changed: 1 addition & 1 deletion b/‎eval_protocol/quickstart/aha_judge/llm_judge.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎eval_protocol/quickstart/aha_judge/llm_judge_openai_responses.py‎
Lines changed: 1 addition & 1 deletion b/‎eval_protocol/quickstart/aha_judge/llm_judge_openai_responses.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎eval_protocol/quickstart/aha_judge/utils.py‎
Lines changed: 2 additions & 2 deletions b/‎eval_protocol/quickstart/aha_judge/utils.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎eval_protocol/quickstart/llm_judge.py‎
Lines changed: 1 addition & 1 deletion b/‎eval_protocol/quickstart/llm_judge.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎eval_protocol/quickstart/utils.py‎
Lines changed: 2 additions & 2 deletions b/‎eval_protocol/quickstart/utils.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎eval_protocol/training/gepa_utils.py‎
Lines changed: 2 additions & 2 deletions b/‎eval_protocol/training/gepa_utils.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎tests/chinook/pydantic/test_pydantic_chinook.py‎
Lines changed: 3 additions & 2 deletions b/‎tests/chinook/pydantic/test_pydantic_chinook.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎tests/chinook/pydantic/test_pydantic_complex_queries.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/chinook/pydantic/test_pydantic_complex_queries.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/pytest/data/basic_coding_dataset.jsonl‎
Lines changed: 0 additions & 10 deletions b/‎tests/pytest/data/basic_coding_dataset.jsonl‎
Lines changed: 0 additions & 10 deletions
@@ -42,7 +42,7 @@ def frozen_lake_to_evaluation_row(data: List[Dict[str, Any]]) -> List[Evaluation
         {
             "temperature": 0.0,
             "max_tokens": 4096,
-            "model": "fireworks_ai/accounts/fireworks/models/kimi-k2-instruct-0905",
+            "model": "fireworks_ai/accounts/fireworks/models/kimi-k2p5",
         }
     ],
     rollout_processor=MCPGymRolloutProcessor(),
 
@@ -17,7 +17,7 @@
 
 
 async def aha_judge(
-    row: EvaluationRow, judge_name: str = "kimi-k2-instruct-0905", adapter: Optional[BaseAdapter] = None
+    row: EvaluationRow, judge_name: str = "kimi-k2p5", adapter: Optional[BaseAdapter] = None
 ) -> EvaluationRow:
     """
     LLM Judge evaluation using Arena-Hard-Auto style pairwise comparisons for a single row.
 
@@ -50,7 +50,7 @@ def openai_responses_data_generator():
             "model": "fireworks_ai/accounts/fireworks/models/deepseek-v3p1",
         },
         {
-            "model": "fireworks_ai/accounts/fireworks/models/kimi-k2-instruct-0905",
+            "model": "fireworks_ai/accounts/fireworks/models/kimi-k2p5",
         },
     ],
 )
 
@@ -49,8 +49,8 @@
         "api_key": os.getenv("GEMINI_API_KEY"),
         "base_url": "https://generativelanguage.googleapis.com/v1beta/openai/",
     },
-    "kimi-k2-instruct-0905": {
-        "model": "accounts/fireworks/models/kimi-k2-instruct-0905",
+    "kimi-k2p5": {
+        "model": "accounts/fireworks/models/kimi-k2p5",
         "temperature": 0.6,  # Kimi recommended temperature
         "max_tokens": 131000,
         "api_key": os.getenv("FIREWORKS_API_KEY"),
 
@@ -17,7 +17,7 @@
 
 
 async def aha_judge(
-    row: EvaluationRow, judge_name: str = "kimi-k2-instruct-0905", adapter: Optional[BaseAdapter] = None
+    row: EvaluationRow, judge_name: str = "kimi-k2p5", adapter: Optional[BaseAdapter] = None
 ) -> EvaluationRow:
     """
     LLM Judge evaluation using Arena-Hard-Auto style pairwise comparisons for a single row.
 
@@ -51,8 +51,8 @@
         "api_key": os.getenv("GEMINI_API_KEY"),
         "base_url": "https://generativelanguage.googleapis.com/v1beta/openai/",
     },
-    "kimi-k2-instruct-0905": {
-        "model": "accounts/fireworks/models/kimi-k2-instruct-0905",
+    "kimi-k2p5": {
+        "model": "accounts/fireworks/models/kimi-k2p5",
         "temperature": 0.6,  # Kimi recommended temperature
         "max_tokens": 131000,
         "api_key": os.getenv("FIREWORKS_API_KEY"),
 
@@ -40,7 +40,7 @@
     },
     # Fireworks models
     "kimi-k2": {
-        "model": "fireworks_ai/accounts/fireworks/models/kimi-k2-instruct-0905",
+        "model": "fireworks_ai/accounts/fireworks/models/kimi-k2p5",
         "temperature": 0.6,
         "max_tokens": 131000,
     },
@@ -68,7 +68,7 @@ def build_reflection_lm(reflection_lm_name: str) -> LM:
 
     Args:
         reflection_lm_name: One of the predefined configs ("gpt-5", "gpt-4o",
-                           "claude-sonnet", "kimi-k2-instruct-0905")
+                           "claude-sonnet", "kimi-k2p5")
                            OR a raw LiteLLM model string (e.g., "openai/gpt-4o")
 
     Returns:
 
@@ -38,8 +38,9 @@ def agent_factory(config: RolloutProcessorConfig) -> Agent:
     "completion_params",
     [
         {
-            "model": "accounts/fireworks/models/kimi-k2-instruct-0905",
+            "model": "accounts/fireworks/models/kimi-k2p5",
             "provider": "fireworks",
+            "reasoning_effort": "none",
         },
         {
             "model": "gpt-5",
@@ -88,7 +89,7 @@ async def test_simple_query(row: EvaluationRow) -> EvaluationRow:
         )
     else:
         model = OpenAIChatModel(
-            "accounts/fireworks/models/kimi-k2-instruct-0905",
+            "accounts/fireworks/models/kimi-k2p5",
             provider="fireworks",
         )
 
 
@@ -48,7 +48,7 @@ def agent_factory(config: RolloutProcessorConfig) -> Agent:
         #     "provider": "fireworks",
         # },
         # {
-        #     "model": "accounts/fireworks/models/kimi-k2-instruct-0905",
+        #     "model": "accounts/fireworks/models/kimi-k2p5",
         #     "provider": "fireworks",
         # },
         {"model": "gpt-5"},
Original file line number	Diff line number	Diff line change
`@@ -42,7 +42,7 @@ def frozen_lake_to_evaluation_row(data: List[Dict[str, Any]]) -> List[Evaluation`
`42`	`42`	`{`
`43`	`43`	`"temperature": 0.0,`
`44`	`44`	`"max_tokens": 4096,`
`45`		`- "model": "fireworks_ai/accounts/fireworks/models/kimi-k2-instruct-0905",`
	`45`	`+ "model": "fireworks_ai/accounts/fireworks/models/kimi-k2p5",`
`46`	`46`	`}`
`47`	`47`	`],`
`48`	`48`	`rollout_processor=MCPGymRolloutProcessor(),`
Original file line number	Diff line number	Diff line change
`@@ -50,7 +50,7 @@ def openai_responses_data_generator():`
`50`	`50`	`"model": "fireworks_ai/accounts/fireworks/models/deepseek-v3p1",`
`51`	`51`	`},`
`52`	`52`	`{`
`53`		`- "model": "fireworks_ai/accounts/fireworks/models/kimi-k2-instruct-0905",`
	`53`	`+ "model": "fireworks_ai/accounts/fireworks/models/kimi-k2p5",`
`54`	`54`	`},`
`55`	`55`	`],`
`56`	`56`	`)`
Original file line number	Diff line number	Diff line change
`@@ -38,8 +38,9 @@ def agent_factory(config: RolloutProcessorConfig) -> Agent:`
`38`	`38`	`"completion_params",`
`39`	`39`	`[`
`40`	`40`	`{`
`41`		`- "model": "accounts/fireworks/models/kimi-k2-instruct-0905",`
	`41`	`+ "model": "accounts/fireworks/models/kimi-k2p5",`
`42`	`42`	`"provider": "fireworks",`
	`43`	`+ "reasoning_effort": "none",`
`43`	`44`	`},`
`44`	`45`	`{`
`45`	`46`	`"model": "gpt-5",`
`@@ -88,7 +89,7 @@ async def test_simple_query(row: EvaluationRow) -> EvaluationRow:`
`88`	`89`	`)`
`89`	`90`	`else:`
`90`	`91`	`model = OpenAIChatModel(`
`91`		`- "accounts/fireworks/models/kimi-k2-instruct-0905",`
	`92`	`+ "accounts/fireworks/models/kimi-k2p5",`
`92`	`93`	`provider="fireworks",`
`93`	`94`	`)`
`94`	`95`