🤖 bench: switch Terminal Bench GPT 5.2 to GPT 5.4 (#2824)

ibetitsmike · web-flow · commit c4f5cff2653c · 2026-03-06T11:03:57.000Z
## Summary
- switch the Terminal Bench workflow defaults/examples from
`openai/gpt-5.2` to `openai/gpt-5.4`
- add GPT-5.4 leaderboard metadata while preserving the GPT-5.2 mapping
for mixed or historical artifacts

## Validation
- `make static-check`
- `python3 -m py_compile
benchmarks/terminal_bench/prepare_leaderboard_submission.py`
- targeted `python3` verification that workflow defaults now reference
GPT 5.4 and metadata preserves both GPT 5.2 and GPT 5.4 entries

---

_Generated with `mux` • Model: `openai:gpt-5.4` • Thinking: `xhigh` •
Cost: `$0.36`_

&lt;!-- mux-attribution: model=openai:gpt-5.4 thinking=xhigh costs=0.36 --&gt;
diff --git a/.github/workflows/nightly-terminal-bench.yml b/.github/workflows/nightly-terminal-bench.yml
@@ -10,7 +10,7 @@ on:
   workflow_dispatch:
     inputs:
       models:
-        description: 'Models to test (comma-separated, or "all" for opus-4-6 + gpt-5.3-codex + gpt-5.2 + google/gemini-3-pro-preview + google/gemini-3-flash-preview)'
+        description: 'Models to test (comma-separated, or "all" for opus-4-6 + gpt-5.3-codex + gpt-5.4 + google/gemini-3-pro-preview + google/gemini-3-flash-preview)'
         required: false
         default: "all"
         type: string
@@ -99,7 +99,7 @@ jobs:
           INPUT_MODELS: ${{ inputs.models }}
         run: |
           if [ "$INPUT_MODELS" = "all" ] || [ -z "$INPUT_MODELS" ]; then
-            echo 'models=["anthropic/claude-opus-4-6","openai/gpt-5.3-codex","openai/gpt-5.2","google/gemini-3-pro-preview","google/gemini-3-flash-preview"]' >> "$GITHUB_OUTPUT"
+            echo 'models=["anthropic/claude-opus-4-6","openai/gpt-5.3-codex","openai/gpt-5.4","google/gemini-3-pro-preview","google/gemini-3-flash-preview"]' >> "$GITHUB_OUTPUT"
           else
             # Convert comma-separated to JSON array
             models_json=$(echo "$INPUT_MODELS" | jq -R -s -c 'split(",") | map(gsub("^\\s+|\\s+$"; ""))')
diff --git a/.github/workflows/terminal-bench.yml b/.github/workflows/terminal-bench.yml
@@ -87,7 +87,7 @@ on:
         required: false
         type: string
       model_name:
-        description: "Model to use (e.g., anthropic/claude-opus-4-5, openai/gpt-5.2)"
+        description: "Model to use (e.g., anthropic/claude-opus-4-5, openai/gpt-5.4)"
         required: false
         type: string
       mux_run_args:
diff --git a/benchmarks/terminal_bench/prepare_leaderboard_submission.py b/benchmarks/terminal_bench/prepare_leaderboard_submission.py
@@ -102,13 +102,22 @@
         "model_org_display_name": "Anthropic",
         "folder_name": "Claude-Opus-4.6",
     },
+    # Keep historical GPT-5.2 metadata alongside the new GPT-5.4 bench target
+    # so mixed or older artifact sets still map to the canonical leaderboard names.
     "openai/gpt-5.2": {
         "model_name": "gpt-5.2",
         "model_provider": "openai",
         "model_display_name": "GPT-5.2",
         "model_org_display_name": "OpenAI",
         "folder_name": "GPT-5.2",
     },
+    "openai/gpt-5.4": {
+        "model_name": "gpt-5.4",
+        "model_provider": "openai",
+        "model_display_name": "GPT-5.4",
+        "model_org_display_name": "OpenAI",
+        "folder_name": "GPT-5.4",
+    },
     "openai/gpt-5-codex": {
         "model_name": "gpt-5-codex",
         "model_provider": "openai",