From 8c7a0508d18d3e17fc6d876eafd6960ff36ad6af Mon Sep 17 00:00:00 2001 From: ma91n Date: Mon, 16 Mar 2026 14:42:51 +0900 Subject: [PATCH] update --- ...201\214\350\247\243\350\252\254\343\201\231\343\202\213.md" | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git "a/source/_posts/2026/20260316a_\343\200\220\350\221\227\350\200\205\350\247\243\350\252\254\343\200\221NLP2026_\350\213\245\346\211\213\345\245\250\345\212\261\350\263\236\345\217\227\350\263\236\350\253\226\346\226\207_\"TimeMachine-bench\"_\343\202\222\350\221\227\350\200\205\343\201\214\350\247\243\350\252\254\343\201\231\343\202\213.md" "b/source/_posts/2026/20260316a_\343\200\220\350\221\227\350\200\205\350\247\243\350\252\254\343\200\221NLP2026_\350\213\245\346\211\213\345\245\250\345\212\261\350\263\236\345\217\227\350\263\236\350\253\226\346\226\207_\"TimeMachine-bench\"_\343\202\222\350\221\227\350\200\205\343\201\214\350\247\243\350\252\254\343\201\231\343\202\213.md" index 8221cb4783b..45d9b38700a 100644 --- "a/source/_posts/2026/20260316a_\343\200\220\350\221\227\350\200\205\350\247\243\350\252\254\343\200\221NLP2026_\350\213\245\346\211\213\345\245\250\345\212\261\350\263\236\345\217\227\350\263\236\350\253\226\346\226\207_\"TimeMachine-bench\"_\343\202\222\350\221\227\350\200\205\343\201\214\350\247\243\350\252\254\343\201\231\343\202\213.md" +++ "b/source/_posts/2026/20260316a_\343\200\220\350\221\227\350\200\205\350\247\243\350\252\254\343\200\221NLP2026_\350\213\245\346\211\213\345\245\250\345\212\261\350\263\236\345\217\227\350\263\236\350\253\226\346\226\207_\"TimeMachine-bench\"_\343\202\222\350\221\227\350\200\205\343\201\214\350\247\243\350\252\254\343\201\231\343\202\213.md" @@ -152,8 +152,7 @@ lede: "こんにちは。Strategic AI Group の藤井です。この度、3/9 | DeepSeek-V3.1 | 75.0 | 61.4 | 52 (81.3) | 21 (70.0) | 2 (33.3) | | gpt-oss-120b (low) | 55.0 | 33.8 | 36 (56.3) | 19 (63.3) | 0 (0.0) | -この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。 -また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。 +この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。 従来ベンチマーク化されてこなかった「リポジトリレベル」のマイグレーションという (モデルにとって) 未知のタスクにおいて、これだけのスコアを達成したということは、モデルが単に既存のベンチマークを暗記しているのではなく、実用的なエンジニアリングタスクに対して一定の汎化性能を有することを示す結果であると考えられます。