future-architect · ma91n · Mar 16, 2026 · Mar 16, 2026
diff --git a/...e/_posts/2026/20260316a_【著者解説】NLP2026_若手奨励賞受賞論文_"TimeMachine-bench"_を著者が解説する.md b/...e/_posts/2026/20260316a_【著者解説】NLP2026_若手奨励賞受賞論文_"TimeMachine-bench"_を著者が解説する.md
@@ -152,8 +152,7 @@ lede: "こんにちは。Strategic AI Group  の藤井です。この度、3/9
 | DeepSeek-V3.1        | 75.0         | 61.4         | 52 (81.3)  | 21 (70.0)  | 2 (33.3) |
 | gpt-oss-120b (low)   | 55.0         | 33.8         | 36 (56.3)  | 19 (63.3)  | 0 (0.0)  |
 
-この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。
-また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。
+この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。
 
 従来ベンチマーク化されてこなかった「リポジトリレベル」のマイグレーションという (モデルにとって) 未知のタスクにおいて、これだけのスコアを達成したということは、モデルが単に既存のベンチマークを暗記しているのではなく、実用的なエンジニアリングタスクに対して一定の汎化性能を有することを示す結果であると考えられます。