Skip to content

Commit 8c7a050

Browse files
committed
update
1 parent 962c8ab commit 8c7a050

1 file changed

Lines changed: 1 addition & 2 deletions

File tree

source/_posts/2026/20260316a_【著者解説】NLP2026_若手奨励賞受賞論文_"TimeMachine-bench"_を著者が解説する.md

Lines changed: 1 addition & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -152,8 +152,7 @@ lede: "こんにちは。Strategic AI Group の藤井です。この度、3/9
152152
| DeepSeek-V3.1 | 75.0 | 61.4 | 52 (81.3) | 21 (70.0) | 2 (33.3) |
153153
| gpt-oss-120b (low) | 55.0 | 33.8 | 36 (56.3) | 19 (63.3) | 0 (0.0) |
154154

155-
この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。
156-
また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。
155+
この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。
157156

158157
従来ベンチマーク化されてこなかった「リポジトリレベル」のマイグレーションという (モデルにとって) 未知のタスクにおいて、これだけのスコアを達成したということは、モデルが単に既存のベンチマークを暗記しているのではなく、実用的なエンジニアリングタスクに対して一定の汎化性能を有することを示す結果であると考えられます。
159158

0 commit comments

Comments
 (0)