Skip to content
Merged

update #1785

Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
Expand Up @@ -152,8 +152,7 @@ lede: "こんにちは。Strategic AI Group の藤井です。この度、3/9
| DeepSeek-V3.1 | 75.0 | 61.4 | 52 (81.3) | 21 (70.0) | 2 (33.3) |
| gpt-oss-120b (low) | 55.0 | 33.8 | 36 (56.3) | 19 (63.3) | 0 (0.0) |

この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。
また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。
この表を見てまず目につくのは、Claude Sonnet 4の99.0%という高いタスク解決率でしょう。また、オープンモデルの躍進も注目に値します。特に、Qwen3-Coder-480Bは前世代のフラグシップモデルであるClaude 3.5 Sonnet v2やGPT-4oに匹敵、もしくはそれらを上回るスコアを記録しました。

従来ベンチマーク化されてこなかった「リポジトリレベル」のマイグレーションという (モデルにとって) 未知のタスクにおいて、これだけのスコアを達成したということは、モデルが単に既存のベンチマークを暗記しているのではなく、実用的なエンジニアリングタスクに対して一定の汎化性能を有することを示す結果であると考えられます。

Expand Down
Loading