v2.0 模型排行榜

12 个前沿模型在 60 道 SAP ABAP 与 S/4HANA 迁移题目上的完整评测结果。评测时间：2026 年 4 月。

60 tasks · 9 dimensions · 1200 pts 3-layer scoring 12 models 2026-04-09

Models Tested

Top Score /100

±3.2

Avg 95% CI

59.3

Median Score

总排名

点击任意模型查看维度细分 · 95% CI 基于 60 题标准误差

#	模型	得分	原始分	延迟	Token

维度雷达图

选择最多 3 个模型对比各维度表现

统计说明： 当前 n=60 道题，整体 95% CI ≈ ±3–6 pts，每维度（n=6）CI ≈ ±7 pts。得分差距在 5 pts 以内的模型在统计上无法区分排名。 v2.0 完整版将扩展至 135 道题（每维度 15 题），届时 CI 将缩小至 ±8 pts/维度。

评分方法：3 层加权评分 — Rubric 匹配（40%）+ 代码/结构质量（30%）+ BM25 语义相似度（30%）。所有模型使用 temperature=0.1 单次采样（n=1）。

维度说明

维度	题目数	考察重点	均分