ABAP-Bench / Leaderboard v2.0
ABAP-Bench · Benchmark Results

v2.0 模型排行榜

12 个前沿模型在 60 道 SAP ABAP 与 S/4HANA 迁移题目上的完整评测结果。评测时间:2026 年 4 月。

60 tasks · 9 dimensions · 1200 pts 3-layer scoring 12 models 2026-04-09
12
Models Tested
68
Top Score /100
±3.2
Avg 95% CI
59.3
Median Score

总排名

点击任意模型查看维度细分 · 95% CI 基于 60 题标准误差
# 模型 得分 原始分 延迟 Token

维度雷达图

选择最多 3 个模型对比各维度表现
统计说明: 当前 n=60 道题,整体 95% CI ≈ ±3–6 pts,每维度(n=6)CI ≈ ±7 pts。 得分差距在 5 pts 以内的模型在统计上无法区分排名。 v2.0 完整版将扩展至 135 道题(每维度 15 题),届时 CI 将缩小至 ±8 pts/维度。

评分方法:3 层加权评分 — Rubric 匹配(40%)+ 代码/结构质量(30%)+ BM25 语义相似度(30%)。 所有模型使用 temperature=0.1 单次采样(n=1)。

维度说明

维度 题目数 考察重点 均分