总排名
点击任意模型查看维度细分 · 95% CI 基于 60 题标准误差
维度雷达图
选择最多 3 个模型对比各维度表现
统计说明:
当前 n=60 道题,整体 95% CI ≈ ±3–6 pts,每维度(n=6)CI ≈ ±7 pts。
得分差距在 5 pts 以内的模型在统计上无法区分排名。
v2.0 完整版将扩展至 135 道题(每维度 15 题),届时 CI 将缩小至 ±8 pts/维度。
评分方法:3 层加权评分 — Rubric 匹配(40%)+ 代码/结构质量(30%)+ BM25 语义相似度(30%)。
所有模型使用 temperature=0.1 单次采样(n=1)。
维度说明