AB
AI for Enterprise Software · Research

当 AI 坐上
SAP 顾问的位子

SAP 迁移项目停滞多年,因为理解遗留代码的成本高于重写代码本身。AI 正在改变这个等式。

April 3, 2026 12 min read ABAP-Bench v4.0
Summary

我们构建了 ABAP-Bench——首个专为 SAP/ABAP 领域设计的 AI 评测基准(60 道专家级任务,9 大维度,三层评分引擎),并用它完整评测了智谱 GLM-5。

去年冬天,一位在华东某制造企业工作了 20 年的 SAP 顾问老张退休了。他带走的不只是一张工牌——还有整套 ECC 系统中上百支 ABAP 程序的"活地图":哪段代码曾经在半夜三点修过一个诡异的税码 bug,哪个 RFC 接口连着金税系统的哪一层认证,哪些 Z 表的字段名虽然叫 SGTXT 但实际上存的是发票备注。

这些知识没有写在任何文档里。现在,它们消失了。

老张的故事并非个例。SAP 无处不在——全球超过 77% 的交易收入流经 SAP 系统,财富 500 强中有 87% 在使用。SAP 已宣布 ECC 将于 2027 年终止主流维护。全球数十万家企业必须迁移到 S/4HANA,一个 480 亿美元的迁移市场由此诞生。

像老张这样理解这些系统的人,正在一个接一个地离开。
· · ·
01

为什么 SAP 迁移与一般代码迁移不同

如果你做过 Web 应用的框架升级,你可能会觉得"代码迁移不就那么回事"。但 SAP 迁移是完全不同的物种。你不只是将熟悉的代码更新到更好的模式——你是在逆向工程一套融合了财务、供应链、人力资源和税务合规的复杂业务系统。

代码是活的文档,而读懂这份文档的人已经不在了。

以往的解决办法是组建庞大的顾问团队,花费数月甚至数年梳理工作流。但成本让大多数企业望而却步——于是系统就这么一年又一年地"再等等"。

AI 正在改变这一切。 但具体能改变到什么程度?光靠想象没用,我们决定用数据来回答。

· · ·
02

ABAP-Bench:给 AI 出一张 SAP 顾问资格考试卷

现有的 AI 代码评测基准都帮不上忙。SWE-bench 测 GitHub bug 修复,BigCodeBench 测通用编程,HumanEval 只有算法题。SAP/ABAP 领域在 AI 评测版图上完全是空白。

所以我们自己建了一个。ABAP-Bench——60 道专家出题的 SAP 迁移任务,覆盖 9 个关键维度。每道题满分 20 分,由三层评分引擎独立评判。我们给 AI 出了一张 SAP 顾问的资格考试卷,然后认认真真地批了一遍。

· · ·
03

构建 ABAP-Bench

任务设计

每道任务都源自真实的 SAP 迁移项目场景,由领域专家编写。我们不接受泛泛而谈:如果 AI 回答"建议使用 CDS 视图替代 BKPF 表"——零分。你必须说出 I_JournalEntry,字段 BUKRS 映射到 CompanyCode

代码迁移知识
废弃 API 精确替代
6 tasks
缺陷发现
隐蔽 bug 定位
6 tasks
代码改写
ECC → S/4HANA
6 tasks
中国本土化合规
增值税 / 数电票 / PIPL
6 tasks
迁移风险
依赖链分析
6 tasks
安全与权限
授权 / SQL 注入防御
6 tasks
S/4HANA 架构
ACDOCA / BP / FI-CO
6 tasks
性能工程
索引 / AMDP / CDS
6 tasks
现代生态
RAP / Fiori / BTP
12 tasks

测试代码中使用了中文变量名(如 发票号码含税金额),这在公开代码库中极为罕见——ABAP-Bench 的"防作弊水印"。

三层评分引擎

点击每层了解评分机制:

L1 Rubric Matching 40%
专家编写的评分标准,包含加分和扣分规则。说对了 I_JournalEntry 加分,错误声称"BKPF 是 S/4HANA 的主表"扣 3 分——说错比不说更糟。
L2 Quality Analysis 30%
检查代码结构质量和回答完整性。堆砌关键词但代码一团乱麻?不行。确保 AI 不能靠"刷关键词"蒙混过关。
L3 Semantic Similarity 30%
60 篇专家黄金答案(平均 1,300 字符),BM25 算法评估概念覆盖度。可以换表达,但核心知识点必须到位。

防止评测"过期"

每季度淘汰 10% 的旧题,替换新题目;任务锚定特定版本的 SAP Note 和法规文件。像高考年年换题,ABAP-Bench 的有效性不会随时间衰减。

工程质量

174 项自动化测试 · CI/CD 流水线 · 4 个 LLM 后端 · 断点续跑
· · ·
04

首次实测:GLM-5

我们选择智谱 GLM-5 作为首个挑战者——智谱 AI 的推理旗舰模型,具备内部思维链推理能力。评测覆盖 SAP 迁移的完整生命周期,温度固定为 0.1 确保可复现。然后,我们安静地等了 145 分钟。

先猜一猜:GLM-5 能拿多少分?

60 道 SAP 专家级题目,满分 100

50
· · ·
05

评测结果:61 / 100

0 /100
Overall
0%
Best Dim
0 min
Eval Time
0
Tokens

第一眼看可能觉得"也就那样"。但深入到具体任务,一幅更生动的画面浮现出来——这种参差,本身就是最有价值的发现。

最高 中国合规 67.5%
次高 迁移风险 64.2%
中位 安全权限 60.8%
最低 缺陷发现 54.2%
极差 13.3 个百分点
Fig. 1 — GLM-5 九维度得分分布
Interactive

你能找到这个 ABAP bug 吗?—— 第一个 LOOP AT gt_bkpf INTO DATA(ls_bkpf) 循环结束后,ls_bkpf 的值会是什么?

Correct. ABAP 的 DATA() 内联声明变量在循环结束后仍然存在,保留最后一次迭代的值。GLM-5 正确识别了这个 bug,并指出会导致"所有发票的红冲/正常状态判断完全错误"。这是评测中最惊喜的发现之一。

令人惊喜的时刻

1

它写出了可以直接编译的 S/4HANA 代码

T03 · 16/20

把 ECC 时代的嵌套 SELECT(BKPF + BSEG,典型 N+1 灾难)改写为 S/4HANA 兼容版本。

* ECC: N+1 query anti-pattern
SELECT * FROM bkpf INTO TABLE @DATA(lt_bkpf)
  WHERE bukrs = @p_bukrs AND gjahr = @p_gjahr.
LOOP AT lt_bkpf INTO DATA(ls_bkpf).
  SELECT * FROM bseg INTO TABLE @DATA(lt_bseg)
    WHERE bukrs = @ls_bkpf-bukrs
      AND belnr = @ls_bkpf-belnr
      AND gjahr = @ls_bkpf-gjahr.
ENDLOOP.
* GLM-5: CDS View JOIN, single query
SELECT
  j~CompanyCode,
  j~AccountingDocument,
  j~FiscalYear,
  i~AccountingDocumentItem,
  i~GLAccount,
  i~AmountInCompanyCodeCurrency
FROM I_JournalEntry AS j
  INNER JOIN I_JournalEntryItem AS i
    ON j~CompanyCode = i~CompanyCode
   AND j~AccountingDocument = i~AccountingDocument
   AND j~FiscalYear = i~FiscalYear
WHERE j~CompanyCode = @p_bukrs
  AND j~FiscalYear = @p_gjahr
INTO TABLE @DATA(lt_result).

正确选择 CDS 视图 JOIN,精确映射字段名(BUKRSCompanyCode),使用现代内联声明语法。这段代码可以直接编译运行。

2

像细心的 code reviewer 一样找到隐蔽 bug

T02 · 12/20

VAT 发票处理程序中埋了 5 个 bug。GLM-5 精准命中了最重要的一颗:变量 ls_bkpf 在循环结束后的残留值问题,并准确描述了业务影响——"所有发票的红冲/正常状态判断完全错误,导致税务申报数据严重失真"。

这不是背书式的回答,而是真正理解 ABAP 运行时行为和增值税业务语境的回答。

3

中国本土法规是它的主场

T16 · 17/20

全场最高分。准确识别了五险一金计算规则、个税累计预扣法的具体字段、HR_READ_INFOTYPE 函数模块的标准用法。Rubric 满分,结构质量满分。

增值税红字发票规则、数电票影响、PIPL 数据合规——这些答案散落在中文政策文件和 SAP 配置深处,连资深顾问都需要查阅半天。

4

堪比初级顾问的风险分析

T43 · 16/20

评估 800 个自定义表的 ECC 系统迁移风险。GLM-5 识别了 Pool/Cluster 表影响、引用已删除字段的 Z 表问题,准确提到 SAP Readiness Check 2.0 和 ABAP Test Cockpit 的具体规则集名称。

这种分析以往需要资深顾问花数天完成。AI 在不到 4 分钟内给出了合格的初稿。

Interactive

GLM-5 在哪个维度得分最低?

Correct. 缺陷发现 54.2% 是最低分。找深层 bug 需要一种"被坑过"才会有的直觉——有经验的开发者看到 LOOP...ENDLOOP 后紧跟 IF sy-subrc = 0 就会本能皱眉。这种直觉目前还是人类独有的优势。

值得关注的局限

1

熟悉的路走得稳,陌生的路会绊倒

16 vs 5

T03(经典 CDS 改写)16/20,T37(RAP EML 改写)5/20。经典场景文档充分;前沿范式资料稀缺。GLM-5 在 T37 中方向正确(I_ProductMODIFY ENTITIES),但 EML 语法有细微错误。

就像一位刚入行的顾问:知道该走哪条路,但还不熟悉路上的每一块石头。

2

最隐蔽的 bug,仍然属于人类

5 bugs, hit 3

T02 的 5 个 bug 按隐蔽程度分级。命中前 3 个,最深的 2 个失手——内表/结构体类型混淆,以及多层 LOOP 中 SY-SUBRC 被意外覆盖。

AI 可以学习知识,但来自"被坑过"的直觉,目前还是人类独有的优势。

3

思考越久不代表答得越好

155s → 17分   447s → 6分

推理模型每题平均 145 秒。得分最高的 T16(17/20)用了 155 秒,得分最低区间的 T36(6/20)却用了 447 秒。思考更久并不能弥补知识盲区。

· · ·
06

人 + AI:SAP 迁移的最优解

不要问 AI 能不能替代 SAP 顾问,
而要问 AI 能在哪些环节帮顾问节省最多时间。

AI 今天就能承担

  • 迁移前风险评估与路线图初稿
  • 中国本土化合规梳理
  • 架构方案讨论(FI-CO / ACDOCA / CDS)
  • 经典场景的代码改写

仍需人类把关

  • 前沿编程范式的生产级代码
  • 深层缺陷的最终确认
  • 性能优化的落地实施

这不是 AI 取代人的故事,而是 AI 改变人的工作方式的故事。

过去,资深顾问花两周写迁移评估报告。现在,AI 几小时生成初稿,顾问从"从零撰写"变为"审核优化"——效率提升数倍,质量不降反升。

· · ·
07

结语:这个未来比想象的更近

SAP 迁移停滞多年,本质是经济学问题:理解遗留系统的成本太高了。

AI 正在打破这个成本壁垒。61/100 不是"刚及格"——它是一个信号:AI 在 SAP 领域已经跨过了"玩具"阶段,进入了"可用"的起点。它能写出可编译的 S/4HANA 代码,能找到变量作用域 bug,能给出带具体工具和步骤的迁移风险报告。

它暴露的短板——前沿语法精确度、最深层缺陷捕获——恰恰指明了下一步方向。这些不是根本性障碍,而是随训练数据丰富可以持续改进的能力边界。

480 亿美元的 S/4HANA 迁移市场等不了,而像老张这样的顾问已经回不来了。

好在,新的帮手已经到场——它不完美,但它 24 小时在线,不会忘记任何一个字段映射,而且每天都在变得更好。

Appendix

评测时间线

构建 ABAP-Bench v4.0
60 tasks · 3-layer engine · 174 tests · Q1 2026
首轮评测:GLM-5
145 min · 290K tokens · 61/100 · 2026-04-03
更多模型加入评测
DeepSeek R1, Grok 4, Qwen3 235B, MiniMax M2.7...
v4.1 季度轮换
淘汰 6 题,替换新题目 · 2026-07 计划

完整评测数据和评分引擎已开源

github.com/fxp/abap-bench

→ 查看 v2.0 完整排行榜(12 个模型)

评测模型:GLM-5 (zhipuai)  |  Temperature: 0.1
评分引擎:3-layer (rubric 40% + quality 30% + semantic 30%)
评测日期:2026-04-03