去年冬天,一位在华东某制造企业工作了 20 年的 SAP 顾问老张退休了。他带走的不只是一张工牌——还有整套 ECC 系统中上百支 ABAP 程序的"活地图":哪段代码曾经在半夜三点修过一个诡异的税码 bug,哪个 RFC 接口连着金税系统的哪一层认证,哪些 Z 表的字段名虽然叫 SGTXT 但实际上存的是发票备注。
这些知识没有写在任何文档里。现在,它们消失了。
老张的故事并非个例。SAP 无处不在——全球超过 77% 的交易收入流经 SAP 系统,财富 500 强中有 87% 在使用。SAP 已宣布 ECC 将于 2027 年终止主流维护。全球数十万家企业必须迁移到 S/4HANA,一个 480 亿美元的迁移市场由此诞生。
为什么 SAP 迁移与一般代码迁移不同
如果你做过 Web 应用的框架升级,你可能会觉得"代码迁移不就那么回事"。但 SAP 迁移是完全不同的物种。你不只是将熟悉的代码更新到更好的模式——你是在逆向工程一套融合了财务、供应链、人力资源和税务合规的复杂业务系统。
代码是活的文档,而读懂这份文档的人已经不在了。
以往的解决办法是组建庞大的顾问团队,花费数月甚至数年梳理工作流。但成本让大多数企业望而却步——于是系统就这么一年又一年地"再等等"。
AI 正在改变这一切。 但具体能改变到什么程度?光靠想象没用,我们决定用数据来回答。
ABAP-Bench:给 AI 出一张 SAP 顾问资格考试卷
现有的 AI 代码评测基准都帮不上忙。SWE-bench 测 GitHub bug 修复,BigCodeBench 测通用编程,HumanEval 只有算法题。SAP/ABAP 领域在 AI 评测版图上完全是空白。
所以我们自己建了一个。ABAP-Bench——60 道专家出题的 SAP 迁移任务,覆盖 9 个关键维度。每道题满分 20 分,由三层评分引擎独立评判。我们给 AI 出了一张 SAP 顾问的资格考试卷,然后认认真真地批了一遍。
构建 ABAP-Bench
任务设计
每道任务都源自真实的 SAP 迁移项目场景,由领域专家编写。我们不接受泛泛而谈:如果 AI 回答"建议使用 CDS 视图替代 BKPF 表"——零分。你必须说出 I_JournalEntry,字段 BUKRS 映射到 CompanyCode。
测试代码中使用了中文变量名(如 发票号码、含税金额),这在公开代码库中极为罕见——ABAP-Bench 的"防作弊水印"。
三层评分引擎
点击每层了解评分机制:
I_JournalEntry 加分,错误声称"BKPF 是 S/4HANA 的主表"扣 3 分——说错比不说更糟。防止评测"过期"
每季度淘汰 10% 的旧题,替换新题目;任务锚定特定版本的 SAP Note 和法规文件。像高考年年换题,ABAP-Bench 的有效性不会随时间衰减。
工程质量
首次实测:GLM-5
我们选择智谱 GLM-5 作为首个挑战者——智谱 AI 的推理旗舰模型,具备内部思维链推理能力。评测覆盖 SAP 迁移的完整生命周期,温度固定为 0.1 确保可复现。然后,我们安静地等了 145 分钟。
先猜一猜:GLM-5 能拿多少分?
60 道 SAP 专家级题目,满分 100
评测结果:61 / 100
第一眼看可能觉得"也就那样"。但深入到具体任务,一幅更生动的画面浮现出来——这种参差,本身就是最有价值的发现。
你能找到这个 ABAP bug 吗?—— 第一个 LOOP AT gt_bkpf INTO DATA(ls_bkpf) 循环结束后,ls_bkpf 的值会是什么?
DATA() 内联声明变量在循环结束后仍然存在,保留最后一次迭代的值。GLM-5 正确识别了这个 bug,并指出会导致"所有发票的红冲/正常状态判断完全错误"。这是评测中最惊喜的发现之一。
令人惊喜的时刻
它写出了可以直接编译的 S/4HANA 代码
T03 · 16/20把 ECC 时代的嵌套 SELECT(BKPF + BSEG,典型 N+1 灾难)改写为 S/4HANA 兼容版本。
* ECC: N+1 query anti-pattern SELECT * FROM bkpf INTO TABLE @DATA(lt_bkpf) WHERE bukrs = @p_bukrs AND gjahr = @p_gjahr. LOOP AT lt_bkpf INTO DATA(ls_bkpf). SELECT * FROM bseg INTO TABLE @DATA(lt_bseg) WHERE bukrs = @ls_bkpf-bukrs AND belnr = @ls_bkpf-belnr AND gjahr = @ls_bkpf-gjahr. ENDLOOP.
* GLM-5: CDS View JOIN, single query SELECT j~CompanyCode, j~AccountingDocument, j~FiscalYear, i~AccountingDocumentItem, i~GLAccount, i~AmountInCompanyCodeCurrency FROM I_JournalEntry AS j INNER JOIN I_JournalEntryItem AS i ON j~CompanyCode = i~CompanyCode AND j~AccountingDocument = i~AccountingDocument AND j~FiscalYear = i~FiscalYear WHERE j~CompanyCode = @p_bukrs AND j~FiscalYear = @p_gjahr INTO TABLE @DATA(lt_result).
正确选择 CDS 视图 JOIN,精确映射字段名(BUKRS → CompanyCode),使用现代内联声明语法。这段代码可以直接编译运行。
像细心的 code reviewer 一样找到隐蔽 bug
T02 · 12/20VAT 发票处理程序中埋了 5 个 bug。GLM-5 精准命中了最重要的一颗:变量 ls_bkpf 在循环结束后的残留值问题,并准确描述了业务影响——"所有发票的红冲/正常状态判断完全错误,导致税务申报数据严重失真"。
这不是背书式的回答,而是真正理解 ABAP 运行时行为和增值税业务语境的回答。
中国本土法规是它的主场
T16 · 17/20全场最高分。准确识别了五险一金计算规则、个税累计预扣法的具体字段、HR_READ_INFOTYPE 函数模块的标准用法。Rubric 满分,结构质量满分。
增值税红字发票规则、数电票影响、PIPL 数据合规——这些答案散落在中文政策文件和 SAP 配置深处,连资深顾问都需要查阅半天。
堪比初级顾问的风险分析
T43 · 16/20评估 800 个自定义表的 ECC 系统迁移风险。GLM-5 识别了 Pool/Cluster 表影响、引用已删除字段的 Z 表问题,准确提到 SAP Readiness Check 2.0 和 ABAP Test Cockpit 的具体规则集名称。
这种分析以往需要资深顾问花数天完成。AI 在不到 4 分钟内给出了合格的初稿。
GLM-5 在哪个维度得分最低?
LOOP...ENDLOOP 后紧跟 IF sy-subrc = 0 就会本能皱眉。这种直觉目前还是人类独有的优势。
值得关注的局限
熟悉的路走得稳,陌生的路会绊倒
16 vs 5T03(经典 CDS 改写)16/20,T37(RAP EML 改写)5/20。经典场景文档充分;前沿范式资料稀缺。GLM-5 在 T37 中方向正确(I_Product、MODIFY ENTITIES),但 EML 语法有细微错误。
就像一位刚入行的顾问:知道该走哪条路,但还不熟悉路上的每一块石头。
最隐蔽的 bug,仍然属于人类
5 bugs, hit 3T02 的 5 个 bug 按隐蔽程度分级。命中前 3 个,最深的 2 个失手——内表/结构体类型混淆,以及多层 LOOP 中 SY-SUBRC 被意外覆盖。
AI 可以学习知识,但来自"被坑过"的直觉,目前还是人类独有的优势。
思考越久不代表答得越好
155s → 17分 447s → 6分推理模型每题平均 145 秒。得分最高的 T16(17/20)用了 155 秒,得分最低区间的 T36(6/20)却用了 447 秒。思考更久并不能弥补知识盲区。
人 + AI:SAP 迁移的最优解
而要问 AI 能在哪些环节帮顾问节省最多时间。
AI 今天就能承担
- 迁移前风险评估与路线图初稿
- 中国本土化合规梳理
- 架构方案讨论(FI-CO / ACDOCA / CDS)
- 经典场景的代码改写
仍需人类把关
- 前沿编程范式的生产级代码
- 深层缺陷的最终确认
- 性能优化的落地实施
这不是 AI 取代人的故事,而是 AI 改变人的工作方式的故事。
过去,资深顾问花两周写迁移评估报告。现在,AI 几小时生成初稿,顾问从"从零撰写"变为"审核优化"——效率提升数倍,质量不降反升。
结语:这个未来比想象的更近
SAP 迁移停滞多年,本质是经济学问题:理解遗留系统的成本太高了。
AI 正在打破这个成本壁垒。61/100 不是"刚及格"——它是一个信号:AI 在 SAP 领域已经跨过了"玩具"阶段,进入了"可用"的起点。它能写出可编译的 S/4HANA 代码,能找到变量作用域 bug,能给出带具体工具和步骤的迁移风险报告。
它暴露的短板——前沿语法精确度、最深层缺陷捕获——恰恰指明了下一步方向。这些不是根本性障碍,而是随训练数据丰富可以持续改进的能力边界。
480 亿美元的 S/4HANA 迁移市场等不了,而像老张这样的顾问已经回不来了。
好在,新的帮手已经到场——它不完美,但它 24 小时在线,不会忘记任何一个字段映射,而且每天都在变得更好。