当 AI 坐上 SAP 顾问的位子

去年冬天，一位在华东某制造企业工作了 20 年的 SAP 顾问老张退休了。他带走的不只是一张工牌——还有整套 ECC 系统中上百支 ABAP 程序的"活地图"：哪段代码曾经在半夜三点修过一个诡异的税码 bug，哪个 RFC 接口连着金税系统的哪一层认证，哪些 Z 表的字段名虽然叫 SGTXT 但实际上存的是发票备注。

这些知识没有写在任何文档里。现在，它们消失了。

老张的故事并非个例。SAP 无处不在——全球超过 77% 的交易收入流经 SAP 系统，财富 500 强中有 87% 在使用。SAP 已宣布 ECC 将于 2027 年终止主流维护。全球数十万家企业必须迁移到 S/4HANA，一个 480 亿美元的迁移市场由此诞生。

像老张这样理解这些系统的人，正在一个接一个地离开。

· · ·

为什么 SAP 迁移与一般代码迁移不同

如果你做过 Web 应用的框架升级，你可能会觉得"代码迁移不就那么回事"。但 SAP 迁移是完全不同的物种。你不只是将熟悉的代码更新到更好的模式——你是在逆向工程一套融合了财务、供应链、人力资源和税务合规的复杂业务系统。

代码是活的文档，而读懂这份文档的人已经不在了。

以往的解决办法是组建庞大的顾问团队，花费数月甚至数年梳理工作流。但成本让大多数企业望而却步——于是系统就这么一年又一年地"再等等"。

AI 正在改变这一切。 但具体能改变到什么程度？光靠想象没用，我们决定用数据来回答。

· · ·

ABAP-Bench：给 AI 出一张 SAP 顾问资格考试卷

现有的 AI 代码评测基准都帮不上忙。SWE-bench 测 GitHub bug 修复，BigCodeBench 测通用编程，HumanEval 只有算法题。SAP/ABAP 领域在 AI 评测版图上完全是空白。

所以我们自己建了一个。ABAP-Bench——60 道专家出题的 SAP 迁移任务，覆盖 9 个关键维度。每道题满分 20 分，由三层评分引擎独立评判。我们给 AI 出了一张 SAP 顾问的资格考试卷，然后认认真真地批了一遍。

· · ·

构建 ABAP-Bench

任务设计

每道任务都源自真实的 SAP 迁移项目场景，由领域专家编写。我们不接受泛泛而谈：如果 AI 回答"建议使用 CDS 视图替代 BKPF 表"——零分。你必须说出 I_JournalEntry，字段 BUKRS 映射到 CompanyCode。

代码迁移知识

废弃 API 精确替代

6 tasks

缺陷发现

隐蔽 bug 定位

6 tasks

代码改写

ECC → S/4HANA

6 tasks

中国本土化合规

增值税 / 数电票 / PIPL

6 tasks

迁移风险

依赖链分析

6 tasks

安全与权限

授权 / SQL 注入防御

6 tasks

S/4HANA 架构

ACDOCA / BP / FI-CO

6 tasks

性能工程

索引 / AMDP / CDS

6 tasks

现代生态

RAP / Fiori / BTP

12 tasks

测试代码中使用了中文变量名（如 发票号码、含税金额），这在公开代码库中极为罕见——ABAP-Bench 的"防作弊水印"。

三层评分引擎

点击每层了解评分机制：

L1 Rubric Matching 40%

专家编写的评分标准，包含加分和扣分规则。说对了 I_JournalEntry 加分，错误声称"BKPF 是 S/4HANA 的主表"扣 3 分——说错比不说更糟。

L2 Quality Analysis 30%

检查代码结构质量和回答完整性。堆砌关键词但代码一团乱麻？不行。确保 AI 不能靠"刷关键词"蒙混过关。

L3 Semantic Similarity 30%

60 篇专家黄金答案（平均 1,300 字符），BM25 算法评估概念覆盖度。可以换表达，但核心知识点必须到位。

防止评测"过期"

每季度淘汰 10% 的旧题，替换新题目；任务锚定特定版本的 SAP Note 和法规文件。像高考年年换题，ABAP-Bench 的有效性不会随时间衰减。

工程质量

174 项自动化测试 · CI/CD 流水线 · 4 个 LLM 后端 · 断点续跑

· · ·

首次实测：GLM-5

我们选择智谱 GLM-5 作为首个挑战者——智谱 AI 的推理旗舰模型，具备内部思维链推理能力。评测覆盖 SAP 迁移的完整生命周期，温度固定为 0.1 确保可复现。然后，我们安静地等了 145 分钟。

先猜一猜：GLM-5 能拿多少分？

60 道 SAP 专家级题目，满分 100

· · ·

评测结果：61 / 100

0 /100

Overall

Best Dim

0 min

Eval Time

Tokens

第一眼看可能觉得"也就那样"。但深入到具体任务，一幅更生动的画面浮现出来——这种参差，本身就是最有价值的发现。

最高中国合规 67.5%

次高迁移风险 64.2%

中位安全权限 60.8%

最低缺陷发现 54.2%

极差 13.3 个百分点

Fig. 1 — GLM-5 九维度得分分布

Interactive

你能找到这个 ABAP bug 吗？—— 第一个 LOOP AT gt_bkpf INTO DATA(ls_bkpf) 循环结束后，ls_bkpf 的值会是什么？

Correct. ABAP 的 DATA() 内联声明变量在循环结束后仍然存在，保留最后一次迭代的值。GLM-5 正确识别了这个 bug，并指出会导致"所有发票的红冲/正常状态判断完全错误"。这是评测中最惊喜的发现之一。

令人惊喜的时刻

它写出了可以直接编译的 S/4HANA 代码

T03 · 16/20

把 ECC 时代的嵌套 SELECT（BKPF + BSEG，典型 N+1 灾难）改写为 S/4HANA 兼容版本。

* ECC: N+1 query anti-pattern
SELECT * FROM bkpf INTO TABLE @DATA(lt_bkpf)
  WHERE bukrs = @p_bukrs AND gjahr = @p_gjahr.
LOOP AT lt_bkpf INTO DATA(ls_bkpf).
  SELECT * FROM bseg INTO TABLE @DATA(lt_bseg)
    WHERE bukrs = @ls_bkpf-bukrs
      AND belnr = @ls_bkpf-belnr
      AND gjahr = @ls_bkpf-gjahr.
ENDLOOP.

* GLM-5: CDS View JOIN, single query
SELECT
  j~CompanyCode,
  j~AccountingDocument,
  j~FiscalYear,
  i~AccountingDocumentItem,
  i~GLAccount,
  i~AmountInCompanyCodeCurrency
FROM I_JournalEntry AS j
  INNER JOIN I_JournalEntryItem AS i
    ON j~CompanyCode = i~CompanyCode
   AND j~AccountingDocument = i~AccountingDocument
   AND j~FiscalYear = i~FiscalYear
WHERE j~CompanyCode = @p_bukrs
  AND j~FiscalYear = @p_gjahr
INTO TABLE @DATA(lt_result).

正确选择 CDS 视图 JOIN，精确映射字段名（BUKRS → CompanyCode），使用现代内联声明语法。这段代码可以直接编译运行。

像细心的 code reviewer 一样找到隐蔽 bug

T02 · 12/20

VAT 发票处理程序中埋了 5 个 bug。GLM-5 精准命中了最重要的一颗：变量 ls_bkpf 在循环结束后的残留值问题，并准确描述了业务影响——"所有发票的红冲/正常状态判断完全错误，导致税务申报数据严重失真"。

这不是背书式的回答，而是真正理解 ABAP 运行时行为和增值税业务语境的回答。

中国本土法规是它的主场

T16 · 17/20

全场最高分。准确识别了五险一金计算规则、个税累计预扣法的具体字段、HR_READ_INFOTYPE 函数模块的标准用法。Rubric 满分，结构质量满分。

增值税红字发票规则、数电票影响、PIPL 数据合规——这些答案散落在中文政策文件和 SAP 配置深处，连资深顾问都需要查阅半天。

堪比初级顾问的风险分析

T43 · 16/20

评估 800 个自定义表的 ECC 系统迁移风险。GLM-5 识别了 Pool/Cluster 表影响、引用已删除字段的 Z 表问题，准确提到 SAP Readiness Check 2.0 和 ABAP Test Cockpit 的具体规则集名称。

这种分析以往需要资深顾问花数天完成。AI 在不到 4 分钟内给出了合格的初稿。

Interactive

GLM-5 在哪个维度得分最低？

Correct. 缺陷发现 54.2% 是最低分。找深层 bug 需要一种"被坑过"才会有的直觉——有经验的开发者看到 LOOP...ENDLOOP 后紧跟 IF sy-subrc = 0 就会本能皱眉。这种直觉目前还是人类独有的优势。

值得关注的局限

熟悉的路走得稳，陌生的路会绊倒

16 vs 5

T03（经典 CDS 改写）16/20，T37（RAP EML 改写）5/20。经典场景文档充分；前沿范式资料稀缺。GLM-5 在 T37 中方向正确（I_Product、MODIFY ENTITIES），但 EML 语法有细微错误。

就像一位刚入行的顾问：知道该走哪条路，但还不熟悉路上的每一块石头。

最隐蔽的 bug，仍然属于人类

5 bugs, hit 3

T02 的 5 个 bug 按隐蔽程度分级。命中前 3 个，最深的 2 个失手——内表/结构体类型混淆，以及多层 LOOP 中 SY-SUBRC 被意外覆盖。

AI 可以学习知识，但来自"被坑过"的直觉，目前还是人类独有的优势。

思考越久不代表答得越好

155s → 17分 447s → 6分

推理模型每题平均 145 秒。得分最高的 T16（17/20）用了 155 秒，得分最低区间的 T36（6/20）却用了 447 秒。思考更久并不能弥补知识盲区。

· · ·

人 + AI：SAP 迁移的最优解

不要问 AI 能不能替代 SAP 顾问，
而要问 AI 能在哪些环节帮顾问节省最多时间。

AI 今天就能承担

迁移前风险评估与路线图初稿
中国本土化合规梳理
架构方案讨论（FI-CO / ACDOCA / CDS）
经典场景的代码改写

仍需人类把关

前沿编程范式的生产级代码
深层缺陷的最终确认
性能优化的落地实施

这不是 AI 取代人的故事，而是 AI 改变人的工作方式的故事。

过去，资深顾问花两周写迁移评估报告。现在，AI 几小时生成初稿，顾问从"从零撰写"变为"审核优化"——效率提升数倍，质量不降反升。

· · ·

结语：这个未来比想象的更近

SAP 迁移停滞多年，本质是经济学问题：理解遗留系统的成本太高了。

AI 正在打破这个成本壁垒。61/100 不是"刚及格"——它是一个信号：AI 在 SAP 领域已经跨过了"玩具"阶段，进入了"可用"的起点。它能写出可编译的 S/4HANA 代码，能找到变量作用域 bug，能给出带具体工具和步骤的迁移风险报告。

它暴露的短板——前沿语法精确度、最深层缺陷捕获——恰恰指明了下一步方向。这些不是根本性障碍，而是随训练数据丰富可以持续改进的能力边界。

480 亿美元的 S/4HANA 迁移市场等不了，而像老张这样的顾问已经回不来了。

好在，新的帮手已经到场——它不完美，但它 24 小时在线，不会忘记任何一个字段映射，而且每天都在变得更好。

为什么 SAP 迁移与一般代码迁移不同

ABAP-Bench：给 AI 出一张 SAP 顾问资格考试卷

构建 ABAP-Bench

任务设计

三层评分引擎

防止评测"过期"

工程质量

首次实测：GLM-5

先猜一猜：GLM-5 能拿多少分？

评测结果：61 / 100

令人惊喜的时刻

它写出了可以直接编译的 S/4HANA 代码

像细心的 code reviewer 一样找到隐蔽 bug

中国本土法规是它的主场

堪比初级顾问的风险分析

值得关注的局限

熟悉的路走得稳，陌生的路会绊倒

最隐蔽的 bug，仍然属于人类

思考越久不代表答得越好

人 + AI：SAP 迁移的最优解

AI 今天就能承担

仍需人类把关

结语：这个未来比想象的更近

评测时间线