Field Notes · 田野笔记

这本书的写作思路是：选定一份具体的数据集，把所有相关的财务舞弊检测方法都在它身上跑一遍，让读者亲手看到每一种方法在同一个问题上能给出什么答案、各自的假设和局限在哪里。

本书用的数据是 Bao 团队在 2020 年发表于 Journal of Accounting Research 的公开复制包，覆盖 1991 至 2014 年的美国上市公司，约 144,000 个 firm-year 观测，标签来自 SEC 的会计与审计执法公告，简称 AAER。这份数据是会计 ML 文献事实上的基准样本：标签由 SEC 官方裁定、财务变量来自 Compustat 标准化报表、时间跨度覆盖了三波重大舞弊事件，从安然世通到次贷危机后续。它适合把每种方法在同一份数据上的表现差异都暴露出来。

读者画像是会计、审计、财务方向的在读研究生和青年研究者，能用 R 或 Python，看过几篇用了机器学习做财务舞弊检测的论文，但没有亲手跑过完整流程的那一批。本书不打算把 Bao et al. (2020) 那篇 JAR 长文重复一遍，更不打算把所有 ML 方法都讲到学术教科书的精度。这本书的野心比较有限：让读者跑通一项 AAER 级别的舞弊检测分析、看懂 AUC 与 NDCG@k 输出、知道每个性能数字背后的假设是什么、知道踩坑的常见地方在哪儿。读完之后愿意去翻 Bao 原文作为参考、愿意去看 xgboost 与 shap 的官方文档把更复杂的情形深入处理，这本书的任务就完成了。

每章对应一种方法。代码以 R 为主、Python 为辅，关键章节两套代码并列给出。所有正文里出现的数字均来自真实的代码运行输出，不手算、不估算。

—— 晨瀚宇，2026 年