这本书的写作思路是:选定一份具体的数据集,把所有相关的财务舞弊检测方法都在它身上跑一遍,让读者亲手看到每一种方法在同一个问题上能给出什么答案、各自的假设和局限在哪里。
本书用的数据是 Bao 团队在 2020 年发表于 Journal of Accounting Research 的公开复制包,覆盖 1991 至 2014 年的美国上市公司,约 144,000 个 firm-year 观测,标签来自 SEC 的会计与审计执法公告,简称 AAER。这份数据是会计 ML 文献事实上的基准样本:标签由 SEC 官方裁定、财务变量来自 Compustat 标准化报表、时间跨度覆盖了三波重大舞弊事件,从安然世通到次贷危机后续。它适合把每种方法在同一份数据上的表现差异都暴露出来。
读者画像是会计、审计、财务方向的在读研究生和青年研究者,能用 R 或 Python,看过几篇用了机器学习做财务舞弊检测的论文,但没有亲手跑过完整流程的那一批。本书不打算把 Bao et al. (2020) 那篇 JAR 长文重复一遍,更不打算把所有 ML 方法都讲到学术教科书的精度。这本书的野心比较有限:让读者跑通一项 AAER 级别的舞弊检测分析、看懂 AUC 与 NDCG@k 输出、知道每个性能数字背后的假设是什么、知道踩坑的常见地方在哪儿。读完之后愿意去翻 Bao 原文作为参考、愿意去看 xgboost 与 shap 的官方文档把更复杂的情形深入处理,这本书的任务就完成了。
每章对应一种方法。代码以 R 为主、Python 为辅,关键章节两套代码并列给出。所有正文里出现的数字均来自真实的代码运行输出,不手算、不估算。
—— 晨瀚宇,2026 年