Field Notes · 田野笔记

前面 5 章给出了一组具体发现：1506 廷杖触发 7 维人格重组、1521 致良知伴随"良知"词频暴增、断点聚集在 1520–1522、阳明在 6 体裁里是 6 个不同的人。这些结论在数据上看起来都很硬，但每一条都依赖一套假设。这一章把假设、限制、可能的反驳一次性摆出来，这是因果推断研究的标准做法，也是这本书能站住的关键。

研究设计的两个根本限定

任何方法学讨论都要从研究设计的限定出发。本书的研究设计有两个不能改的限定：

第一，单被试。我们只研究阳明一个人。不是 1000 个明代士人组成的样本。所以做不了 between-subject 实验、做不了随机分配、做不了基于群体的统计推断。所有因果识别都是 within-subject，时间序列上的 pre/post 比较。

第二，历史人物。阳明 1529 年卒，离今天 500 年。不能去访谈他、不能给他做问卷、不能重新收集数据。所有材料只有他自己写的或被记录的文本，加少量年谱与传记。

这两条限定决定了我们能用什么方法、不能用什么方法、能宣称多强的 claim。

雷区把单被试纵向研究当 RCT 来读

读者读到"1506 廷杖效应 +10.28， $t = 17.2$ ★★★"时，容易按 RCT 风格解读："廷杖导致情感深度上升 10.28 单位， $p < .01$ "。

本研究的设计是单被试时间序列上的 pre-trend 外推 vs post 实际比较，估的是沿着这条单一历史轨迹的偏离，与 RCT 估计的"如果廷杖对一般人会怎样"群体平均因果效应不在同一层级。

诊断方法：任何用单被试历史数据做的因果推断，claim 强度必须从"X 导致 Y"退到"在这段历史轨迹上，X 后观测到 Y"。这两句话差一个量化的 LATE / ATE 区分。

稳健替代：论文写作中明确写"本研究是单被试事件研究，估计的是 local effect along this trajectory，不是 population-level causal effect"。

6 种方法在因果推断框架里的位置

把前 5 章用过的 6 种方法放在 Pearl 的因果推断梯子上看，它们分布在不同层级：

表 6·1　6 种方法的 Pearl 梯子层级与限制

方法	Pearl 梯子层级	在本书的作用	主要限制
概念分布散度	关联（描述）	第 2 章：衡量整体话语变化	被高频项稀释
断点检测	关联（描述）	第 3 章：让数据自报转折点	小样本下断点位置不稳
内部基线	关联（诊断）	第 2 章：给出"什么都没变"的噪声尺度	不直接说因果
ITS	干预（因果）	第 1 章：估单一事件的反事实偏离	pre-trend 假设 + 内生 treatment
合成控制	反事实（因果）	第 4 章：用 donor 加权构造反事实	donor 选择易循环论证
多维联合一致性	元层面（证据）	全书：弥补单被试统计独立性不足	维度间相关性会高估证据强度

简单讲：

关联层是描述性的，只回答"什么变了"。概念分布散度、断点检测、内部基线都属于这一层。它们告诉你序列的统计结构，不直接说因果。

干预层是因果推断的核心，回答"如果干预 X，Y 会变吗"。ITS 与合成控制在这一层。本书的 ITS 因为 treatment 内生（阳明上疏导致廷杖）严格说没达到这一层，合成控制因为 donor 选择问题也只是接近这一层。

反事实层回答"若 X 没发生，Y 会是什么样"。合成控制名义上是这一层，但实际只达到"类反事实"强度。

多维联合一致性是元层面的策略，用来补强单被试推断，本身不构成直接的因果方法。单维度信号可能假，多维度联合一致是真信号的概率指标。

每种方法的核心假设与现实违反情况

下面把每种方法的标准假设与本书研究中真实违反的程度一一列出。

ITS 的核心假设

ITS 给因果效应的前提是**反事实平行**：若事件没发生，pre-trend 会按相同斜率延伸到 post-period。这一假设无法直接检验，只能侧面支撑。

本书的违反程度：中等。1506 事件之前的 pre-period 只有 6 个文档（1496–1505），而且大部分是奏疏。pre-trend 拟合的标准误大，外推到 22 个 post-period 年点的不确定性明显超出标准 ITS 应用场景。

补救：(1) 用多维联合一致性弥补单维度推断不足。(2) 用 Placebo（合成控制章）做交叉验证。(3) 在 limitations 中明说。

合成控制的核心假设

合成控制需要 donor 池满足两个条件：

第一，donor 不受 treatment 影响。这是因果识别的基础。

第二，pre-period 拟合足够好。否则反事实预测不可靠。

本书的违反程度：第一条接近满足（我们选的是儒家共享术语，理论上不受致良知事件直接影响），但"格物"、"诚意"在 1521 后可能被阳明间接改造。第二条勉强满足，"良知"的 pre RMSE = 1.42，比 post effect 5.27 小，比例 1:3.7，在合成控制文献的可接受范围（推荐 1:5 以上）。

补救：Placebo 检验把方法学伪影的尺度给出来（1.85），真信号（5.27）远超之，是结论可靠的辅助证据。

断点检测的核心假设

PELT / Binary Segmentation 假设序列内部是 piecewise constant 加高斯白噪声。真实数据极少严格满足，但算法对偏离稳健，主要风险是"把缓慢趋势误检为断点"。

本书的违反程度：较低。我们的策略是跑 17 个独立序列，看断点聚类。即使某个序列的断点是噪声，17 个序列联合落在同一年的概率极低。

固定效应回归的核心假设

固定效应回归要求 treatment 与不可观测的固定因素（个体异质性、体裁特征）条件独立。本书的应用场景是"时段 vs 体裁"的分离，假设有时段效应在体裁内部仍然存在。

本书的违反程度：严重。时段与体裁高度共线（T1 = 徐爱、T2 = 陆澄、T3 = 薛侃、T4 = 书信），近完美共线导致系数估计无意义。在 343 条数据上根本无法分离这两个效应。

补救：加全集数据后共线部分缓解，但无法完全消除。老实在 limitations 中交代，把 ITS 结论改为"时段 + 体裁联合效应"。

2 个最严重的内生性威胁

除了方法假设，还有两个"数据天然带的"内生性问题，任何分析都无法完全解决。

Treatment 选择的内生性

第 1 章估 1506 廷杖效应。但廷杖怎么发生的？阳明自己上疏救戴铣 → 触怒刘瑾 → 下狱 → 廷杖。上疏言辞激烈本身就是阳明 pre-period 人格状态的产物。换言之，阳明用自己的人格选择了这个 treatment。

严格的 ITS 要求 treatment 外生于 outcome 的潜在状态。1506 廷杖在"皇帝下令打几板"这一层是外生的（阳明不能选），但"廷杖事件本身是否发生"这一层是内生的（阳明的上疏选择决定的）。

这件事让我们能宣称的因果效应必须降级：我们能讲的是"对一个会上疏救戴铣的阳明，廷杖触发了什么"，而不是"廷杖对一般人会怎样"。这是 LATE 而非 ATE。

并发事件混淆

1506 不是单一事件，是一连串事件：上疏 → 下狱 → 廷杖 → 流放 → 追杀 → 极端环境 → 弟弟病逝。单凭 ITS 无法分离这些事件各自的贡献。ITS 估出的 +10.28 是整条事件链的综合效应，不是廷杖一项的独立效应。

诚实的结论：第 1 章的论点应当改写为"1506 那段经历的综合冲击，触发了 7 维同时显著的人格重组"，不是"廷杖独立导致了 7 维重组"。两者差一个粒度层级。

对 claim 强度的总体降级

把前 5 章的所有因果 claim 按本章的限制重新审视，得到一组降级后的诚实表述：

表 6·2　各章原 claim 与降级后的诚实表述

原 claim	降级后的诚实表述
1506 廷杖触发 7 维人格重组	1506 那段经历的综合冲击（含阳明上疏的主动选择 + 廷杖几死 + 流放 + 极端环境）伴随阳明 33 年人格史上唯一一次 7 维同步重组；事件与主动选择不可分离
1521 致良知触发"良知"词频暴增 +5.27	1521 前后，阳明话语系统的内部重组使"良知"一词在文本中相对其他儒家概念异常上升 +5.27 /千字，远超 placebo 噪声尺度
断点聚集在 1520–1522	17 个独立时间序列中 14 个的最优分界位于 1520–1522，与史学共识的转折期吻合；这是支持"1521 是真转折"的独立证据
阳明在 6 体裁里是 6 个不同的人	阳明 8 个人格维度的均值在 6 种文体里有显著差异，提示人格表达的场景化；且时段 - 体裁近共线让因果识别在 343 条数据上不可行

这本书的核心贡献

把所有限制承认完之后，这本书还剩下什么？

贡献一：方法学的可行性证明。用 ITS / 合成控制 / 断点检测 / 多维联合一致性这一组工具，对一个 500 年前的中国思想家做事件级因果推断，在文本数据上是可行的。即使每种方法各有限制，6 种方法互相印证后给出的论点（1521 前后是转折期）比任何单一方法的论点都强。这条方法学路径以前没人系统走过，本书填了一个空白。

贡献二：阳明研究的量化基线。把 343 条传习录 + 611K 字全集结构化，给出 51 个核心概念的时间序列、8 个人格维度的逐文档评分、6 个时段的概念分布。这些数据公开后，后续研究者可以用作起点，测试自己的假设、训练自己的模型。

贡献三：哲学史叙事的部分修正。数据揭示"龙场悟道"与"致良知"是阳明完整人格演化的阐发与命名，而不是触发点。真正的触发点在 1506 那段身体几乎死、政治几乎死的危机里。这个修正以前也有学者想到，但缺少定量证据，本书提供了第一个定量证据。

贡献四：一种值得复用的研究范式。给后续想做"中国古典思想家 + 计算文本分析 + 因果推断"的研究者一个完整的操作流程参考：数据怎么结构化、概念词表怎么设计、方法怎么搭配、limitations 怎么写。

后续可能的扩展

老实标完限制后，也老实说扩展空间：

扩展一：LLM 打分替代规则化打分。本书的 8 维度评分用 95 个手工标记词。若用 Claude / GPT / DeepSeek 直接给每条文档打 8 维分，可捕获规则匹配不到的语用细节。代价是评分不可复现（每次运行略不同）+ API 成本。

扩展二：全集 + 学派文献联合分析。本书把朱熹作为外生历史对照，但只用了《朱子语类》。若加入陆九渊全集（心学先驱）、王畿全集（阳明门人激进派）、钱德洪文集（阳明门人正统派），能做更精细的学派内部话语演化分析。

扩展三：多被试比较。若把同样方法应用到朱熹、陆九渊、阳明、王畿、钱德洪 5 个人，每个人都做 ITS + 断点检测，看"宋明儒学家的人格演化模式"是否有共性。这是真正的群体级研究，能从 LATE 升到接近 ATE。

扩展四：加入年谱与传记作监督信号。本书的概念词表与人格维度都是无监督设计的。若以年谱中明确记载的事件（譬如"1517 年徐爱卒，阳明哀痛"）作监督信号，训练一个事件 → 人格反应的模型，能让推断更精细。

方法卡片：写给后来者的操作清单

方法卡片复用本书研究范式的标准流程

选 subject。一个有大量自著文本与详细年谱的历史人物。汉文学者偏好朱子、阳明、戴震；西方偏好 Locke、Kant、Wittgenstein 这种留下大量文本的。

结构化语料。抽取纯古典原文（排除现代校注），按年份打标。关键是 metadata 完整。

设计概念词表。50 个左右核心概念，覆盖学派纲领、传统改造、辩论对象、工夫论这几个层面。词表应在分析前用学理论证，不能后挑。

设计人格维度词表。5 到 8 个维度，每个维度 10 到 20 个标记词。

跑 ITS + 断点检测 + 合成控制。三个互补方法，对同一组事件分别跑。

跑内部基线 + Placebo。给出"什么都没变"的噪声尺度，作为显著性判断的参照。

写 limitations。单被试、历史人物、内生 treatment、并发事件、体裁混淆这几条都要交代清楚。

本章知识地图

表 6·3　第 6 章核心概念与常见误解

核心概念	核心内容	常见误解	为什么错
单被试历史推断	一个人一生纵向时间序列上的因果识别	以为能给出 ATE	没有 between-subject 实验，只能给 LATE
Pearl 梯子层级	关联 / 干预 / 反事实三层	以为所有方法都是"因果"	描述性方法不在干预层，不能直接说因果
内生 treatment	个体自己选择了 treatment	以为皇帝下令就是外生	阳明上疏选择导致下令，选择本身是内生的
并发事件混淆	单一时点同时多事件发生	以为可以分离各事件贡献	时间分辨率与无外部对照让分离不可行
Claim 降级	把"X 导致 Y"改为"X 后观测到 Y"	以为降级削弱论点	实际加强论点；读者更信任承认边界的研究
多维联合一致性	多维度同向显著作为联合证据	以为各维度可视为独立	维度间有相关，严格的联合 $p$ 值要做校正
方法学补强	6 种方法互相印证，任一不可单独定论	以为最强单一方法就够	单被试推断必须依赖多方法交叉验证