阳明轨迹 · 第 6

方法论附录:六种方法的假设核查与 claim 降级

前面 5 章给出了一组具体发现:1506 廷杖触发 7 维人格重组、1521 致良知伴随"良知"词频暴增、断点聚集在 1520–1522、阳明在 6 体裁里是 6 个不同的人。这些结论在数据上看起来都很硬,但每一条都依赖一套假设。这一章把假设、限制、可能的反驳一次性摆出来,这是因果推断研究的标准做法,也是这本书能站住的关键。

研究设计的两个根本限定

任何方法学讨论都要从研究设计的限定出发。本书的研究设计有两个不能改的限定:

第一,单被试。我们只研究阳明一个人。不是 1000 个明代士人组成的样本。所以做不了 between-subject 实验、做不了随机分配、做不了基于群体的统计推断。所有因果识别都是 within-subject,时间序列上的 pre/post 比较。

第二,历史人物。阳明 1529 年卒,离今天 500 年。不能去访谈他、不能给他做问卷、不能重新收集数据。所有材料只有他自己写的或被记录的文本,加少量年谱与传记。

这两条限定决定了我们能用什么方法、不能用什么方法、能宣称多强的 claim。

雷区把单被试纵向研究当 RCT 来读

读者读到"1506 廷杖效应 +10.28,t=17.2t = 17.2 ★★★"时,容易按 RCT 风格解读:"廷杖导致情感深度上升 10.28 单位,p<.01p < .01"。

本研究的设计是单被试时间序列上的 pre-trend 外推 vs post 实际比较,估的是沿着这条单一历史轨迹的偏离,与 RCT 估计的"如果廷杖对一般人会怎样"群体平均因果效应不在同一层级。

诊断方法:任何用单被试历史数据做的因果推断,claim 强度必须从"X 导致 Y"退到"在这段历史轨迹上,X 后观测到 Y"。这两句话差一个量化的 LATE / ATE 区分。

稳健替代:论文写作中明确写"本研究是单被试事件研究,估计的是 local effect along this trajectory,不是 population-level causal effect"。

6 种方法在因果推断框架里的位置

把前 5 章用过的 6 种方法放在 Pearl 的因果推断梯子上看,它们分布在不同层级:

表 6·1 6 种方法的 Pearl 梯子层级与限制

方法Pearl 梯子层级在本书的作用主要限制
概念分布散度关联(描述)第 2 章:衡量整体话语变化被高频项稀释
断点检测关联(描述)第 3 章:让数据自报转折点小样本下断点位置不稳
内部基线关联(诊断)第 2 章:给出"什么都没变"的噪声尺度不直接说因果
ITS干预(因果)第 1 章:估单一事件的反事实偏离pre-trend 假设 + 内生 treatment
合成控制反事实(因果)第 4 章:用 donor 加权构造反事实donor 选择易循环论证
多维联合一致性元层面(证据)全书:弥补单被试统计独立性不足维度间相关性会高估证据强度

简单讲:

关联层是描述性的,只回答"什么变了"。概念分布散度、断点检测、内部基线都属于这一层。它们告诉你序列的统计结构,不直接说因果。

干预层是因果推断的核心,回答"如果干预 X,Y 会变吗"。ITS 与合成控制在这一层。本书的 ITS 因为 treatment 内生(阳明上疏导致廷杖)严格说没达到这一层,合成控制因为 donor 选择问题也只是接近这一层。

反事实层回答"若 X 没发生,Y 会是什么样"。合成控制名义上是这一层,但实际只达到"类反事实"强度。

多维联合一致性是元层面的策略,用来补强单被试推断,本身不构成直接的因果方法。单维度信号可能假,多维度联合一致是真信号的概率指标。

每种方法的核心假设与现实违反情况

下面把每种方法的标准假设与本书研究中真实违反的程度一一列出。

ITS 的核心假设

ITS 给因果效应的前提是**反事实平行**:若事件没发生,pre-trend 会按相同斜率延伸到 post-period。这一假设无法直接检验,只能侧面支撑。

本书的违反程度:中等。1506 事件之前的 pre-period 只有 6 个文档(1496–1505),而且大部分是奏疏。pre-trend 拟合的标准误大,外推到 22 个 post-period 年点的不确定性明显超出标准 ITS 应用场景。

补救:(1) 用多维联合一致性弥补单维度推断不足。(2) 用 Placebo(合成控制章)做交叉验证。(3) 在 limitations 中明说。

合成控制的核心假设

合成控制需要 donor 池满足两个条件:

第一,donor 不受 treatment 影响。这是因果识别的基础。

第二,pre-period 拟合足够好。否则反事实预测不可靠。

本书的违反程度:第一条接近满足(我们选的是儒家共享术语,理论上不受致良知事件直接影响),但"格物"、"诚意"在 1521 后可能被阳明间接改造。第二条勉强满足,"良知"的 pre RMSE = 1.42,比 post effect 5.27 小,比例 1:3.7,在合成控制文献的可接受范围(推荐 1:5 以上)。

补救:Placebo 检验把方法学伪影的尺度给出来(1.85),真信号(5.27)远超之,是结论可靠的辅助证据。

断点检测的核心假设

PELT / Binary Segmentation 假设序列内部是 piecewise constant 加高斯白噪声。真实数据极少严格满足,但算法对偏离稳健,主要风险是"把缓慢趋势误检为断点"。

本书的违反程度:较低。我们的策略是跑 17 个独立序列,看断点聚类。即使某个序列的断点是噪声,17 个序列联合落在同一年的概率极低。

固定效应回归的核心假设

固定效应回归要求 treatment 与不可观测的固定因素(个体异质性、体裁特征)条件独立。本书的应用场景是"时段 vs 体裁"的分离,假设有时段效应在体裁内部仍然存在。

本书的违反程度:严重。时段与体裁高度共线(T1 = 徐爱、T2 = 陆澄、T3 = 薛侃、T4 = 书信),近完美共线导致系数估计无意义。在 343 条数据上根本无法分离这两个效应。

补救:加全集数据后共线部分缓解,但无法完全消除。老实在 limitations 中交代,把 ITS 结论改为"时段 + 体裁联合效应"。

2 个最严重的内生性威胁

除了方法假设,还有两个"数据天然带的"内生性问题,任何分析都无法完全解决。

Treatment 选择的内生性

第 1 章估 1506 廷杖效应。但廷杖怎么发生的?阳明自己上疏救戴铣 → 触怒刘瑾 → 下狱 → 廷杖。上疏言辞激烈本身就是阳明 pre-period 人格状态的产物。换言之,阳明用自己的人格选择了这个 treatment

严格的 ITS 要求 treatment 外生于 outcome 的潜在状态。1506 廷杖在"皇帝下令打几板"这一层是外生的(阳明不能选),但"廷杖事件本身是否发生"这一层是内生的(阳明的上疏选择决定的)。

这件事让我们能宣称的因果效应必须降级:我们能讲的是"对一个会上疏救戴铣的阳明,廷杖触发了什么",而不是"廷杖对一般人会怎样"。这是 LATE 而非 ATE。

并发事件混淆

1506 不是单一事件,是一连串事件:上疏 → 下狱 → 廷杖 → 流放 → 追杀 → 极端环境 → 弟弟病逝。单凭 ITS 无法分离这些事件各自的贡献。ITS 估出的 +10.28 是整条事件链的综合效应,不是廷杖一项的独立效应。

诚实的结论:第 1 章的论点应当改写为"1506 那段经历的综合冲击,触发了 7 维同时显著的人格重组",不是"廷杖独立导致了 7 维重组"。两者差一个粒度层级。

对 claim 强度的总体降级

把前 5 章的所有因果 claim 按本章的限制重新审视,得到一组降级后的诚实表述

表 6·2 各章原 claim 与降级后的诚实表述

原 claim降级后的诚实表述
1506 廷杖触发 7 维人格重组1506 那段经历的综合冲击(含阳明上疏的主动选择 + 廷杖几死 + 流放 + 极端环境)伴随阳明 33 年人格史上唯一一次 7 维同步重组;事件与主动选择不可分离
1521 致良知触发"良知"词频暴增 +5.271521 前后,阳明话语系统的内部重组使"良知"一词在文本中相对其他儒家概念异常上升 +5.27 /千字,远超 placebo 噪声尺度
断点聚集在 1520–152217 个独立时间序列中 14 个的最优分界位于 1520–1522,与史学共识的转折期吻合;这是支持"1521 是真转折"的独立证据
阳明在 6 体裁里是 6 个不同的人阳明 8 个人格维度的均值在 6 种文体里有显著差异,提示人格表达的场景化;且时段 - 体裁近共线让因果识别在 343 条数据上不可行

这本书的核心贡献

把所有限制承认完之后,这本书还剩下什么?

贡献一:方法学的可行性证明。用 ITS / 合成控制 / 断点检测 / 多维联合一致性这一组工具,对一个 500 年前的中国思想家做事件级因果推断,在文本数据上是可行的。即使每种方法各有限制,6 种方法互相印证后给出的论点(1521 前后是转折期)比任何单一方法的论点都强。这条方法学路径以前没人系统走过,本书填了一个空白。

贡献二:阳明研究的量化基线。把 343 条传习录 + 611K 字全集结构化,给出 51 个核心概念的时间序列、8 个人格维度的逐文档评分、6 个时段的概念分布。这些数据公开后,后续研究者可以用作起点,测试自己的假设、训练自己的模型。

贡献三:哲学史叙事的部分修正。数据揭示"龙场悟道"与"致良知"是阳明完整人格演化的阐发与命名,而不是触发点。真正的触发点在 1506 那段身体几乎死、政治几乎死的危机里。这个修正以前也有学者想到,但缺少定量证据,本书提供了第一个定量证据。

贡献四:一种值得复用的研究范式。给后续想做"中国古典思想家 + 计算文本分析 + 因果推断"的研究者一个完整的操作流程参考:数据怎么结构化、概念词表怎么设计、方法怎么搭配、limitations 怎么写。

后续可能的扩展

老实标完限制后,也老实说扩展空间:

扩展一:LLM 打分替代规则化打分。本书的 8 维度评分用 95 个手工标记词。若用 Claude / GPT / DeepSeek 直接给每条文档打 8 维分,可捕获规则匹配不到的语用细节。代价是评分不可复现(每次运行略不同)+ API 成本。

扩展二:全集 + 学派文献联合分析。本书把朱熹作为外生历史对照,但只用了《朱子语类》。若加入陆九渊全集(心学先驱)、王畿全集(阳明门人激进派)、钱德洪文集(阳明门人正统派),能做更精细的学派内部话语演化分析。

扩展三:多被试比较。若把同样方法应用到朱熹、陆九渊、阳明、王畿、钱德洪 5 个人,每个人都做 ITS + 断点检测,看"宋明儒学家的人格演化模式"是否有共性。这是真正的群体级研究,能从 LATE 升到接近 ATE。

扩展四:加入年谱与传记作监督信号。本书的概念词表与人格维度都是无监督设计的。若以年谱中明确记载的事件(譬如"1517 年徐爱卒,阳明哀痛")作监督信号,训练一个事件 → 人格反应的模型,能让推断更精细。

方法卡片:写给后来者的操作清单

方法卡片复用本书研究范式的标准流程

选 subject。一个有大量自著文本与详细年谱的历史人物。汉文学者偏好朱子、阳明、戴震;西方偏好 Locke、Kant、Wittgenstein 这种留下大量文本的。

结构化语料。抽取纯古典原文(排除现代校注),按年份打标。关键是 metadata 完整。

设计概念词表。50 个左右核心概念,覆盖学派纲领、传统改造、辩论对象、工夫论这几个层面。词表应在分析前用学理论证,不能后挑。

设计人格维度词表。5 到 8 个维度,每个维度 10 到 20 个标记词。

跑 ITS + 断点检测 + 合成控制。三个互补方法,对同一组事件分别跑。

跑内部基线 + Placebo。给出"什么都没变"的噪声尺度,作为显著性判断的参照。

写 limitations。单被试、历史人物、内生 treatment、并发事件、体裁混淆这几条都要交代清楚。

本章知识地图

表 6·3 第 6 章核心概念与常见误解

核心概念核心内容常见误解为什么错
单被试历史推断一个人一生纵向时间序列上的因果识别以为能给出 ATE没有 between-subject 实验,只能给 LATE
Pearl 梯子层级关联 / 干预 / 反事实 三层以为所有方法都是"因果"描述性方法不在干预层,不能直接说因果
内生 treatment个体自己选择了 treatment以为皇帝下令就是外生阳明上疏选择导致下令,选择本身是内生的
并发事件混淆单一时点同时多事件发生以为可以分离各事件贡献时间分辨率与无外部对照让分离不可行
Claim 降级把"X 导致 Y"改为"X 后观测到 Y"以为降级削弱论点实际加强论点;读者更信任承认边界的研究
多维联合一致性多维度同向显著作为联合证据以为各维度可视为独立维度间有相关,严格的联合 pp 值要做校正
方法学补强6 种方法互相印证,任一不可单独定论以为最强单一方法就够单被试推断必须依赖多方法交叉验证