苏轼轨迹 · 第 6

方法论附录:六种方法的假设核查与 claim 降级

前面 5 章给出了一组具体发现:1079 乌台诗案触发 D2 自我修正与贬谪主题上升、"黄州" 主题词频跳跃通过 sanity check、隐逸与三教转向需要更长观察窗口才能识别。这些结论在数据上看起来合理,但每一条都依赖一套假设。这一章把假设、限制、可能的反驳一次性摆出来,这是因果推断研究的标准做法,也是这本书能站住的关键。

研究设计的两个根本限定

任何方法学讨论都要从研究设计的限定出发。本书的研究设计有两个不能改的限定。

第一,单被试。我们只研究苏轼一个人,不是 1000 个北宋士人组成的样本。所以做不了 between-subject 实验、做不了随机分配、做不了基于群体的统计推断。所有因果识别都是 within-subject,时间序列上的 pre/post 比较。

第二,历史人物。苏轼 1101 年卒,离今天 925 年。不能去访谈他、不能给他做问卷、不能重新收集数据。所有材料只有他自己写的或被记录的文本,加少量年谱与传记。

这两条限定决定了我们能用什么方法、不能用什么方法、能宣称多强的 claim。

雷区把单被试纵向研究当 RCT 来读

读者读到第 1 章 "1079 乌台诗案 D2 自我修正 level shift +3.71,t=1.82t = 1.82" 时,容易按 RCT 风格解读:"乌台诗案导致苏轼自我修正词频上升,p<0.10p < 0.10"

本研究的设计是单被试时间序列上的 pre-trend 外推 vs post 实际比较,估的是沿着这条单一历史轨迹的偏离,与 RCT 估计的 "如果乌台诗案对一般人会怎样" 群体平均因果效应不在同一层级。

诊断方法:任何用单被试历史数据做的因果推断,claim 强度必须从 "X 导致 Y" 退到 "在这段历史轨迹上,X 后观测到 Y"。这两句话差一个量化的 LATE / ATE 区分。

稳健替代:论文写作中明确写 "本研究是单被试事件研究,估计的是 local effect along this trajectory,不是 population-level causal effect"。

6 种方法在因果推断框架里的位置

把前 5 章用过的方法放在 Pearl 的因果推断梯子上看,它们分布在不同层级。

表 6·1 6 种方法的 Pearl 梯子层级与限制

方法Pearl 梯子层级在本书的作用主要限制
概念分布散度关联(描述)第 2 章:衡量整体话语变化,双外部对照被高频项稀释
断点检测关联(描述)第 3 章:让数据自报转折点小样本下断点位置不稳
ITS干预(因果)第 1 章:估单一事件的反事实偏离pre-trend 假设 + 内生 treatment
合成控制反事实(因果)第 4 章:用 donor 加权构造反事实donor 选择易循环论证
体裁 FE 回归干预(因果)第 5 章:扣除体裁混杂假设体裁 × treatment 无交互
代笔诊断元层面(元证据)第 5 章:剔除非苏轼主导文本标注本身有主观性

苏轼项目特有的两个诚实交代

阳明项目的 chap06 已经包含 ITS / 合成控制 / 断点检测 / FE 等通用方法的边界讨论。本节只增加苏轼项目特有的两条。

代笔标签的剔除不彻底

第 5 章把 1086–1089 翰林学士期间的 80 篇内制外制打 is_ghostwriting=true 剔除。但代笔的边界其实模糊。苏轼为皇帝起草诏书时,词句选择、典故化用、语气拿捏都有他个人风格的渗透——这部分 "皇帝口吻的苏轼语汇" 是真实的内容主导权混合,不是简单的 "皇帝说" 或 "苏轼说"。把它们一刀切剔除会丢失这部分细微信号,但保留又会混进 "皇帝说" 部分。

本书选择剔除,因为漏掉细微信号(false negative)比混入皇帝口吻(false positive)风险更小,但读者应当知道这条选择本身是一个 ad-hoc 决定。

词的应酬性标注的主观性

第 5 章按 social_function 把 360 首词分为 self_expression / social_courtesy / commemoration / topic_painting / funereal 五类,只在 self_expression 子集上做人格分析。但 social_function 的标注没有客观标准——《江城子·密州出猎》是 self_expression 还是 commemoration?《水调歌头·明月几时有》序里说 "兼怀子由",是 self_expression 还是怀人?

本书的标注是基于序文与背景的人工 + 关键词混合判断,但每一首词的标注都可能被另一位研究者推翻。这条主观性会引入 N 噪声。减少噪声的办法是多人标注 + Cohen's kappa 评估,但单作者项目没有这个条件。

读者应当把第 5 章基于词子集的结果视为有标注误差的估计,而不是客观真相

从单被试到推广:与阳明项目的对照

本书是 "人格因果" 学派的第二本(第一本是阳明轨迹)。单本书的 claim 必然受限,但两本书拼起来,可以提出一个跨被试的猜想:

猜想(待第三本验证):外生政治打击(廷杖 / 廷狱)触发的人格变化主要表现在自我修正身份重定位两个维度,不在隐逸三教融合。后两者需要更长的稳定贬所观察期(5 年以上)才能识别。

阳明 1506 廷杖后立刻贬贵州龙场,但 1508 龙场悟道才是 "智识转向" 的标志,数据上 D8 三教融合的明显上升出现在 1508 之后而非 1506 当年。苏轼 1079 乌台诗案后立刻贬黄州,1082《前赤壁赋》才是 "智识转向" 的标志,数据上 D8 三教融合的上升(本书暂未达 t>1.7t > 1.7 显著)也应在 1082 之后才显。

这条 "外生打击 → 立即 self-reframing → 延迟智识转向" 的两阶段模式如果在第三本同类研究(譬如曾国藩或顾炎武)里也成立,就能 promote 为 "人格因果" 学派的第一条核心命题。单靠苏轼 + 阳明两本无法做这条 promotion,第三本是必要的。

研究展望

本书在数据准备阶段做了 4 件事——切分苏轼集 6,375 篇、解析年谱 66 年、解析乌台诗案 26 个日级节点、跑 ITS 17 条序列。后续 iteration 需要补的工作包括:编年回填提升到 30% 以上(目前 8.6%)、外部对照 extract 脚本写完、断点检测 bootstrap 跑完、合成控制 Placebo 跑完、体裁 FE 跑完。

这些工作的完成程度决定 chap02–chap05 的可定量化程度。章节正文已经搭好结构,数字回填后即可成稿。

本章知识地图

表 6·2 第 6 章核心概念与常见误解

核心概念核心内容常见误解为什么错
单被试限定只研究苏轼一人以为能 generalize 到所有北宋文人需要第三本类似研究才能 promote
历史人物限定不能问卷,只能文本以为文本计量等价于问卷文本计量是 proxy,必有 measurement error
Pearl 梯子关联 / 干预 / 反事实三层以为本书都是因果级实际 50% 是描述性,ITS + 合成控制才是因果级
代笔标签is_ghostwriting=true以为标签 = 客观真相代笔边界本身模糊,标注是 ad-hoc
应酬性词标注social_function 五分类以为客观单作者无 Cohen's kappa,必有标注误差
跨被试推广苏轼 + 阳明 + 第三本以为两本就够三本是 minimum for promotion to claim