第 1 章 ITS 的设定预设了 1079 是 treatment,然后估它的效应。第 2 章散度分析按 6 个 treatment 时段切分,也预设了 P1–P6 的边界。这两章都依赖 "我们已经知道哪一年是事件" 这个先验。若这个先验本身错了——真实的人格断点不在 1079 而在 1086 或 1088——前两章的所有估计都会偏。本章用断点检测反过来:把 "事件年份" 当未知量,让算法在 43 个有数据的年份里自己找断点,再回头看找到的断点与传记叙事是否一致。
研究问题
把 8 维人格维度与 9 主题概念在 1043–1101 的年度时间序列单独看,问:这条序列里有几个断点,分别在哪一年? 如果 1079 是真转折,多数序列的最强断点应当在 1079–1080;如果不是,真转折点在别的年份,那本书第 1 章 ITS 的 treatment 选择就需要重审。
方法:Binary Segmentation + BIC 选 K
给定时间序列 ,贪心地寻找一系列断点 使得分段均值拟合的残差平方和最小:
由 BIC 准则选定:,选使 BIC 最小的 。
为什么 BIC 罚项用 而不是 ? 个断点引入 段均值参数加 个断点位置参数,共 个。用 会过度惩罚,在本书 43 年小样本上让所有序列退化为 ,检测不到任何转折点。这条选择是 ad-hoc 的,在第 6 章方法学讨论中会单独交代。
为什么不用 ITS 的预设 treatment 直接做断点
ITS 的*level shift 与 slope change *估的是 "在 1080 这个边界上的跳跃 / 斜率变化"。如果真断点不在 1080 而在 1086,ITS 把真断点的能量稀释到 pre-trend 与 post-trend 两侧,估出的效应会偏弱。断点检测反过来:让算法找最好的边界,再去问这个边界落在哪年。
17 条序列的断点检测结果
跑完 Binary Segmentation + BIC 选 K 之后,17 条序列中只有 2 条选了 ,其余 15 条选 (无断点)。
表 3·1 17 条序列的断点检测结果
| 序列 | 来源 | K | 断点年份 | 段均值演化 |
|---|---|---|---|---|
| D1 政治姿态 | 人格 | 0 | — | 0.55 |
| D2 自我修正 | 人格 | 0 | — | 2.50 |
| D3 实践导向 | 人格 | 0 | — | 0.33 |
| D4 处变能力 | 人格 | 0 | — | 0.49 |
| D5 决断力 | 人格 | 0 | — | 7.22 |
| D6 情感深度 | 人格 | 0 | — | 11.48 |
| D7 隐逸倾向 | 人格 | 0 | — | 7.31 |
| D8 三教融合 | 人格 | 1 | 1088 | 4.82 → 11.41 |
| 政治新法 | 概念 | 0 | — | 0.03 |
| 儒家纲领 | 概念 | 0 | — | 1.74 |
| 佛家 | 概念 | 1 | 1086 | 0.75 → 4.51 |
| 道家 | 概念 | 0 | — | 2.00 |
| 归隐 | 概念 | 0 | — | 7.60 |
| 贬谪 | 概念 | 0 | — | 1.32 |
| 情感 | 概念 | 0 | — | 3.00 |
| 黄州 | 概念 | 0 | — | 0.87 |
| 君臣 | 概念 | 0 | — | 7.40 |
17 条序列里只有两条有断点,而且断点都落在1086–1088这个窄区间,不在 1079–1080。这是一条强烈的反传统信号。
D8 三教融合断点在 1088,段均值从 4.82 跳到 11.41,翻 2.4 倍。1088 是元祐三年,苏轼任翰林学士两年后,知贡举主持科举,这一时期他在朝廷做实际事务。
佛家断点在 1086,段均值从 0.75 跳到 4.51,翻 6 倍。1086 是元祐起复元年,苏轼回朝任翰林学士。
两条断点的方向都是元祐起复期之后,三教融合与佛家词频显著上升。这与传统叙事 "黄州(1080–1084)让苏轼皈依佛道" 完全相反——数据告诉我们,黄州期(P3)的三教与佛家词频均值只有 6.81 / 0.48,元祐起复期(P4)才上升到 11.41 / 4.51。
为什么?一个可能的解释是:黄州贬所期苏轼仍处于震荡期,写的多是叙事性诗文(赤壁、定惠院月夜),真正系统接触佛道经典是在元祐起复之后——回到京师有藏书可读、有同道可论,三教讨论才进入密集期。黄州赤壁赋虽含 "盈虚消长" 的道家影子,但佛 / 禅 / 般若 / 空这些具体词出现频率不高。
断点的聚类:数据自报的真转折期
只有 2 条序列有断点,谈不上 "聚类"。但两个断点都落在 1086–1088 区间,集中在元祐起复这一年段,这构成一个弱聚类信号。
元祐起复(1085–1093)在传统苏轼研究中的政治意义远高于其文学意义:苏轼回朝任翰林,草拟诏书无数,但留下的文学名篇相对少。数据告诉我们:元祐期是思想转向期而非文学转向期——三教融合与佛家词的密度上升,但这种上升不集中在传统意义的 "黄州赤壁" 诗篇里,而是分散在元祐期的尺牍、奏议、序跋之中。
1079 在断点检测中的缺席
另一个观察是1079 在 17 条断点检测里完全缺席——没有一条序列把 1079 或 1080 选为断点。这是对第 1 章 ITS 选择 1079 作为 treatment 的一次独立检验,检验结果是负面的:1079 在 BIC 意义上不是任何一条序列的真断点。
这条结果有三种读法。第一种,ITS 是错的——1079 不是真转折,第 1 章估出的 D2 自我修正 与贬谪主题 都是误判。第二种,1079 的效应太弱,BIC 罚项把它归入噪声;ITS 在线性假设下能看到,断点检测在分段均值假设下看不到。第三种,真断点不是单一年份,而是 1079 / 1086 两个年份连锁——1079 触发 self-reframing,但话语系统的全面重组延迟到 1086 元祐起复后才完成。
第 4 章合成控制会同时给出 1079 与 1086 附近的 post-period 累计偏离,三种读法届时可以进一步辨别。
本章知识地图
表 3·2 第 3 章核心概念与常见误解
| 核心概念 | 核心内容 | 常见误解 | 为什么错 |
|---|---|---|---|
| Binary Segmentation | 贪心找一个个断点 | 以为它和 PELT 等价 | PELT 是更快的精确算法,BinSeg 是近似 |
| BIC 选 K | 以为系数固定 | 罚项系数可调,本书用 ,罚项重时退化 K=0 | |
| D8 三教断点 1088 | 段均值 4.82 → 11.41 | 以为应当在黄州 | 元祐起复后三教讨论才密集 |
| 佛家断点 1086 | 段均值 0.75 → 4.51 翻 6 倍 | 以为黄州让苏轼皈依佛道 | 黄州期佛家词频仅 0.48,远低于元祐期 |
| 1079 缺席 | 17 条序列无一选 1079 | 以为这否定 ITS | 实际可能是渐进效应,合成控制能挖出 |
| ITS vs 断点不一致 | ITS 看到、断点看不到 | 以为方法学矛盾 | 不同假设下的结果,用合成控制做第三方仲裁 |