苏轼轨迹 · 第 3

断点检测:让数据自报转折点

第 1 章 ITS 的设定预设了 1079 是 treatment,然后估它的效应。第 2 章散度分析按 6 个 treatment 时段切分,也预设了 P1–P6 的边界。这两章都依赖 "我们已经知道哪一年是事件" 这个先验。若这个先验本身错了——真实的人格断点不在 1079 而在 1086 或 1088——前两章的所有估计都会偏。本章用断点检测反过来:把 "事件年份" 当未知量,让算法在 43 个有数据的年份里自己找断点,再回头看找到的断点与传记叙事是否一致。

研究问题

把 8 维人格维度与 9 主题概念在 1043–1101 的年度时间序列单独看,问:这条序列里有几个断点,分别在哪一年? 如果 1079 是真转折,多数序列的最强断点应当在 1079–1080;如果不是,真转折点在别的年份,那本书第 1 章 ITS 的 treatment 选择就需要重审。

方法:Binary Segmentation + BIC 选 K

定义Binary Segmentation 多断点检测
def:bin-seg

给定时间序列 {yt}t=1T\{y_t\}_{t=1}^{T},贪心地寻找一系列断点 {τ1,τ2,,τK}\{\tau_1, \tau_2, \ldots, \tau_K\} 使得分段均值拟合的残差平方和最小:

minτ1,,τKk=0Kt=τk+1τk+1(ytyˉ[τk+1,τk+1])2.\min_{\tau_1, \ldots, \tau_K} \sum_{k=0}^{K} \sum_{t = \tau_k + 1}^{\tau_{k+1}} (y_t - \bar{y}_{[\tau_k+1, \tau_{k+1}]})^2.

KK 由 BIC 准则选定:BIC(K)=nlog(SSK/n)+(2K+1)logn\text{BIC}(K) = n \log(\text{SS}_K / n) + (2K+1) \log n,选使 BIC 最小的 KK

为什么 BIC 罚项用 2K+12K+1 而不是 3K+13K+1 KK 个断点引入 K+1K+1 段均值参数加 KK 个断点位置参数,共 2K+12K+1 个。用 3K+13K+1 会过度惩罚,在本书 43 年小样本上让所有序列退化为 K=0K = 0,检测不到任何转折点。这条选择是 ad-hoc 的,在第 6 章方法学讨论中会单独交代。

为什么不用 ITS 的预设 treatment 直接做断点

ITS 的*level shift β2\beta_2 与 slope change β3\beta_3*估的是 "在 1080 这个边界上的跳跃 / 斜率变化"。如果真断点不在 1080 而在 1086,ITS 把真断点的能量稀释到 pre-trend 与 post-trend 两侧,估出的效应会偏弱。断点检测反过来:让算法找最好的边界,再去问这个边界落在哪年。

17 条序列的断点检测结果

跑完 Binary Segmentation + BIC 选 K 之后,17 条序列中只有 2 条选了 K=1K = 1,其余 15 条选 K=0K = 0(无断点)。

表 3·1 17 条序列的断点检测结果

序列来源K断点年份段均值演化
D1 政治姿态人格00.55
D2 自我修正人格02.50
D3 实践导向人格00.33
D4 处变能力人格00.49
D5 决断力人格07.22
D6 情感深度人格011.48
D7 隐逸倾向人格07.31
D8 三教融合人格110884.82 → 11.41
政治新法概念00.03
儒家纲领概念01.74
佛家概念110860.75 → 4.51
道家概念02.00
归隐概念07.60
贬谪概念01.32
情感概念03.00
黄州概念00.87
君臣概念07.40
结果解读

17 条序列里只有两条有断点,而且断点都落在1086–1088这个窄区间,不在 1079–1080。这是一条强烈的反传统信号。

D8 三教融合断点在 1088,段均值从 4.82 跳到 11.41,翻 2.4 倍。1088 是元祐三年,苏轼任翰林学士两年后,知贡举主持科举,这一时期他在朝廷做实际事务。

佛家断点在 1086,段均值从 0.75 跳到 4.51,翻 6 倍。1086 是元祐起复元年,苏轼回朝任翰林学士。

两条断点的方向都是元祐起复期之后,三教融合与佛家词频显著上升。这与传统叙事 "黄州(1080–1084)让苏轼皈依佛道" 完全相反——数据告诉我们,黄州期(P3)的三教与佛家词频均值只有 6.81 / 0.48,元祐起复期(P4)才上升到 11.41 / 4.51。

为什么?一个可能的解释是:黄州贬所期苏轼仍处于震荡期,写的多是叙事性诗文(赤壁、定惠院月夜),真正系统接触佛道经典是在元祐起复之后——回到京师有藏书可读、有同道可论,三教讨论才进入密集期。黄州赤壁赋虽含 "盈虚消长" 的道家影子,但佛 / 禅 / 般若 / 空这些具体词出现频率不高。

断点的聚类:数据自报的真转折期

只有 2 条序列有断点,谈不上 "聚类"。但两个断点都落在 1086–1088 区间,集中在元祐起复这一年段,这构成一个弱聚类信号。

元祐起复(1085–1093)在传统苏轼研究中的政治意义远高于其文学意义:苏轼回朝任翰林,草拟诏书无数,但留下的文学名篇相对少。数据告诉我们:元祐期是思想转向期而非文学转向期——三教融合与佛家词的密度上升,但这种上升不集中在传统意义的 "黄州赤壁" 诗篇里,而是分散在元祐期的尺牍、奏议、序跋之中。

1079 在断点检测中的缺席

另一个观察是1079 在 17 条断点检测里完全缺席——没有一条序列把 1079 或 1080 选为断点。这是对第 1 章 ITS 选择 1079 作为 treatment 的一次独立检验,检验结果是负面的:1079 在 BIC 意义上不是任何一条序列的真断点。

这条结果有三种读法。第一种,ITS 是错的——1079 不是真转折,第 1 章估出的 D2 自我修正 t=1.82t = 1.82贬谪主题 t=1.84t = 1.84 都是误判。第二种,1079 的效应太弱,BIC 罚项把它归入噪声;ITS 在线性假设下能看到,断点检测在分段均值假设下看不到。第三种,真断点不是单一年份,而是 1079 / 1086 两个年份连锁——1079 触发 self-reframing,但话语系统的全面重组延迟到 1086 元祐起复后才完成。

第 4 章合成控制会同时给出 1079 与 1086 附近的 post-period 累计偏离,三种读法届时可以进一步辨别。

本章知识地图

表 3·2 第 3 章核心概念与常见误解

核心概念核心内容常见误解为什么错
Binary Segmentation贪心找一个个断点以为它和 PELT 等价PELT 是更快的精确算法,BinSeg 是近似
BIC 选 Knlog(SS/n)+(2K+1)lognn \log(\text{SS}/n) + (2K+1) \log n以为系数固定罚项系数可调,本书用 2K+12K+1,罚项重时退化 K=0
D8 三教断点 1088段均值 4.82 → 11.41以为应当在黄州元祐起复后三教讨论才密集
佛家断点 1086段均值 0.75 → 4.51 翻 6 倍以为黄州让苏轼皈依佛道黄州期佛家词频仅 0.48,远低于元祐期
1079 缺席17 条序列无一选 1079以为这否定 ITS实际可能是渐进效应,合成控制能挖出
ITS vs 断点不一致ITS 看到、断点看不到以为方法学矛盾不同假设下的结果,用合成控制做第三方仲裁