苏轼轨迹 · 第 2

概念分布散度:王安石与黄庭坚作为双外部历史对照

第 1 章 ITS 估出 1079 乌台诗案在 D2 自我修正与贬谪主题上的边缘显著效应,但 ITS 只看事件前后的差,看不到话语整体演化的形状。譬如苏轼一生的核心概念词频是怎么从年轻时的政治议论逐步过渡到晚年的隐逸佛道,这条 "渐变曲线" 在 ITS 框架里是被当作噪声处理的。本章用概念分布散度直接刻画这条曲线,并引入王安石黄庭坚两个外部对照,看苏轼的演化是否真的是 "苏轼独有",还是 "北宋文人共有"。

研究问题与时段切分

第 0 章已经介绍,阳明项目用《朱子语类》作为单一外部对照,衡量阳明话语相对程朱学派的距离演化。苏轼项目升级为双外部对照,理由是苏轼面临的 "知识场" 比阳明复杂——阳明只需对话朱熹一家,苏轼夹在*新党(王安石派)苏门(黄庭坚为首)*之间,单轴对照无法刻画这种二维张力。

按本书的 treatment 节点把 45 年切为 6 时段。

表 2·1 苏轼 45 年时段切分与样本量

时段年份范围说明篇数字数
P1 早年1057–1070中进士 → 反新法外任前5213,026
P2 反新法1071–1078通判杭州 / 知密州 / 徐州 / 湖州19130,461
P3 乌台后黄州1080–10841080 谪黄州 → 离黄11718,681
P4 元祐起复1086–1093翰林学士 / 礼部尚书 / 知杭州284,018
P5 惠州1094–1096谪惠州82,050
P6 儋州与北归1097–1101谪儋州 → 北归 → 卒13416,827

1079 一年与 1085 / 1100 两年单独剔除(理由见第 1 章)。P4 与 P5 样本量较小nn 分别为 28 与 8 篇,这一限制会影响这两个时段的估计精度,后续散度分析需要带 caveat 读。

研究问题

具体而言,本章问三个问题。第一,苏轼 45 年话语演化中,5 个过渡(P1 → P2, P2 → P3, …, P5 → P6)里哪个最大?第二,苏轼与王安石的概念距离在三次外生贬谪附近怎么变?第三,苏轼与黄庭坚的概念距离是否始终同步,还是在贬谪期出现分歧?

L1 / JS 散度的定义与用途

定义L1 / JS 散度
def:divergences

给定两个概率分布 p,qp, q over 概念集合 C\mathcal{C}

L1 散度 DL1(p,q)=cCp(c)q(c)D_{L1}(p, q) = \sum_{c \in \mathcal{C}} |p(c) - q(c)|,取值 [0,2][0, 2],度量两分布的逐项绝对差之和。

JS 散度 DJS(p,q)=12DKL(pm)+12DKL(qm)D_{JS}(p, q) = \frac{1}{2} D_{KL}(p \| m) + \frac{1}{2} D_{KL}(q \| m) 其中 m=(p+q)/2m = (p+q)/2,取值 [0,1][0, 1](以 2 为底),对称、有界。

两种散度互相 cross-check:如果两者方向一致,结论稳健;如果一者偏离另一者,说明是被单一高频概念牵着走的 artifact。

苏轼内部 5 个过渡的散度

表 2·2 苏轼 6 时段内部 5 个过渡的 JS 与 L1 散度

过渡含义JSL1
P1 → P2早年 → 反新法0.07970.5482
P2 → P3反新法 → 乌台后黄州0.06710.3497
P3 → P4乌台后黄州 → 元祐起复0.23210.8176
P4 → P5元祐起复 → 惠州0.43811.2038
P5 → P6惠州 → 儋州与北归0.23470.8408
结果解读

最大的过渡落在 1093 党争翻案附近的 P4 → P5(JS = 0.4381,L1 = 1.2038),1079 乌台诗案附近的 P2 → P3 仅 0.0671,排在 5 个过渡的最末位。这个数字与传统叙事尖锐冲突:传统认为 1080 黄州才是苏轼一生最大的话语转折点,但 P2 → P3 散度只有 0.0671,排在 5 个过渡里的最末位。

为什么会这样?一个 likely 解释是:P2 反新法期苏轼任地方官,大量写赠别诗、行政公文,与 P3 黄州期的私人书信、闲居诗虽然语境不同,但概念词频分布接近——两阶段都是在野状态下的文人话语。真正大变的是 P4 元祐起复,苏轼回朝任翰林学士,大量写内制外制(高频政治术语),然后 P5 突然贬到岭南瘴疠之地,政治术语骤减、佛家与归隐词飙升,这一变化的幅度才是 5 个过渡里最大的。

但要注意,P5 仅 8 篇 2,050 字,估计精度较低。这条 P4 → P5 的最大散度有可能部分被 P5 小样本噪声放大,后续 bootstrap 检验会给出更稳健判断。

苏轼 vs 双外部对照的二维参照空间

王安石《临川文集》444,154 字、黄庭坚《山谷全集 + 山谷诗注》1,008,450 字作为外部对照基线。苏轼每个时段相对两人的 JS 散度构成二维坐标。

表 2·3 苏轼每时段与王安石、黄庭坚的 JS 散度

时段JS(vs 王安石)JS(vs 黄庭坚)差(vs 王 − vs 黄)
P1 早年0.10820.1371−0.0289
P2 反新法0.16920.1260+0.0433
P3 黄州0.24080.1180+0.1228
P4 元祐起复0.15100.2344−0.0834
P5 惠州0.39330.3478+0.0455
P6 儋州与北归0.25030.1317+0.1186

Parity check:JS(王安石, 黄庭坚) = 0.1700。

结果解读

苏轼相对两个外部对照的演化呈现四阶段 pattern。

阶段一(P1 早年):距黄庭坚(0.137)略远于距王安石(0.108)。这一时期苏轼刚中进士,话语风格接近士大夫共有的政论范式,与王安石的政论风格距离反而最近。

阶段二(P2 反新法):开始远离王安石(JS 升到 0.169),同时靠近黄庭坚(降到 0.126)。反新法立场让苏轼的话语向苏门一侧偏移。

阶段三(P3 黄州 + P6 儋州):距王安石最远(JS 升到 0.24 / 0.25),距黄庭坚最近(0.118 / 0.132)。贬所期的苏轼话语与王安石政论体系完全脱节,与苏门文人话语高度同步。

阶段四(P4 元祐起复):这一阶段反常——距王安石变近(0.151),距黄庭坚反而最远(0.234)。这条反传统的二维位移可能由两条机制驱动:一是苏轼任翰林学士起草大量内制外制,官式套语回归;二是黄庭坚同期也在朝,但两人具体撰文场景与立场细节有差异。

P5 惠州距双方都远(0.39 / 0.35),但该时段仅 8 篇 2,050 字,估计精度低,不能据此 claim "惠州话语独特性"。

图 2·1 苏轼 6 时段在(JS vs 王安石,JS vs 黄庭坚)二维参照空间中的轨迹。轨迹起点 P1 早年近原点,P3 黄州距王安石最远,P4 元祐反向偏到距黄庭坚最远,P4 → P5 是最长的一段(JS = 0.4381),P6 回归到距黄庭坚最近的位置。完整二维轨迹 TikZ 图详见 PDF 全文。

关键概念在 6 时段的演化追踪

把散度结果细化到 13 个关键概念词的逐时段千字频率。

表 2·4 13 个关键概念在 6 时段的千字频率

概念P1 早年P2 反新法P3 黄州P4 元祐P5 惠州P6 儋州
新法0.000.000.000.000.000.00
1.692.692.841.740.983.09
0.920.690.540.001.460.77
1.072.823.531.742.933.63
0.541.080.861.001.460.53
0.000.130.540.250.490.36
0.380.130.480.504.390.77
2.921.842.030.751.952.20
0.000.100.110.000.000.24
黄州0.000.000.700.000.000.06
东坡0.000.000.591.240.000.95
海南0.000.000.050.000.000.65
归田0.000.000.110.000.000.00
结果解读

几个具体观察。新法一词在苏轼 45 年里几乎从不出现,说明苏轼讨论变法时用的是青苗 / 募役 / 市易这种具体名,而不用 "新法" 这个抽象标签——这是苏轼与王安石话语风格差异的一个直接表现。

词随年龄稳步上升,从 P1 的 1.07 到 P6 的 3.63,翻 3.4 倍,这是合理的——人在变老。词同样稳步上升,P6 达到 3.09 最高,与归田 / 归隐主题的晚年凝聚一致。

词在 P5 惠州达到 4.39 异常高,远超其他时段。这与惠州西湖广孝寺、嘉祐寺等佛教环境直接相关,但 P5 仅 8 篇样本,不应据此推断 "惠州让苏轼皈依佛教"——单年 spike 的因果解释比累积趋势的因果解释要更谨慎。

词在 P4 元祐期反而降到 0.75 最低,这是 ITS 与合成控制都没注意到的反向变化:元祐起复让苏轼的话语向官式靠拢,道家用语反而被挤压。

黄州东坡两词的出现时机互补——黄州集中在 P3(0.70),东坡从 P3(0.59)开始,在 P4 元祐期反而最高(1.24)。这意味着 "东坡" 作为苏轼自我命名的 identity marker 在他离开黄州之后才大量使用。

P4 → P5 最大过渡的多重解读

上一节散度结果显示 P4 → P5 是最大过渡(JS = 0.4381)。这个数字与传统的 "1080 黄州转向" 叙事冲突,至少有三种可能解读,需要在后续章节进一步辨析。

第一种解读,P4 → P5 的大散度反映真实的话语断裂:1093 哲宗亲政、新党再起、苏轼贬惠州,这一外生政治冲击在话语层面的冲击力比 1079 乌台诗案更大。这种解读暗示1094 谪惠州才是苏轼一生的真转折点,第 3 章断点检测可以独立验证。

第二种解读,P5 小样本(8 篇)造成的估计偏差:P5 仅 2,050 字,散度估计的方差大,0.4381 这个高数字可能部分是噪声。解决办法是用 P5+P6 合并(16,827 + 2,050 字)重算,看散度是否依然 strong。

第三种解读,体裁混淆:P4 是翰林学士期,内制外制密集(高频政治术语);P5 是贬所期,书信 + 闲居诗为主。体裁分布差异是天然的散度推手,第 5 章体裁固定效应回归可以分离体裁混淆与时段混淆。

本书在第 3 章用断点检测、第 4 章用合成控制、第 5 章用体裁 FE 分别从三个角度验证这条最大过渡的稳健性。

本章知识地图

表 2·5 第 2 章核心概念与常见误解

核心概念核心内容常见误解为什么错
L1 散度两分布逐项绝对差之和以为它对所有概念等权实际被高频项主导,长尾项被淹没
JS 散度对称版 KL,范围 [0, 1]以为它就是 "距离"严格说是平方距离,开根号才是真距离
双外部对照王安石异质 + 黄庭坚同质以为对照越多越好4 个以上会让二维参照空间退化为高维,难解读
P2 → P3 散度小0.0671 仅排第 5以为乌台事件最大该过渡两边都是 "在野文人" 语境,体裁分布相近
P4 → P5 散度大0.4381 最大以为 1080 黄州最大1093 党争翻案触发的话语断裂幅度更大
P5 小样本仅 8 篇 2,050 字以为可以直接用散度估计噪声大,单独 claim 需要谨慎