《水浒人物社会网络统计分析》 读书笔记

引言

《水浒传》的研究涉及多种方法和视角,主要可以分为传统的人文研究和现代的定量研究两大类。

传统人文研究方法强调通过思辨、批判、创作等方式对作品进行深入理解,其研究成果通常是基于文本解读和理论推导,涉及情感、道德和精神层面的探讨。这类研究不以“正确”或“错误”为标准,更多地是提供一种深刻的心灵体验,帮助读者对文本有更加丰富和深入的感知。

与之相对的是定量研究方法,这种方法依赖于实验、数据和统计分析等手段来探究作品。定量研究不预设任何理论,而是通过归纳和实证来探寻作品的内在逻辑,关注因果关系和可重复验证的证据。此类研究途径能够在一定程度上揭示作品背后的社会文化现象和心理机制,提供更为客观的分析视角。

本研究主要聚焦于两个问题:(1)探究水浒人物座次排名的影响因素;(2)探究水浒人物关系网络形成的原因。

水浒人物社会网络建构

在本项目中,选择使用基于字符串匹配的分词方法,特别是正向最大匹配法,配合一个专门构建的水浒人物词典,该词典中包括人物的各种称呼如名字、字号、诨名等,并进行同义归并处理,例如将所有指向宋江的不同称呼统一为“宋江”。通过这种方法,分析文本中的人物出现情况,并根据他们在同一段落中的出现建立社会网络关系。在构建网络时,如果两个人物在同一个段落中出现,则在他们之间建立连接;如果某个人物独立出现,则作为一个孤立点。对于重复出现的人物关系,仅计算一次,不构建加权网络。这种方法能有效地将《水浒传》的非结构化文本转化为可分析的结构化数据,进一步分析人物间的社会网络,揭示故事中的复杂人际关系和社会结构。通过这样的技术手段,可以更深入地理解文学作品中的人物互动和社会动态。

image-kyuw.png

图1 水浒人物社会网络

水浒排名的影响分析

通过定量分析《水浒传》中梁山好汉的社会网络位置与其在忠义堂石碣排名之间的关系,探讨了社会网络理论在文学作品中的应用。作者依据社会网络分析的常用指标——度中心性、介数中心性、接近中心性和结构洞,本文构建了一个多元回归模型,以这些中心性指标为自变量,人物排名为因变量,旨在验证社会网络位置是否对梁山好汉的排名有显著影响。由于数据归一化后,最优解的寻优过程会变得平缓,更容易正确的收敛到最优解,而且得出的系数也更有解释力,因此,本研究将所选的因变量和自变量都做归一化处理。

本研究设定四个假设,通过建立多元线性方程来检验这些假设成立与否。
H1a:人物的度中心性越大,则其排名越高;
H2a:人物的介数中心性越大,则其排名越高;
H3a:人物的接近中心性越高,则其排名越高;
H4a:人物的结构洞越大,则其排名越高。

image-vyxc.png

R2 的值为0.7165,说明当前模型能够解释水浒人物排名变异情况的71.65%。F 统计量反映了这些变量中至少有一个可以解释排名情况,验证了模型的有效性。

从回归分析结果可以发现,对人物排名具有显著性影响的变量是度中心性和介数中心性,证实了H1a、H2a 的假设要求,其他两项假设由于接近中心性和结构洞的p 值不明显,不具有解释效力。

image-fwjw.png

就度中心性和介数中心性来说,宋江是典型代表。宋江绰号为“及时雨”,结交了诸多英雄好汉,他的度中心性达到33,而且他在江湖和官府这两种异质人群都有人认识,通过他可以认识不同的成员,他的介数中心性达到1832.5,可见他在水浒排行中位列第一不是没有道理的。其中有争议的是公孙胜排名第四,他的度中心性和介数中心性都不高。这说明,尽管度中心和介数中心性对排名有一定影响,但还存在其他影响因素,比如人物的身份、资历等。公孙胜与晁盖、吴用等七人 结义,一同劫取生辰纲,后上梁山入伙,是梁山掌管机密的人物,其资历和身份因素对排名影响更大。

水浒社会关系形成的网络统计分析

水浒人物网络为什么会形成以宋江为首的网络,而不是一个随机网络?有哪些原因导致它产生了这个结果?能否通过仿真再现网络的形成?

水浒观察网是随机生成的吗?

为了寻找影响网络形成的原因,首先需要明确观察网络不是随机网络,如果网络是随机的,那么其形成就不遵循某种机制,分析它的形成原因也就无意义了。

一个观察网络的构成可以分解 为边共享、二元组共享(DSP)、二元组边共享(ESP)和三角形、k 星单元等,其中最小的单元是边,边共享、二元组共享和三角形反映了网络的集聚程度。

要探测一个观察网络是否由某种规则生成而不是随机生成的,就是选取边数量和密度都相同的观察网络和随机网络进行构成单元比较,看这些构成单元的数量和随机网络是否不同。

image-mtxw.png

与同样边数和密度的随机网络相比,水浒网络的度中心性、二元组共享、二元组边共享都比随机网络表现优异,说明水浒网络的生成是遵循一定规则的。

通过对《水浒传》中的梁山好汉社会网络与随机网络的对比分析,我们可以看到网络中三角形结构的数量具有重要意义。三角形结构,或称为闭合三元组,是网络理论中的一个核心概念,表明如果两个节点共同连接到第三个节点,那么这两个节点之间也很可能形成直接连接。这种现象在社会网络分析中称为“三角闭合原则”,是网络聚集性的一个重要指标。

image-ohji.png

在本研究中,通过对水浒人物网络与100个具有相同边数和密度的随机网络的仿真分析显示,水浒人物网络中存在的三角形数量远超过任何一个随机网络。水浒网络中有23个三角形,而仿真的随机网络中最多的三角形数量为7个,且大部分随机网络中三角形数量为0。这一显著差异表明水浒人物网络的形成不是随机的,而是遵循了某些规则。

梁山好汉网络形成机制

分析原理

拓扑规则和社会影响模型

拓扑规则,如“出二星”(out-2-star),是指网络中某种特定结构倾向于演变成另一种结构,例如从两个节点指向同一个节点的结构演变成一个三角形结构。这类规则反映了网络成员之间的相互作用模式和社会影响力的传播。社会影响模型强调网络形态是由成员之间的相互作用和社会影响力塑造的。

外生协变量和社会选择模型

基于外生协变量对网络形成的影响在社会学上被称为社会选择模型。外生协变量,如地理区域、身份或其他节点属性,也对网络的形成产生重要影响。社会选择模型关注这些属性如何引导网络连接的形成,强调节点之间相似或共同的属性促使它们之间形成连接。这种模型揭示了网络形成的趋同性,即网络中的连接倾向于在具有相似特征的成员之间发生。

指数随机图模型(ERGM)

为了进一步分析《水浒传》中的人物网络形成的动因,本研究采用指数随机图模型(ERGM)。随机图模型能够根据提出的社会理论,通过统计分析检验不同假设的有效性。该模型不仅能考察单一节点属性的影响,也能综合考虑多个因素,如身份、地理位置和社会资本(度中心性、介数中心性、接近中心性、结构洞)等对网络结构的综合影响。

通过应用随机图模型,研究者可以定量地评估哪些社会理论假设在《水浒传》的社会网络中得到支持,从而更准确地描绘和理解这些古典文学人物之间复杂的社会关系。这种方法不仅加深了对文学作品中人物动态的理解,也为社会网络理论提供了一个独特的应用场景。

设定假设

作者提出了一系列假设,用以考察不同人物属性如何影响网络关系的形成。这些假设基于社会网络理论中的常见概念,并利用指数随机图模型(ERGM)来进行验证。

H1b: 相似身份的水浒人物容易建立交往关系

这个假设基于社会心理学中的“同类相吸”原理,即个体倾向于与自己有相似社会背景或属性的其他个体建立联系。在《水浒传》的背景下,这意味着出身相似的角色(如贫民、商贩、地主、官僚)更有可能形成联盟。

H2b: 水浒人物之间地理接近性越高,越有可能建立交往关系

地理接近性是社会网络分析中的一个重要因素,常见于对现实世界社交网络的研究。这一假设认为,地理上接近的人物更容易相互影响和交往,因为地理邻近降低了交流的成本和复杂度。

H3b: 度中心性越大的人越容易建立联系

度中心性高意味着一个节点有更多的直接联系,这通常反映了该节点在网络中的活跃程度和影响力。这一假设指出,中心性高的角色因为已经拥有广泛的社交联系,因此更容易进一步扩展其社交网络。

H4b: 介数中心性越大的人和别人建立联系的可能性越大

介数中心性反映了一个节点在网络中作为“桥梁”的程度。如果一个角色的介数中心性高,表明他们控制着资源流动的关键路径,因此更有可能与其他人建立联系。

H5b: 结构洞越大的人越容易与他人建立联系

结构洞理论由博特(Ronald Burt)提出,强调了信息和资源流动中的“间隙”或“空白”所带来的机会。拥有较多结构洞的个体处于不同社交群体的交界处,因此有更多机会连接不同的群体,获取和传递信息。

H6b: 接近中心性越大的人越容易与他人建立联系

接近中心性度量了一个节点与网络中其他节点的接近程度。高接近中心性的节点因为在网络中的位置优势,能够快速和有效地与多数其他节点交流,从而容易与他人建立联系。

检验假设

image-jbbc.png

模型1: 简单随机图模型

模型1作为基础模型,不考虑任何成员属性或社会力量,仅假设成员间的联系是随机发生的。此模型的主要参数是边的生成概率,其AIC和BIC值较高,表明模型的解释能力有限。

模型2: 增加节点属性的选择模型

模型2在简单随机图模型的基础上引入节点属性(如身份和地理位置),以模拟社会选择模型的机制。这一模型的AIC和BIC值相比模型1有所降低,说明模型的解释能力得到了增强。从模型结果看,商贩、官僚的出身和省份因素显著影响网络关系的形成,反映出社会属性在人际关系网络中的重要作用。

模型3: 增加网络中心性的选择模型

模型3进一步在模型2的基础上加入了网络中心性变量,这包括度中心性、介数中心性、结构洞和接近中心性。引入这些变量后,模型的AIC和BIC值进一步降低,表明模型的解释能力和精确度进一步提高。特别是度中心性和接近中心性的显著性表明,这些中心性指标在网络形成中起着关键作用。

假设检验结果
  • H1b: 身份相似性对建立联系有显著影响,尤其是贫民和官僚之间的联系概率显著增加,这符合“同类相吸”的社会心理学理论。
    image-haoy.png
  • H2b: 地理接近性显著地促进了联系的建立,这反映了地理位置在社会交往中的重要性。
  • H3b: 度中心性对建立联系的影响显著,验证了中心性高的节点更容易与他人建立连接的假设。
  • H4bH5b: 介数中心性和结构洞的影响不显著,这可能表明在水浒传的文化和社会背景下,这些因素不是关系形成的主要动因。
  • H6b: 接近中心性的影响极为显著,几乎可以断言接近中心性是水浒人物网络中最重要的结构特征之一。

screenshot_210356.png