文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

传统哲学问题的机器建模

时间:2023/11/9 作者: 江淮论坛 热度: 14758
王小红 科林·艾伦 高元昊 杨冰洁

  

  

  

  摘要:国内外海量人文经典文献数字化工程虽已实施和完成,传统人文研究方法(依靠学者个人细读文本)却历经千年未变。近年来,包括西安交通大学哲学实验室在内,国际、国内学者探究运用主题建模(topic modeling,缩写为TM)技术融入传统哲学研究有三个具体分支领域:一,基于LDA-TM特有的语境聚类特征,实验室模型第一次计算展示了中国古代哲学核心词的一词多义性,并基于全新汉典语料库呈现了张载宇宙论的独特性;二,科史哲(HPS)领域对达尔文的阅读内容做主题建模,用惊异度描画并测量其阅读模式,研究结果有助于探究溯因启发式策略在科学发现中的发生机制;三,TM的语义测量、词相关性语境之网融入文化研究,对语言哲学中意义的意义难题的揭示。可以说,计算哲学方法在拓展哲学解释空间、带来新发现和新证据的同时,也凸显了其异于传统方法的复杂性及深度学科交融性。

  关键词:主题模型;远距离阅读;中国哲学;科史哲;文化

  中图分类号:B2? ? 文献标志码:A? ? 文章编号:1001-862X(2020)04-0082-009

  一直以来,人文学者研读文献是直接阅读单个文本,而主题建模(Topic Modeling,缩写为TM)引入新的“远距离阅读”方式,从而具有超书架功能。将一个大型文件集的语料库作为计算机的输入数据,只需运行TM算法,就可以自动产生在人文专家看来颇有解释意义的主题。一个主题可以看作许多词语的聚类,无论什么时候要讨论这个主题,这些词语就会共同出现。从概率上说,这些聚类词的共现频率更高于不讨论该主题时这些词的共现频率。TM属于语义统计模型中的一种,是对语义进行概率统计建模的方法。最简单、应用最广的概率建模技术是LDA(Latent Dirichlet Allocation,隐形狄利克雷分布),由David Blei团队于2003年提出。[1]

  近些年来,人文学者大胆尝试借助主题建模技术辅助文献研读,已经涵盖包括新闻传播、文学、史学、文化学、诗歌和哲学等各个领域,取得的研究成果展现了分外有趣的人文意蕴。在此基础上,本文着重剖析机器学习对传统哲学问题的主题建模。

  一、通过语义抓取实现对大型古典哲学语料库的结构化

  依靠人工辨识和分类,要使一个庞大的文件库呈现清晰的结构,往往需要耗费大量人力和时间。传统人工只能依据文章和著作的名称、著者名、关键词这些外部信息作外围框架的分类和查询,要想深入文档内容来分类海量文档库,靠人力是不可能做到的。然而,TM实现了根据文档内容对庞大文件库进行结构化。这种分类管理的核心是主题,可以呈现每个文件依据主题(20、40直到100个)分布的结构表、结构图,就是说,将文集具有的可解释性的隐含结构呈现出来。通过超书架和远距离阅读,研究者可以直接看到文件的内容结构,从而根据研究主题去获取相关信息,并直接看到文档库中其他文件与此文件主题的关联度,不仅可以便捷和高效地找到所需,而且还将获得用传统人工方法无法得到的洞见。

  (一)“气”概念多重语义蕴含的计算呈现

  2015年以来,我们和匹兹堡大学计算哲学家Colin Allen团队合作建立了一个包含近18000个文本的中国古代哲学语料库,通过主题建模分析,呈现了对于中国哲学研究和学习颇有解释意义的主题,提供了通过主题建模对中国古代哲学典籍计算分析的平台,这是国际学术界第一个比较成功的尝试。[2][3]基于国内汉典库[4],结合日本京都大学的KANRIPO[5]和美国哈佛大学ctext的中国古籍文本库[6],我们建立了更全的新汉典主题建模平台,包含2万多个文本,总字数近4.3亿。[7]

  如上表所示,TM算法具有语境聚类特征,能够梳理出一个词在使用中的多重语境。这在解释中文一词多义方面非常有意义,尤其是中国古代哲学中的核心词如气、道、礼等的语义蕴含。表1显示与“气”相关的Top 10主题(K=100),可以看到,不仅每个主题的意义易识别、可解释,且各主题的意义明显不同。表1中,TM算法自动分出了“气”一词的多种含义和使用情境,这些不同的主题聚类分别表示医学(T78)、理学(T13)、阴阳(T26)、风水-命理(T86)、时节-天气(T48)、道家与道教思想(T52)、天文-历法(T20)、医药(T6),兵家-占卜(T57),以及理学-工夫论(T29)等不同语境下的“气”之意涵(1),契合了中国哲学研究者关于“气”之丰富语境的如下讨论:

  中国身体观的一大特色,乃是除了五脏六腑的系统外,另有一种气——经脉的系统,而气尤可视为根本的原理。将气与身体结合并论(以下简称气-身体),不但见之于传统医学,也是以往的许多“经验科学”,如占卜、星相、武术等,得以运作的理论基础。不但如此,它还提供了中国以往主流思潮无比重要的动力,我们甚至于可以说:没有气-身体的理论预设,儒道两家的许多重要命题即不可能成立,至少也需要重新改写。气-身体观与儒道两家亲密的关系,主要见之于玄学、理学与道教里的内丹传统。[8]导论第3页

  作为中国哲学的核心词,“气”这一概念在中国古典文献中频繁出现、在理论和实践中又广泛运用,对这一概念的理解却是“见仁见智、意义极易产生歧解的”[9]。通过TM等AI和大数据方法的辅助,对于那些歧解和爭议,中国哲学研究者或许可以给出新的洞见。

  上图基于我们建立的一个以中国古代气论思想为主的语料库,从先秦至明末清初,基本涵盖最重要气论思想家的论著。结合可视化图形分析手段Sankey图,TM算法可以更直观地展示“气”相关主题的流变(K=100,图中显示与“气”最相关的Top 10主题)。[10]图1中,权重相对较高的三个主题分别是T44(医学)、T87(理学)和T10(朱子文字风格)。从图中可以看到,先秦诸家思想存在的差异能够被算法抓取,并反映在模型中,如图中T78(中医-理论)、T99(道家)、T1(中医-处方)和T97(天文-历法)等不同主题分别关联先秦不同学派、不同典籍。同时,相对于先秦诸家思想之差异,不同发展阶段的理学所具有的高度统一性也直观显示在模型中,即不同理学流派都与T87这一理学特征主题相关联。

  人文学某种程度上需要保留歧义性、多义性和融会贯通性。对此,有学者讨论了LDA算法用于辅助哲学论证的优势和缺陷[11],也有学者从解释学角度强调计算模型的解释问题[12],几位该领域领军学者正致力于同时运行多种模型来增进人文知识所特有的“多元解释性”。[12][13]这方面亟待探索的问题空间十分广阔,需要大量工作探究人工智能机器学习接近人文思想的丰富性。

  (二)计算建模凸显张载宇宙论思想的独特性

  对张载全文本做主题建模分析[14][15][16],如表2和表3所示,新汉典主题模型显示,张载处于宇宙论思想的转折点。在张载之前的宇宙论思想相关著述中,道家思想文本占主导地位;而张载之后的宇宙论思想相关文本却呈现明显的变化,即儒家思想文本占据了主导地位。如何解释这一现象呢?通过直接细读大量中国古代典籍,包括对张载全文本的阅读,我们了解到中国古代儒家思想大致呈现的变化特征:先秦至两汉之前,儒家思想主要关注人的性命之理,由于汉代开始关注宇宙天道,儒家思想似乎出现了一个转型,但是汉代以后人伦和天道究竟何为儒家关注点一直存在争议;宋明理学的开创者之一张载,他的儒家思想研究将性命之理与天道相融合,建构了独特的宇宙论思想。正如有学者所总结的:从某种意义上说,张载建立天道本体,目的就是通向性命之学,他所谓的“知天”,目的是为了“知人”。那种作为西方哲学宇宙论意义上的单纯的天道,在中国思想传统中担当不起“天道”这两个字。[17][18]

  西方宇宙论依托主客二元之分,而中国的天道思想则是天人合一的。所以,张载的理路是天道本体和人的性命之理相贯通的儒家伦理思想。我们运用TM手段为此提供了计算哲学的新事实。

  但是,张载宇宙论不仅仅有儒家精神,也一定程度上吸收了道家、佛学的理论观点。在接下来的工作中,我们将尝试从多层面数据给出进一步的证据,探讨张载思想受道家和佛学怎样的影响,以及关于张载思想的一些歧义。有学者提出,为什么这个转折点是张载而不是周敦颐?作为与张载同时期的另一位理学开创者,周敦颐的宇宙论也应当处于这个转折点上,但他的著作文本量只有几千字,并不适合建模方法。由此可见,欲达到更为全面的分析,TM的远读需要与文本细读相结合。

  张载开创关学,他的思想在中国哲学中具有重要地位,一直是学界关注的热点。牟宗三、冯友兰、张岱年、陈俊民、林乐昌等代表性的海内外及当代学者对其思想的丰富性和独特性进行了系统而全面的揭示,可谓成果丰硕。但学界公认张载哲学难度大,产生的歧义也很多[19],这些有争议的问题需要继续反思和研讨。如,张载哲学是一种唯物论吗,是一元论、二元论还是其他,是“气”本体论还是“太虚”本体论,对其宇宙论作本体论(本源论)和生成论(发生论或构成论)二分的证据充分吗?还有“太虚”和“气”的关系、“太虚”的含义,等等。[20][21][22][23][24]针对张载思想研究中存在的不同解释,学者不妨大胆结合机器学习新方法给出新证据,这无疑是对传统研究的有益补充。

  二、为科史哲(科学史与科学哲学,HPS)研究科学发现提供新的解读和证据

  Colin Allen的IU团队首次使用TM对达尔文的阅读日记进行定量研究[25][26],不仅重新发现了达尔文研究生涯中的关键特征,还就三个围绕达尔文研究生涯的问题提供了新的证据和回答,为科史哲(HPS)传统一直关注的“发现的逻辑”(2)提供了新素材。

  (一)HPS中的“发现”难题与计算的结合

  汉森是HPS事业的奠基者,库恩是HPS事业最有影响力的建构者,两位科学哲学家的科学发现观早已成为科学发现计算模拟的丰富“养料”,直接影响了西蒙开创的机器发现(Machine Discovery,简称MD)工作。[27][28]

  汉森复兴了皮尔斯的发现逻辑,即溯因式的推理。他深入论证了溯因推理方法在物理学发现中的作用:人们溯因式地考察现象P,把它“扔”进一个可理解的模式里,通过提出假说H使现象P得到解释。但“是P控制着H,不是相反。推断是从数据到假说和理论,而不是相反”[29]88。汉森反复强调,在溯因式推理中,数据、事实或现象对提出新假说具有基础性作用和指引作用,这正是所有自然科学发现的共性。

  达尔文发现进化论假说也是一个溯因式推理的过程:收集大量事实,观察到大量现象,进化论假说将这些零散的事实和现象纳入一个统一的模式中,给予解释。与演绎和归纳推理不同,溯因式推理之于发现的最奇妙之处在于,结论与前提之间既不是归纳式因果关系,也不是演绎式蕴含关系,而是一种“看似合理”的关系,这种看似合理性只具有逻辑上的可能性而没有必然性,在现实中也未有任何证据。

  那么,究竟如何提出那个看似合理的假说,将已有现象前所未有地关联起来呢?对此,汉森终究未能有清晰的表述。当代“发现之友”哲学家对此进行了一些新的探索,将认知科学哲学与传统发现哲学相结合,如Paul Thagard、 Nancy Nersessian等人分别研究了类比心智模型、类比推理模型在发现中的作用机制[30],但是发现逻辑的“硬核”依然缺乏清晰的说明。

  库恩反复強调常规科学的重要性,即遵循范式推进科学理论的成熟和完善。可是科学史进程中一再出现的超越范式、基于范式而始料未及的现象,又如何用范式去解释呢?库恩提出了历史主义的发现观:新事物最初的突现,只是对那些能够识别是什么地方不对劲儿的人而言的,因为只有他们才精确地了解预期应该出现的是什么。于是,依然只是在已有范式背景下,反常才会显现。[31]60在库恩看来,任何革命性的新范式都产生自早先的常规科学时期,正是常规科学的范式导致了反常。然而,新范式究竟如何产生?库恩诉诸宗教信仰的皈依或心理学所谓的格式塔转换,不仅使库恩远离“发现之友”,也使“发现的逻辑”无解。

  面对上述发现哲学的难题和困境,我们不妨通过对阅读内容主题建模这一新手段,以达尔文的创造性假说的涌现机制为例,探究他是如何积聚又深又广的解题思路空间的。

  (二)达尔文的阅读模式:由深度阅读到探索阅读

  任何科学发现都是多种活动或者子任务的复合,成功的发现者不仅具有超乎常人的坚持,还使用了与真实任务具有适应性拟合的启发式决策(3)引导其完成各项子任务。阅读文献资料无疑是发现的重要子任务,成功的研究者如何在阅读的广度和深度间权衡和转换,他们阅读模式背后的启发式抉择是怎样的?如图2所示,对达尔文1837—1860年间阅读笔记中记录的阅读文本建立主题模型,以信息理论中的惊异度为度量,从局域和全局两个方面分析达尔文阅读习惯与阅读历程的转变,可以发现:在阅读习惯方面,对新领域的探索阅读与对已熟知领域的深度阅读两种习惯的相互交替贯穿了达尔文的整个研究生涯,整体上来看,达尔文的阅读习惯是向着探索阅读演变的;通过使用无监督贝叶斯模型对惊异度进行分析,得到了达尔文传记生涯的三个主要分期:小猎犬号上的航海日记时期,对藤壶的研究时期,以及研究进化论的时期。分析结果与科学史家进行的传记分期相一致,这表明了TM方法用于科学史料分析的适当性。

  在此基础上,以局域或全局方法观察何者与实际分期更匹配,推断达尔文的阅读习惯是倾向于探索阅读还是深度阅读。此外,分别计算达尔文阅读文本的顺序和文本实际出版的顺序,考察各自的惊异度变化趋势,发现达尔文阅读顺序下的惊异度远高于那些书目在出版顺序下的惊异度,这一结果为达尔文选择如此的阅读顺序提供了实验证明。这个结果对发现逻輯的工作颇有启发,或许表明,高出书籍出版惊异度的探索式阅读,为达尔文积聚了巨大的原创性发现动力。但究竟这种阅读模式只为达尔文个人所独有,还是在原创性发现者中具有一定程度的共性,尚需进一步研究。另外,类比信息科学中的惊异度测量,可以说,科学研究中消除反常的过程就是惊异度降低的过程。达尔文有时是惊异度降低的阅读,有时又是惊异度增加的阅读,之间的转换机制是什么?而且,赖尔的《地质学原理》(1837)、马尔萨斯的《人口论》(1803)、钱伯斯的《创造物博物学的遗迹》(1844)又是如何在达尔文那里发生理论的认知转换的呢?

  这种基于TM的量化方法对个体与群体间行为习惯以及个体长期和短期下的阅读选择进行探讨,扩大了TM在认知搜索领域的应用范围。从文化视角看,科学创新往往被视为一种广阔视域上的知识积累趋势。这里的发现表明,个体可以产生先于时代文化的创新,之后再被接纳为文化整体的一部分,这为“发现的哲学”HPS理论带来新的个体视角。

  当前,探讨发现逻辑的工作大多关注两个主要途径:一是溯因推理,二是启发式规则辅助下的解题算法。[30]我们早先对MD的考察揭示了西蒙开创的机器发现恰恰在AI实践领域奠定了这两个途径的基础:一方面,他通过AI模拟科学发现,填补了汉森的溯因推理给不可表征的神秘留下的空位;另一方面,他结合大量科学史中的发现案例和认知心理学实验,设计MD程序的具体启发式规则,为启发式决策在科学发现中的角色给出了更清晰的阐发。[27][28]运用TM对达尔文阅读模式实现的定量描画,有助于我们探究溯因启发式策略在科学发现中的发生机制。

  (三)为达尔文的HPS研究提供新证据

  进一步的研究,则回应了著名的“达尔文延迟”问题。通过对TM生成的不同主题做集群分析,发现在完成《物种起源》期间,达尔文的阅读习惯表现出前所未有的探索性特点,这一结论为达尔文的延迟是在为自己的著作收集证据以及发展论证这一解释提供了证据。而达尔文突然在1859年火速出版《物种起源》一书的原因,普遍认为是由于达尔文1858年收到华莱士 On the Tendency of Varieties to Depart Infinitely from the Original Type一书的手稿,得知华莱士也几乎同时发现了自然选择假说。达尔文在一次与赖尔的书信中提及此事,称华莱士的观点与自己1842年文章中的观点颇为相似。通过使用TM方法发现,比之《物种起源》一书的观点,华莱士1858年寄给达尔文的文章的观点,反而与达尔文在1842年和1844年两篇文章中的观点更为相似,并且与达尔文1844年文章的观点最为相似。这一发现为解释两人理论之间相似性的问题提供了新的也更精准的视角。

  此外,对于达尔文Outline and Draft文稿完成日期的争议,通过使用TM方法给出了新的证据。该文稿是由Peter Vorzimmer于1975年在剑桥大学图书馆发现的,他推定该文稿的完成日期为1839年。后来的学者通过文稿上的注释以及文稿标题在达尔文1844年文章中出现这一事实,将这一文稿的完成日期重新推定为1842—1844年之间。使用TM比较该文稿、1842年文章、1844年文章与最终的《物种起源》,发现该文稿与《物种起源》一书之间差异最大,而1844年文章与《物种起源》最为类似。这就为Outline and Draft文稿完成于1839年这一观点的合理性提供了新支持。

  从上世纪70年代至21世纪初,以西蒙为代表的一批AI科学家、认知科学家致力于机器发现,将科学发现这项复合事业分解为一个个子任务,各个击破,取得了一批颇有成效的成果,如:探测数据规律子任务的BACON1-6、FAHRENHEIT、IDS,发现定性定律和概念的GLAUBER、STAHL、DALTON、AM,完成表征或解释子任务的GELL-MANN、BR3-4、PAULI、MECHEM、ECHO,设计实验子任务并进行理论修改的KEKADA、COAST,探测错误并执行修复任务的STAHLp、AbE、TRANSGENE,执行类比任务的Drama、 ACME、Copycat、SME、LISA。[32]虽然MECHEM和PAULI等程序分别提出了新的化学反应机理和量子力学解释,但这些新发现在增长人类知识方面的意义微乎其微,未引起学界重视。

  近20年,MD和ASD(Autonomous Scientific Discovery自动科学发现)取得了一些新进展。2009年4月,Science同时刊发了3篇自动化科学发现方面的文章:Bruce Buchanan是第一个专家系统DENDRAL(1965年)的主要开发者,他撰写的综述从西蒙MD传统出发,描述当前ASD的进展及其长远任务[33];两篇最新研究中,一个在辨识何为重要的数据关系式方面提出了新颖的算法,通过此算法,没有任何理论知识背景该系统就发现了真正重要的能够表达自然定律的数学关系式,且比20世纪70—80年代BACON的发现在复杂度上有了很大进展,能够发现 Hamiltonians、 Lagrangians表达式[34];另一个ASD系统能够自动对系统推导出的假说表达式进行评估,并自动决定下一步的实验,完成一个完整的科学实验任务。[35]

  最近两年,关注AI模拟科学发现的两个最新进展皆使用了神经网络机器学习模型:一个是Renato Renner小组,他们思考物理学家在建构解释模型时所使用的传统方法是否能自然而然地出自实验数据,而不依赖任何预先的数学和物理知识,他们的ASD系统重新发现了经典力学和量子力学中的一些重要概念,发表在新近的《物理评论快报》(Physical Review Letters)上[36];另一项工作则重新发现了量子波函数概念和薛定谔方程。[37]总体来说,上述MD以及ASD还没有做出真正引起学界重视的新发现。不过,艾伦小组关于达尔文的HPS计算建模所得到的一些新证据和新解释,除了发表在认知领域顶级学术期刊上,也引起了公共媒体的关注,美国国家公共电台(NPR)进行了专门评述和报道。

  本文讨论主题模型在三大类哲学和人文知识领域的应用,不论是中国古代哲学、科史哲,还是下面讨论的文化哲学,TM在人文领域的知识发现都是颇有潜力的。

  三、与文化哲学有高度的亲和性

  (一)对孔、孟、荀哲学的建模

  加拿大汉学家Edward Slingerland(森舸澜)和美国哲学家Ryan Nichols合作(下文简称SN团队),近几年一直致力于结合机器学习研究中国古代文化。2018年,他们用TM远距离阅读方法对《论语》《孟子》和《荀子》的内容进行比较[38],分别揭示了三部哲学论著中共同和不同的主题。他们的结果确证了许多学者一直以来采用传统的直接细读所得到的结论,即荀子的论著与《论语》在语义内容上有共性。进而,他们尝试用TM方法探究颇有争议的传统哲学问题,如,在孔、孟、荀三位思想家中,孟子比荀子更接近孔子的思想吗?这与道德哲学的一个核心问题密切相关,即,人性中的善这种道德规范是先天的和内在的,还是后天的和外在的?

  《论语》的TM结果显示了一个区别于《孟子》《荀子》的特点,即,《论语》的高权重主题在内容上与“三礼”的部分内容相关,经过专家细读,确认是《论语》第十篇与“三礼”的内容十分相似。这个计算结果是有意义的,因为TM作为无监督方法,没有预先给定它任何中国哲学知识,它的计算结果与学界共识相一致证明TM用来分析中国哲学的适当性。基于这个计算结果,SN进一步探究,孔子对于神灵的态度究竟是理性的还是非理性的?对此问题有两种意见,以冯友兰为代表的一方认为孔子是理性的,孔子很可能并不相信他的同时代人的迷信,而以Thomas Wilson为代表的一方认为孔子对神灵有虔诚的信仰。双方都是采用传统细读原著的方法,也各有文本证据,谁也驳不倒谁。采用TM计算分析,就为这样的争议给出了第三方证据。

  SN认为,TM计算结果提供了支持孟子持内在美德论的证据,即,人性中内在地和先天地具有向善的潜能。同时,计算结果支持了荀子比孔、孟更注重通过外在的制度手段实现社会控制的观点。但SN认为,不能因此就认为孔、孟思想的近似度高于孔、荀思想的近似度,因为有可能是因为荀子有为官的经历,故而更有兴趣讨论管理机构的细节如法律、惩治、官职等等。

  根据《论语》和《荀子》共同高频主题“礼”在《孟子》中出现频率很低,可以支持《荀子》和《论语》之间更大的近似性,即都认同通过学习、外在文化礼仪来成就规范价值,即外在美德论的共识。

  为了使上述哲学问题的计算建模具有可重复性和可检验性,王小红和艾伦计算哲学组基于全新漢典TM平台,试图重复SN组关于孔、孟、荀比较的研究结论,目前看来数据的差异性明显高于一致性(4),进一步的分析和解释,还需更多工作。

  (二)对中国哲学身-心关系的建模

  2017年,SN采用TM结合其他算法技术,分析引起西方诸多权威汉学家很大争议的问题:中国传统思想是不是以强身心整体论为特征的?[39]他们建立了一个包括前战国时期至宋代的古籍文本语料库。计算结果显示,荀子以及其他中国早期思想家,在提到“心”时往往会提到“心”与身体的关系,这表明,比之身体的其他器官,“心”在早期中国思想中有着不同的认知地位。基于机器学习的三种计算分析结果,他们提出中国古代早期思想至少是一种弱二元论。

  得益于我们可以非常便利地阅读更多中国哲学最新研究文献,在深入分析SN的方法之后,我们发现,他们用于计算分析的中国哲学基础概念可能有问题,具体说就是用于表示“心-身”概念关系对中的“身”所对应的古汉语词。森舸澜将“身”的表达对应于三个词:身、形、体。基于他深厚的汉学修养,这种意义表达的拆分颇有道理,但是将形、体的意义归于单一的生理性的形和体,与中国哲学思想中的意义指涉并不完全符合。仔细阅读中国哲学研究权威文献可以看到,形、体同其他中国哲学核心词如道、理、礼等一样,有着丰富的和变化的含义,形、体不仅表示生理的形和体,还有超出生理的,甚至超验的意涵。[40]

  (三)TM与文化研究中的意义理论

  另一项有趣的汉学研究工作是哈佛大学Ian M. Miller对中国清代社会变乱实况的考察。[41]不同历史时期反映社会实况的词,如banditry、unrest、rebellion等,难以有固定的定义,史学家研究史料时不得不有先验的分类定义。Miller通过使用TM方法,对这一时期的奏折内容实录文本材料进行主题建模,通过尝试TM特有的语境解释性算法,辅助史学文本分析,避免了范畴模糊的词语对理解文意的干扰,比之传统方法增强了客观性,在此基础上探究了清代出现的几起大型变乱现象的规律性。

  还有一项是研究TM技术与文化研究的高度亲和,实际运演了文化哲学和语言哲学的意涵。文化社会学研究者Paul Di Maggio 和Blei于2013年合作,[42]选取有代表性的报纸所刊登的公共艺术资助方面的新闻报道,用TM分析其中的演变趋势。他们建立了一个近8000个文本、超过300万词语的语料库,用TM分析识别出最重要的话题,正是这些话题框定了政府资助方面的讨论。

  这是一个文化学研究案例,该研究揭示了TM进路对文化学研究的优势,因为TM模型使得文化哲学、语言哲学中的重要概念如框架、一词多义性、杂语性、意义的关系等具有了可操作性,具体表现在:第一,TM产生的具有可解释性的主题内容,展现了文化意义上的解释框架。第二,TM基于一个词出现的语境,具有抓取一词多义性和一个词模棱两可的不同用法的能力。TM强调关系性,抓住了许多语言学学者的共识,即,意义是在关系中显现的,而非居留于一个个词中。索绪尔认为[43],意义并非内在于符号中,符号的意义得自和它一同出现并相互作用的其他符号。结构主义语言学的中心论点是:语言是一个系统,在这个系统中,各个成分的功能和意义完全由它们在系统中的相互关系来定义。这种关系式语义特性恰恰体现在主题模型LDA的算法中,按照LDA设计者Blei的话来说,就是体现在LDA的“基因”里。第三,文化学的核心洞见之一即文本的杂语性。文本往往并不只是反映某种单一的观点,而时常呈现杂语性特征,在一个文本中常见多个“声音”(观点或者表达类型)共存甚至不分强弱。Blei写道:“LDA背后的基本直觉就是,文件都呈现多个主题。”[44]78这样,LDA生成的结果,即每一篇文章中的多个主题结构,就有助于从实证层面检视杂语性。

  语言哲学探究“意义”的普遍、客观性本质,从明示定义(包括直接明示、间接明示、直接内在明示)到行为主义的操作定义,再到语义网络定义,各种意义理论都在试图接近“意义”的普遍性和客观性。维特根斯坦的一个核心思想是,不要问意义,“要问使用”[45]80。维氏论证“意义”的初衷与行为主义传统一致,皆反对标准语义理论中的感受质、私人语言、意义唯我论。但维氏的结论不同,他认为,理解一个词,只需要这个词带来的心理感觉与别的现象之间的联系,而别的现象并不需要是公共可观察的,也可以是别的心理状态。维氏论证的结论就是:一个词的意义就在于它与别的词所发生的系统性关联,没有这些关联,则没有该词的意义。可见,“意义”就是某件事物,它存在于词与词所构成的情境之网,在这个网中,词与词彼此通过那些包含这些词的一般陈述相互关联。

  无独有偶,丘奇兰德也以自然科学理论中名词术语为例,清晰地阐释了语词意义的网络理论,即,一个个理论词项的意义就隐含于它们所嵌入其中的原理之网。[46]53TM的计算结果呈现了词的使用情境之网,其背后的算法没有包含人类阅读者会有的个体体验、知识积累、文化背景,甚至情感情绪。TM生成的可重复、可检验的“意义”之网,有助于使意义理论走出唯我论的泥潭,为构建更加一般性的意义理论带来希望。普特南说:“意义就不在头脑里。”[47]464而我们可以这样说:意义就在语词使用情境的收敛特征里!

  注释:

  (1)TM对“气”之多重语义进行了集簇聚类,我们结合细读中国哲学相关文献仔细检视了TM计算结果的有效性和适当性。

  (2)按照“发现之友”哲学家的共识,发现的逻辑是指关于产生知识的一套程式化的推理过程。

  (3)认知心理学对启发式决策的研究从未停止。早期西蒙传统主要从人的内在认知活动如记忆、注意的研究出发来设计计算表征的启发式规则,关注假想世界中的人工难题;当前以Gerd Gigerenzer和Peter Todd为代表的生态理性进路,则强调推理和决策成功的外部考量,探索启发式规则与真实环境的适应性拟合在计算机科学中的具体技术含義,也不再寻求对所有环境都普遍适用的策略,而探究在不同真实环境中具有良好适应性、往往是“多快好省”式的简单多样启发式策略。

  (4)SN文章使用的语料库下载自ctext。2019年6月ctext创建者哈佛学者Donald Sturgeon应实验室邀请来访与我们一起工作,他给予我们完整的ctext语料库。经过比较,我们计算得出的孔孟荀语料库权重最高十大主题与SN结果差异明显。具体原因并不清楚,因为SN文章没有公布所有主题内容,也没有描述运行TM的参数细节,我们只能估计差异明显的原因可能在于作为测度主题结构相似度的基本单元的选取不同。另外,我们得出的十大主题更为全面地反映了语料库涵盖的内容,而SN的十大主题明显缺乏语料库中的字书、兵家、占卜、医书的内容。当然,只有SN公布所有的主题内容,才可以要么确证要么推翻我们对SN下载语料库缺漏内容的怀疑。相比我们的十大主题,SN十大主题之间的意义相差不大,界限不够清楚。

  参考文献:

  [1]Blei,D.M.,et al. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research 3,2003,(1):993-1022.

  [2]艾伦和王小红计算哲学组.Topic Modeling the Han Dian Ancient Classics[DB/OL]. Journal of Cultural Analytics,2017,(10).https://doi.org/10.22148/16.016.

  [3]王小红,科林·艾伦,浦江淮,等.人文知识发现的计算机实现——对“汉典古籍”主题建模的实证分析[J].自然辩证法通讯,2018,(4):50-58.

  [4]汉典古籍[DB/OL].http://www.zdic.net.

  [5](KANRIPO)Kanseki Repository[DB/OL].http://www.kanripo.org.

  [6]Sturgeon. D. Chinese Text Project[DB/OL].https://ctext.org.

  [7]艾伦和王小红计算哲学组.新汉典主题模型(New_Handian)[DB/OL].2019,http://inpho.xjtu.edu.cn/New_Handian2/200.

  [33]Waltz. D, Buchanan. B. G. Automating Science[J].Science,2009,(3):43-44.

  [34]Schmidt. M, Lipson. H. Distilling Free-Form Natural Laws from Experimental Data[J].Science,2009,(3):81-85.

  [35]King. R. D,et al. The Automation of Science[J].Science,2009,(3):85-89.

  [36]Renner. R研究组. Discovering Physical Concepts with Neural Networks[DB/OL].Physical Review Letters, 2020,(1).doi: 10.1103/PhysRevLett.124.010508.

  [37]Wang. C. etc. Emergent Quantum Mechanics in an Introspective Machine Learning Architecture[J].Science Bulletin,2019,(17):1228-1233.

  [38]Nichols. R, Slingerland. E, et al. Modeling the Contested Relationship between Analects,Mencius and Xunzi[J]. Journal of Asian Studies,2018,(1):19-57.

  [39]Slingerland. E, Nichols. R, et al. The Distant? Reading of Religious Texts: A “Big Data”? Approach to Mind-Body Concepts in Early China[J].Journal of the American Academy of Religion,2017,(4):985-1016.

  [40]貢华南.从“形与体之辩”到“体与理之辩”——中国古典哲学思想范式之嬗变历程[J].中国社会科学,2017,(4):128-148,208.

  [41]Ian Matthew Miller. Rebellion,Crime and Violence in Qing China,1722-1911:A Topic Modeling Approach[J].Poetics,2013,(41):626-649.

  [42]Dimaggio. P, Nag. M, Blei. D. Exploiting Affinities between Topic Modeling and the Sociological Perspective on Culture:Application to Newspaper Coverage of U.S. Government Arts Funding[J].Poetics,2013,(41):570-606.

  [43]Saussure. F. Course in General Linguistics[M].La Salle:Open Court Press,1983.

  [44]Blei. D. M. Probabilistic Topic Models[J].Communications of the ACM,2012,(4): 77-84.

  [45]维特根斯坦.哲学研究[M].陈嘉映,译.上海:上海世纪出版集团、上海人民出版社,2002.

  [46]Churchland. P. M. Matter and Consciousness:A Contemporary Introduction to the Philosophy of Mind[M]. Cambridge:The MIT Press,1994.

  [47]普特南.“意义”的意义[C]//陈波,主编.逻辑与语言.北京:东方出版社,2005.

  (责任编辑 吴 勇)
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论