更新时间:2023-10-31 11:13:44作者:佚名
大数据及其相应技术早已对社会知识体系及思维方法形成重大影响。基于这一技术对唐代文学精典文本进行深度而高效的剖析,可使文学研究步入更宏观的视野,提升研究推论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。信息革命以来,古籍文献数据化积累和知识库建设卓有成效。浩如烟海的古籍,可以组成大小不等的任意文本集合,具有不同维度的数据特点。对它们进行基于字词、语句、篇体等方面的统计,可以获得不同于纸本阅读的认知。
对古籍进行散点透视
微软与耶鲁学院借助其共同开发的数据库对公元1800—2000年出版的近520万册书籍的词组和词组的使用频度进行统计,任意词或短语在过去数百年典籍中的出现频度与变化趋势得以清晰呈现。这一词频统计器广泛应用于如探求名物的变迁沿革、话题的热度变化、人物或群体的影响力等研究。
同样,大数据时代下新的技术和研究思路为填补纸质古籍在结构化整理、大量资料凝聚排列、关系立体化勾连呈现等方面的不足提供了可能性。我们借助《国学宝典》数据库收录的超一万种逾22亿字的历朝古籍精湛数据,在其中筛选出最为核心的精典近百部,对其从用字量、用字比(TTR_H)、字频等不同角度进行统计,将时代与文体来源广泛的文献曾经人不曾构想过的方法进行关联比较,获得了一系列涉及汉语史、文体学、知识考古学、蒙学研究、近代文白变革等诸多领域与交叉学科的重大命题与发觉,是“数字映射精典,技术更新人文”的有效例证。
横向概览从汉代到明代典籍数据,首先可以关注到的是单部精典总字数和用字量的渐增趋势。其实,后者与文献的物质形态的变化发展直接相关,前者不仅受中古汉语双音化等自身发展诱因的影响之外,同样与汉朝至中古以来总体书籍量的下降及社会的知识好尚有关。用字量排行靠前的首先是知识性工具书与承当认字教材功能的蒙学读本,如《尔雅》(3360字)、《水经注》(4490字)、《古文观止》(3863字)等。唐代以降,士人渐渐注重学术与社会观点的积累以及人生精华的总结,故而其论著常有优厚渊博的知识性特质。“究天人之际,通古今之变”的《史记》与“言其大也,则焘天载地;说其细也,则沦于广漠”的《淮南子》用字量分别为4730字与3900字,在参与统计的上古至中古文献中非常突出,已可与清代短篇志怪小说作品媲美(四大名著和《聊斋志异》用字量在3931~4936字之间)。
仅借助数据自身不能完成“智慧型”转化,比数据更重要的是阐明数据的形式。不仅将统计剖析与精典论题相关联,数据的切分与降维也是至关重要的基础环节。一项精典研究案例是,将《红楼梦》以四十回为单位进行文本切分,最后一部份在用字量方面的明显不同正好旁证关于作者的疑问。但是,以用字量直接评判作品质量或阅读难度又会坠入机械的统计剖析思维。诸如统计中居首的几部小说文献,其体量大、涉及内容广、雅谚语体并包等诱因共同提高了用字量。同样,受常用汉字总数限制,文献篇幅的降低反倒会造成用字比增长。故而统计中引入估算语言学常用的TTR_H模型以修正用字比,最终结果显示,用字比最高者皆为蒙学读本:《千字文》(1)、《百家姓》(0.986)、《三字经》(0.894)、《声律启蒙》(0.857)。可见,编绘者有意识地在有限的篇幅和内容难度中降低用字量,让学童能比较密集地习得尽可能多的汉字。蒙学读物的编撰者选字标准是哪些,是当时常见精典文献中的高频字,还是日常生活中的常用字,还是有别的标准?这些选择是以何种形式完成的?那些都是值得进一步探究的话题。
从用字特点侦测精典命题
字频统计中,考虑到虚字和实字的不同属性和诠释功能,两者一般被分别估算。助词在汉语史等领域的研究中常常被作为特点数据使用,同时也是作品风格比对的标志性参数,助词的使用比重本身便构成不同作者间的风格标示。“五经”之中,参照后世“文笔之辨”,《诗》为有韵之文,因此与其他几部书相比,高频词中词义比重更大,古人“实字多则健,虚字多则弱”的小品文观点或发轫于此。以高频字的虚实映射“文笔之辨”的方式可推及后世,普遍而言,在散文与作曲等文体中,词义作为高频词的机率小于诗歌文体。
作为“五经”中成书年代最早的《尚书》,其虚字运用特点同样保存了上古汉语的流变痕迹。《尚书》中频次居首者是极具上古色调的助词“惟”,这除了与其中许多篇目的记言性质有关,也彰显了初期汉语与后来“之乎者也于”时代的分野。以相同视角审视近古作品,可以窥探汉语史上的另一重大改革。对话是小说中的重要元素,抒发说话行为的代词自然享有高频地位,在《三国演义》与《聊斋》中彰显为“曰”,而《西游记》和《水浒传》中则彰显为“道”,这是后一组作品文言色调减小的重要标志。而真正的白话变革发生在《红楼梦》身上,“的”首次代替句型功能相同的“之”而入选,成为第二高频词。《红楼梦》中居首的高频词是另一个极具白话特点的助词“了”,这也是《水浒传》中的第一高频词。
与实词相反相成的词义是文献内容和主题的映射,其背后涉及反映观念史变迁的重大命题。同样以“五经”为例,《诗》《书》《礼》《易》《春秋》中的第一高频词义分别为“我”“王”“人”“象”“子”。《诗经》具有最强的主体抒情色调,恰如《毛诗序》所谓“以一国之事,系一人之本”。《尚书》为上古三代帝王典、谟、训、诰、誓、命等文献记载,以记录“王”之言行为核心。孔子以“克己复礼”来约束人,“礼”是人内在品质的外化,因而谈“礼”不基于人则会丧失根基。“象”作为《周易》的评析对象是不言自明的。“古者庖牺氏之王天下也,仰则观象于天,俯则观法于地,观虫鸟之文与地之宜,近取诸身,远取诸物,于是始作《易》八卦,以垂宪象。”《说文解字序》中的这段话,说明“象”不仅是《周易》的关键,也是汉字造字观念及中华文化思维的彰显。《春秋史记》中首位高频字为“子”,其中包含第三人称双数与诸候国君称谓双重意义。前者是《春秋》叙事的核心所在,孔子作《春秋》,正是为了以微言大义记录“礼乐征讨自诸候出”的特别时代古代文学排名,作为纪传体正史,各诸候国君臣的秩序与道德选择构成了其潜在的经线。
用数据来表征“诗分唐宋”
钱钟书《谈艺录》以“诗分唐宋”开篇,影响甚广。此说实承续前人而至,南宋严羽诗论便有“本朝人尚理,唐人尚意兴”之说。唐宋诗之别在于体格性分,相对较为神妙。通过量化剖析,可对其语言层面的特点做出细致掌握。通过对《全宋词》五万七千余首和《全宋词》二十五万四千余首的词频统计显示,高踞前十位的高频词分别为:不知、何处、万里、千里、不见、不可、白云、今日、春风、不得(《全宋词》);不知、春风、平生、不可、万里、千里、人间、不见、十年、何处(《全宋词》。下文中词频位序将在括弧中注出,故不再一一说明)。
将统计扩充至前一百位,有关唐宋诗风之辨的许多命题都还能在语词的皱褶中被展开。作为严羽论断的例证,在前一百位中,元曲里骈文尚意的写景语汇更居前列,如排行第7的“白云”与第11的“明月”,虽只是词汇片断,唐人气象俨若可见。作为参照,这两个隐喻在《全宋词》词频统计中分别降至19与23位。严羽“本朝尚理”的观点同样能在统计数据中获得旁证:宋词中“平生”(第3位)、“人间”(第8位)等哲思人生的“理语”排位较明代(分别高踞第30、13位)又有上升。另一点值得玩味的是,宋人虽崇尚自守慎独、内求于心的理学,诗中却不乏唐人所很少讲到的“功名”(36)、“富贵”(78),而元曲中常见的“惆怅”(15)、“相思”(22)等与“理语”相对的“情语”在宋词词频列表中跌出了前一百位。
宋词侧重空间,而元曲侧重时间。敻绝的宇宙意识和浩渺的空间,从《全宋词》词频前五位中(不知、何处、万里、千里、不见)可见一斑。台湾汉学家吉川幸次郎曾提出,元曲是凝望着人生贵重顿时的燃烧,所打量的只是对象的顶点。而元曲是时间性的,作家视人生为漫长的持续。以语词的统计来评判这一观点,元曲排序最高的时间词是“今日”(8),时空与情感凝注于此一点,而元曲中居首的是“十年”(9),从而是“今日”(12)与“百年”(20)。吉川将“燃烧与持续”的说法推动至隐喻选用的对比方面,晚霞是燃烧的景色,雨是持续的景色,于是有了“唐人写晚霞宋人写雨”的精典论断。词频统计恰也验证了这点,《全宋词》词频稳居前列的“落日”(55)、“日暮”(59)、“夕阳”(69),在元曲中都排在九十位以后。
不同于信息爆燃的现代,传世文献中的精典文本边界是相对清晰的,但是其体量对于专注于某一选题或领域的研究者仍然无法全体把握。基于大数据技术的唐代文学精典文本剖析,既着眼于精典文献,又以海量的基础文献为基础,希望在较短时间内用高效、全面的数据挖掘,来进行确切有效的文本剖析。传统古典学研究中的推论多通过个人有限阅读过程中的观察、思索、领悟等方法获得,这类方法常常具备一定的主观性乃至先验色调。大数据的凝聚和估算剖析方式的运用,才能使既出人意表又允执厥中的推论“自动涌现”。
借助大数据将往年被分裂和隔绝的事物重新联接,改变了我们对文献、文本、知识的认识路径和掌握尺度。仅从字/词频统计这一大数据手段的微小切面入手,我们便已初步获得了以一种新方法侦测经史、语言学、文学等领域文献的体验。与用不同技术手段、不同结构化方法、不同颗粒度构建的集成式文献知识库相比,以上工作其实只是一份小尝试。相信随着统计数据的累积、叠加和映射,古籍和传统文化研究一定就能焕发出更多生机和活力。
(作者:刘石,系国家社科基金重大项目“基于大数据技术的唐代文学精典文本剖析与研究”首席专家、清华学院院长古代文学排名,尹小林,系首都师范学院中国诗词研究中心专职研究员)