AI时代的“整理国故”

AI时代的“整理国故”

历史书太厚,处处都是重复。当下的中国和一百年前也有不少相似之处。

民国初期,身处百年未有之大变局,人们一边推动白话文运动,一边整理国故,一则以俗,一则以雅。胡适、鲁迅、郑振铎都是用白话写作的“新媒体人”,但他们同时在用新的科学方法,整理传统文化;一百年后,面对充满不确定性的时代,互联网上新词与热梗迸发,同时古风热、国学热忱再次兴起,古籍保护和整理成为国家战略,恰似新的一轮雅俗并照。

这轮雅与俗的交错轮回中,在习惯于视觉和影像的互联网原住民的眼里,杂志和书籍重新成为了新媒体,而老旧的古籍成为“新新媒体”——是新世代眼中的新媒介,其中有无数宝藏在等待我们发掘。如今这个变动不居的时代,人们反而要从传统文化中汲取力量。因为只有知来处,才能明去处。

AI时代的“整理国故”

与散佚命运的抗争

——古籍的悠悠往事

AI时代的“整理国故”

如果将目光投向历史的更深处,我们会发现一切都似曾相识,近似的故事总是在时间里周转。

两千年前,孔子也生活在一个“新媒体”的时代,那是一个由口头传统向书写传统转换的时代。孔子既新潮又复古。他是中国历史上开展民间“线下讲座”的先行者。他热爱传统诗歌,告诉弟子们“不学诗,无以言”,他尊重上一时代的礼法,自己也“入太庙,每事问”。

在简牍媒介出现之前,很多文化资料仅靠口耳相传,文化传统很容易出现断裂,而孔子就做了传统文化的守夜人。他收集、编辑口语时代散佚的作品,给后世留下了珍贵的遗产。

AI时代的“整理国故”

描绘孔子周游列国的古籍

自孔子之后,整理国故、保存传统成了历代中国文人的共识。每当战火纷飞的朝代更替,总有文人记得把过去的典籍一存再存。从西汉河间献王、东汉蔡邕一直到明代天一阁阁主范钦、汲古阁主人毛晋等为代表的藏书家,贯穿几千年历史,保存着华夏的文脉。

造纸术的发明和完善,以及雕版印刷术和活字印刷术的相继问世,使得典籍的保存和流传更加容易,但只要典籍以纸质的形式存在,它就一定是脆弱的。朝廷禁毁、战乱破坏、火灾洪水、流传佚失……任何一次天灾人祸,都有可能造成典籍的亡佚、散佚,而在中国古代漫长的换代史中,天灾人祸并不少见。汉、隋、唐、宋的正史,都会有前代和当代的书籍汇编目录《艺文志》。《汉书·艺文志》所载的书籍,以《隋史·艺文志》核对,百分之七十已经散佚消亡,每代都几乎要亡佚大部分的书籍。

《永乐大典》的散佚过程可谓典型。《永乐大典》是明永乐年间编纂的一部集中国古代典籍于大成的类书。这次国家级的操作,动用朝野上下两千余人检点抄写,历经五年才得以完成,全书22877卷,11095册,约3.7亿字,汇集了古今图书七八千种,被誉为“世界有史以来最大的百科全书”。

AI时代的“整理国故”

AI时代的“整理国故”

现存《永乐大典》门字卷书页,图片来源:国家图书馆出版社

《永乐大典》自修成后便命途多舛。起先《永乐大典》藏于南京文渊阁,差点毁于大火,明嘉靖皇帝下令重录一部副本。后来永乐正本下落不明,明清鼎革之际,嘉靖副本也开始佚失。后经官员盗窃、被火烧圆明园的大火部分焚毁,或被八国联军劫掠,嘉靖副本流散至民间乃至海外。到清光绪二十年(1894)已仅剩八百册,而到清宣统元年(1909)时,留存数量尴尬地变为了64册。现如今《永乐大典》存世数量不足原书的4%,令人扼腕叹惜。

AI时代的“整理国故”

新时代的国故整理

破解“藏与用”之惑

AI时代的“整理国故”

随着媒介技术不断迭代,现代信息技术被用于保护古籍文献,有史以来第一次弥补了古籍以纸质形式保存的缺陷,为古籍的长期保护与有效利用提供了便利。如何做好古籍数字化,是时代的课题。

我国是全世界古籍保有量最多的国家之一,据不完全统计,中国汉文存世古籍约20万种,大部分由中国图书馆及部分海外图书馆所保存。中国大陆的古籍数字化工作大约是在20世纪90年代末起步,但发展迅猛。各地图书馆纷纷展开古籍的数字化工作,将古籍翻拍成电子图像,或更进一步,利用OCR(光学字符识别)技术,将古籍内容数字化。

AI时代的“整理国故”

我国是全世界古籍保有量最多的国家之一,存世古籍约20万种

一般而言,古籍数字化可分为载体数字化、内容数字化和知识化服务三个进阶阶段。知识化服务是从数字化的古籍内容中提取人、时、地等专有名词,以及事件、论题等主题词,并建立其间的知识关联,从而形成结构化的知识库,便于学者进行学术研究,以及普通读者的关联性浏览和查询。

古籍数字化的过程中,有很多繁重的重复劳动,会耗费大量人力。这是图书馆和学术机构的痛点。随着人工智能和机器深度学习的发展,古籍的数字化进入了AI时代。在当今国内古籍整理人才稀缺的背景下,人工智能在古籍整理领域的应用为古籍资源的开发与利用提供了新的可能性。

北京大学数字人文研究中心成立不到2年,是国内为数不多的利用人工智能进行古籍数字化的学术机构。一百年前,北大教授胡适发起“整理国故”运动,对中国近三百年来的学术研究作了总结;一百年后,一批北大人致力于在AI时代进行“整理国故”。

该中心主任王军直陈古籍整理的现状:中国汉文存世典籍约20万种,1949年以来经过整理出版的不足4万种。面向知识化服务的古籍数字化开发与利用尚处于起步阶段。王军始终认为,古籍保护的意义不仅在于保护性存储,最终还是要让它广泛传播。

AI时代的“整理国故”

北京大学数字人文研究中心主任王军

北大数字人文研究中心设想的古籍知识库构建过程由如下几个流程组成:识文、句读标点、专名识别、关系提取。识文目前是通过OCR技术,将古籍影像转换为电脑字库里的文本。接着,由于识别后的文本缺少现代汉语的标点符号系统,工作人员会用NLP(自然语言处理)技术自动标点断句,然后将文本中的专有名词(如人名、地名、官名等)提取出来,再在此基础上进行关系提取,形成结构化的知识图谱。这样的知识图谱除了提供给读者进行结构化、关联化的阅读和查询,更重要的是为各类互联网前端应用提供历史文化知识库的支持。

王军介绍,目前识文、句读标点、专名识别这三项AI技术总体取得了比较好的效果。其中句读的准确程度可以和古典文献专业的硕士生相媲美,而专有名词识别功能在中古史料上可以达到98%的准确率,这相当于拥有了大量古籍整理的专家,节省了不少人力。相对而言,关系提取尚在探索阶段,还有很长的路要走。

即便AI技术大大增加了古籍整理的效率,但这项工作背后最重要的还是:人。北京大学数字人文研究中心目前核心成员有十几人,除了几位导师外,团队成员大多是研博生。他们分工明确,有人负责大数据文本分析,有人负责NLP技术的训练,有人负责写系统代码等。

王林旭是团队成员之一,主要负责知识组织和数据处理的工作。以她参与的第一个知识图谱项目《宋元学案》为例,王林旭讲述了人如何与AI技术彼此配合。

AI时代的“整理国故”

《宋元学案》知识图谱截图

《宋元学案》是明末清初黄宗羲创作的一部大型断代学术史专著, 对于了解宋元思想学术具有极大的史料价值。王林旭和团队十几位同学,通过对《宋元学案》文本中人物、地点、时间、著作、思想等内容的提取,将思想家们的师承关系、生平事迹、活动轨迹、具体思想观点等通过可视化的手段,绘制成知识图谱,使得普通读者也可以在短时间内对宋代、元代的学术发展建立起总体性认知。

王林旭说,这是北大数字人文研究中心投入时间最长、参与人数最多、影响也最大的项目,足够称得上是团队代表作。十几位同学中,不断有人毕业离开,不断有新同学加进来,接力完成了这个马拉松项目。

这是数字化时代的“整理国故”的故事,不仅进行了内容的数字化,而且通过知识图谱这样的知识化服务,让躺在故纸堆里的古籍重新“活”了起来。正因为它将古籍以可视、可触、互动的方式呈现给普通人,这个项目也引起了很多关注,也让王林旭收获了很大的成就感。

通过古籍的知识化服务,她的导师王军希望能够滋养年轻人,后来作为理科生的王林旭也逐渐发现了古籍的魅力。团队成员也时常组织古籍读书会,读《论语》和《史记》,也会在短视频平台上看《红楼梦》讲解,被《典籍里的中国》里的先贤故事所感动。

王林旭也进而认识到这份工作的意义。一开始她觉得年轻人对古籍不感兴趣,但慢慢她发现,这是因为年轻人缺少了解古籍的入口。“我们做的事情,有点像给人们提供一个入口,激发人们想要了解古籍的兴趣,这是很有意义的工作。”

AI时代的“整理国故”

让古籍鲜活起来

古籍数字化的黄金时代

AI时代的“整理国故”

王军将近几年称之为古籍数字化的黄金时期。一方面,国家愈发重视古籍保护,随着古籍数字化工程被写入“十四五”规划,国家的经费投入力度会逐渐加强;另一方面,国人对传统文化的热情持续升高,以及企业科技力量的助力,也给古籍数字化进程锦上添花。

今年3月17日,字节跳动向北大教育基金会提供捐赠,利用智能技术与北京大学数字人文研究中心共同研发古籍数字化平台,向全社会提供公益化服务。双方将在三年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。

字节跳动长期关注古籍保护与利用。早在去年6月17日,字节跳动便投入1000万元,联合中国文物保护基金会成立专项基金助力古籍保护。其中包括资助修复《永乐大典》“湖”字册等来自国家图书馆、地方图书馆等机构珍藏的105册(件)珍贵古籍。这些修复的古籍也将部分引入古籍数字化平台。

AI时代的“整理国故”

古籍保护是数字化的前提,图为古籍修复师正在修复古籍

“我们希望通过公益捐赠,支持北大的古籍数字化成果全面转化为社会服务;也希望与北大的跨学科团队在OCR、自然语言处理、知识图谱等技术领域展开合作,充分利用人工智能技术加快古籍数字化整理、研究与利用。”字节跳动 AI Lab总监李航说。

对和字节跳动合作研发的古籍数字化平台,王军抱有很大的期望。不像国内大部分封闭性的古籍数字化平台,这将是一个公益性的开放平台,让有需要的人获取中国核心典籍;而且,通过人工智能的解决方案,该平台有望解决国内古籍数字化平台人工整理成本高、关联阅读功能缺失、用户体验差等痛点。

除了应用于古籍的阅读之外,平台还将致力于提高古籍智能整理的能力,期待通过提供开放、一站式的古籍智能化整理工具,吸引更多收藏家自主上传古籍资源。王军设想,这个平台将“有可能成为全球古籍资源的汇集地”。

AI时代的“整理国故”

“作为一家以内容为主的公司,字节跳动在内容识别、内容检索等方面的技术上拥有天然的优势,可以为研发古籍数字化平台提供帮助。”李航称,OCR技术在今日头条、抖音等平台的图片文字识别、字幕翻译等领域均有广泛应用,这些技术可以逐渐向古籍智能数字化的方向上迁移。此外,在句读、实体识别、内容的理解与关联等功能上,字节跳动也能够实现和北大技术优势互补,进行有效的打通与融合。

字节跳动在互联网产品研发、设计的优势,也能进一步保障古籍数字化平台的服务质量。“我们有优秀的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前今日头条的设计团队和抖音的开发、测试团队已经加入该古籍数字化平台的开发工作。

在可预见的未来,伴随着可用的文本素材量的增长,AI算法的准确度和速度将会提高,古籍整理工作将得以依赖更少的人力进行。

AI时代的“整理国故”

北京大学数字人文研究中心研发的“吾与点”古籍智能处理系统,可以实现古文自动句读、自动标点、专名识别等功能

传统典籍内容如果不被迁移到数字环境下,就会面临着文化遗产传承间断的命运;而今人不再阅读、不再研究、不能汲取古人的思想与智慧,那么古籍同样也如同不存在一般。

王军希望借助字节跳动在内容平台建设方面的优势,在不同年龄段特别是年轻群体中的传播优势,形成新媒体环境下古籍文化传播的网络,让古籍在数字时代重新变得鲜活。

“让传统文化典籍摆脱养在深闺人不识的局面,得以滋养今天的互联网原住民,是我们这项工作的意义。”学信息管理出身的王军,对于人文传统传承极具热忱:“我们现在做的工作有点像过去的刻经事业。如果没有历朝历代的一些刻经人、印书人筚路蓝缕的努力,那我们华夏文化可能早就遗失殆尽了。”

这不仅仅是古籍数字化的黄金时期,也是传统文化复兴的黄金时期。古籍数字化让更多人走进历史,了解传统文化。了解了我们从哪里来,有助于我们清醒地认知当下,更好地规划前路未来。当古籍中的字符跳动起来,它终可以成为我们思想的活水源头。

策划丨三联.CREATIVE

监制丨路瑞海

微信编辑、设计排版丨袁昌佑

作者丨幽幽之默 夜间部

图片来源丨 字节跳动 北京大学数字人文研究中心 国家图书馆出版社 视觉中国

AI时代的“整理国故”

AI时代的“整理国故”

*文章版权归《三联生活周刊》所有

欢迎转发到朋友圈,转载请联系后台

来源:三联生活周刊

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年3月1日
下一篇 2022年3月1日

相关推荐