当古老典籍遇到现代技术,会产生什么奇妙反应?在“识典古籍”平台,一本本古籍的前世今生、编纂方法、历史价值等信息,伴随着动画音效,生动呈现于眼前。据悉,该平台由北京大学与抖音合作共建,已陆续汇集经、史、子、集等2200余部古籍,致力于为用户提供免费、公开、稳定、快速、方便的检索和阅读古籍服务。
我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近3.8万种,修复整理现存的全部古籍,可能需要300余年。可以说,古籍修复速度赶不上老化速度,古籍数字化迫在眉睫。
《永乐大典》是我国古代规模最大的类书,汇集先秦至明初各类典籍,被誉为“世界有史以来最大的百科全书”。但几经散佚,副本存世不及原书的4%。如今,《永乐大典》高清影像数据库(第一辑)在古籍数字化平台“识典古籍”正式上线,免费面向公众开放。据悉,该项目由国家图书馆、北京大学和字节跳动公司合作推出,是“国家古籍数字化工程”优秀项目之一。
“初见”“流光”“惊鸿”“珠联”“缀玉”……点击网页上的标签,《永乐大典》的前世今生、编纂方法、历史价值等信息,伴随着动画音效,呈现于眼前。“互动化、可视化的呈现方式更加符合当代人的阅读习惯,沉浸式阅读体验拉近了古籍与普通读者之间的距离。”“识典古籍”平台项目负责人之一、北京大学信息管理系助理教授位通说。
修复整理,只是数字化的第一步。古籍具有文物和文献的双重属性,修复好的古籍若只被束之高阁,后续研究就无法开展,更无法发挥其文化传承的价值。因此,数字化是一场生产效率的变革,也是一次解决古籍保护和利用矛盾的尝试。
据平台设计者、北京大学人工智能研究院副研究员杨浩介绍,为了实现古籍从纸页“搬”到网页这一过程,技术上主要使用了文字识别、自动标点和命名实体识别等人工智能技术。此外,在机器自动识别后,会有专人复查结果,进一步提升准确率。
据悉,经过这一系列技术+人工的双重操作后,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。
集纳展示古籍数字版本,不是“识典古籍”平台的全部。团队有着更大的设想——在一个平台实现古籍智能整理的全部环节。
“‘识典古籍’平台由两部分组成,前端是阅读平台,后端是古籍整理平台。”“识典古籍”平台项目负责人、北京大学数字人文研究中心主任王军作了一个比喻,“就像是餐厅的前厅和后厨。”
目前,作为“后厨”的古籍整理平台,已经设定了团队管理员、书目管理员、审订员、整理员等各种用户角色。下一步,将吸引各行各业的古籍爱好者、研究者,以众包校对、协同审核等形式,推进古籍整理项目和数据库建设,打造“古籍图像上传—文本校对整理—高质量标记—文本输出”的全流程系统。
“青蒿一握,以水二升渍,绞取汁,尽服之”,屠呦呦从东晋名家葛洪的《肘后备急方》中获得灵感,由此发现青蒿素;用数十年时间查阅《礼记》《诗经》《左传》等大量古籍后,竺可桢绘制出一条物候变迁的曲线——“竺可桢曲线”,浓缩出五千年中华大地的冷暖变化图景。
卷帙浩繁的中华古籍,凝结着先人的智慧,记载着璀璨的文化,诉说着绵延不绝的中华文明。如今,借助现代数字技术,厚重典籍浓缩在方寸之间,尘封已久的历史画卷徐徐展开,成为触手可及的文化资源。
来源:人民日报