第六届国家中西医结合医学中心毛发专病医联体建设管理论坛暨头皮健康管理培训班在京召开 | 数字经济如何赋能我国现代化产业体系建设? | 出海欧洲正当时 华为云提供“五星护航”助中国品牌行稳致远 | 着力造就拔尖创新人才,华中科技大学顺利开展“国际化拔尖创新人才培养计划” | 诚迈科技荣获“荣耀金牌供应商奖” | 既要保护也要利用,“识典古籍”平台让更多古籍发挥传承价值 | 新冠疫情或在本月回升,寒假春节需警惕新冠反复、交叉感染 | 资讯|RingConn智能戒指将亮相全球最大科技盛会CES 2024 | 《繁花》的金宇澄,也爱刷短视频 | Mobvista汇量科技获评金口奖年度产业促进奖、金茶奖年度最佳出海服务企业 |
 
当前位置: 新闻>滚动>

既要保护也要利用,“识典古籍”平台让更多古籍发挥传承价值

发布时间:2024-01-16 10:22:45  |  来源:人民日报  |  作者:袁梦  |  责任编辑:科学频道

卷帙浩繁的中华古籍,凝结着先人的智慧,记载着璀璨的文化,诉说着绵延不绝的中华文明,但随着岁月流逝,部分古籍正慢慢“老去”,古籍数字化迫在眉睫。由北京大学与抖音合作共建的“识典古籍”平台自上线至今,已陆续汇集经、史、子、集等2200余部古籍,免费面向公众开放,为解决古籍保护和利用矛盾进行了有益尝试。

我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近3.8万种,修复整理现存的全部古籍,可能需要300余年。可以说,古籍修复速度赶不上老化速度。

修复整理,只是数字化的第一步。古籍具有文物和文献的双重属性,修复好的古籍若只被束之高阁,后续研究就无法开展,更无法发挥其文化传承的价值。因此,数字化是一场生产效率的变革,也是一次解决古籍保护和利用矛盾的尝试。

那么,一本古籍,是如何从纸页“搬”到网页的呢?进入“识典古籍”平台,平台设计者、北京大学人工智能研究院副研究员杨浩开始演示:“古籍的数字化分为两步。一是图像化,我们与海内外古籍收藏单位合作,广泛收集古籍数字化图像资料。二是文本化,利用人工智能技术对古籍文字进行识别、排序、校对、结构整理、标点、实体识别等,对内容作精细化处理。”

fe765b0abec714564ee0fc9d3312cd2d_2401160932591463185551.jpeg

杨浩上传了一页古籍图像,不一会儿,文字自动识别处理完成。古籍图像上显现出不同颜色的小方框,“每个方框对应一个文字,先切分再调整顺序。红色方框是提醒此处需要人工介入,来进一步判断和处理。”

与此同时,古籍图像旁已自动识别出一段文字,并可比照原图像进行修改调整。杨浩继续解释:“这个过程中,主要使用了文字识别、自动标点和命名实体识别等人工智能技术。文字识别技术,是对古籍数字图像中的文字进行单个切分,再进行文字识别和顺序读出;自动标点技术,是通过序列标注的方式对古籍自动进行现代标点;命名实体识别技术,则是通过序列标注方法识别出文本中的人名、地名、书名、时间、官职等信息。”同时,在机器自动识别后,会有专人复查结果,进一步提升准确率。

1f0b1020e8aaa1fc34af388691a43532_2401160933001390692175.jpeg

据悉,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。

“大部分古籍阅读平台或只提供扫描文稿,或只提供文本内容,有些商业数据库收费高昂,获取资源十分不便。”北京大学历史学系学生刘沐含说,“识典古籍”平台有着丰富的检索功能以及分类与年代筛选功能,可以辅助开展学术研究。

据悉,自2022年10月上线以来,“识典古籍”平台已陆续汇集了包括经、史、子、集等在内的2200余部古籍,免费面向公众开放。其中就包括由国家图书馆、北京大学和字节跳动公司合作推出的“《永乐大典》高清影像数据库”。

作为我国古代规模最大的类书,《永乐大典》汇集先秦至明初各类典籍,被誉为“世界有史以来最大的百科全书”。但几经散佚,副本存世不及原书的4%。如今,借助现代数字技术,厚重典籍浓缩在方寸之间,尘封已久的历史画卷徐徐展开,成为触手可及的文化资源。

集纳展示古籍数字版本,不是“识典古籍”平台的全部。识典古籍”平台项目负责人、北京大学数字人文研究中心主任王军希望,“识典古籍”平台能推动散落海外的中华古籍回流,促成古籍的开放共享。