古汉语词义标注语料库:助力词义教学与研究


供稿丨舒蕾、张文强、胡韧奋

读中学时是否曾对文言文和古诗词中的“古今异义词”感到困惑?

想知道古汉语多义词的各种含义是如何随着时代变化吗?它们之间的远近亲疏关系又是怎样的?

借助智能技术的加持,这个语料库可以帮到你!

近日,北师大中文信息处理研究所和人文宗教高等研究院的团队合作发布了“古汉语词义标注语料库”,这项研究也在不久前获得了2021年中国计算语言学大会(CCL)最佳资源论文奖。基于词义标注语料库开发的词义标注算法,不仅可在义项演变建模、义项亲疏关系建模和辅助词典编纂方面为研究者提供一个新的视角,也可为文言文与古诗词中的词义理解提供支持和辅助。

先来看看它可以做什么吧!

词义历时演变建模

“使”这个词的主要含义是如何随着时代变化的呢?义项演变建模可以直观地展示各个义项之间的消长关系。从图上可以看出,“使”作为“官职”的意义从汉代开始大量使用,并且占比持续上升,在清代成了最主要的义项,到这时,“使”大约一半的用例都是作为“官职”的含义出现;而“使”作为“命令、派遣”的意义在先秦占据主导地位,但是随着时代的变化逐渐淡出视野,而要表达“命令、派遣”的意义时,人们倾向于用别的词来代替了。(义项建模的具体实现细节参考论文[1][2])

义项亲疏关系建模

把一个词的多个义项看成一个个分布在空间中的“点”,它们之间的远近关系也就一目了然了。词义标注算法所衍生的“副产品”——义项向量,可以用来计算和可视化义项之间的远近亲疏关系。在图中,“望”的义项“远望”和“向,对着”比较接近,“期望、盼望”和“希图、企图”比较接近。而“遥祭”和“望日”和所有的义项都较为疏远。可视化的分析结果为词典编纂中的义项归并与拆分、义项引申关系判断等问题提供了参考。

看了以上的两个例子,你或许有疑问,一个语料库是怎么做到这些的呢?就让我们一起来看一下这个语料库里都有些什么吧!

语料库概览

古汉语词义标注语料库由词义知识库和义项标注语料库组成,目前知识库已收录315个常用词,并据此标注了先秦至明清的古汉语语料达5.8万条,规模超过164万字。

词义知识库示例“爱”

语料库团队中汉语言文字学方向的研究者以《王力古汉语字典》为基础、《汉语大字典》为补充,对古汉语中的常用单音节多义词的义项进行归纳和划分,对同形词、通假现象和专有名词也做了相应处理,最终构建了涵盖词形、词音、词性、义项、义族、本义及引申义、例句、义频等属性的词义知识库。值得一提的是,在收录词语时,团队成员特别考虑到高中阶段的文言文教学需求,结合高中语文教材、高考试题文言文选文、近十年高考试题所考察过的文言实词以及《教学大纲》所规定的120个常用文言实词等材料,选定了高中语文学习常用的200多个文言多义实词加入知识库[3]。

词义知识库属性示例

接下来,团队成员以国家语委“语料库在线”(古代汉语部分)和CCL古汉语语料库为来源,对其中语料进行分朝代均衡采样,并据此开展义项标注工作,即对一句话中指定的目标词标定合理的义项。最后,根据语料库标注结果统计义频信息,填入上文所述的词义知识库。

词义标注语料库示例

词义标注算法

词义标注完成后,就可以由词义标注算法来充分挖掘这个语料库的潜力了。词义标注算法的思想来自Harris和Firth的语言学假设:

根据上述词义表示的思想,我们从词义标注语料库中筛选一个义项的所有例句,便可为该义项寻找共同的“语境特征”。多亏了近年兴起的预训练语言模型BERT [8][9],我们可以很方便地获取词语的上下文相关“语境向量”,这个向量看似由一个个实数组成,它背后包含了这个词上下文的重要信息:它和什么样的词一起出现——这也就是它的语境特征。

这样一来,算法便为每一个义项构建了独特的“语境特征向量”。如果这时候给出一个新的句子和需要消歧的多义词,我们就可以指导机器选择与这个新句子语境最相似的“语境特征向量”,那么它对应的义项就最有可能是当前多义词在语境中的义项了。进一步地,如果想知道一个多义词的所有义项频率的分布,只需把现存典籍里所有包含这个词的句子全都取出来,对每句话都做这样的词义标注操作,就可以看到一个词在不同时代、不同书籍里面的义项分布情况。

目前,最新版语料库已在Github开源共享,欢迎研究者参考使用。

语料库下载:

https://github.com/iris2hu/ancient_chinese_sense_annotation

论文链接:

https://aclanthology.org/2021.ccl-1.50.pdf

为了更好地服务于本领域师生,如果读者希望获得指定词语的历时词义演变图或义项距离可视化结果,可发送邮件至LeiShu@mail.bnu.edu.cn向语料库团队申请。团队将根据申请先后顺序进行语料分析并提供结果,具体申请方式如下:

1. 对于语料库中已经收录的词语,可以直接申请指定词语的可视化分析结果。

2. 对于语料库未收录的词语,欢迎使用者按照语料库的体例整理该词语的义项表、语料表(每个义项有10条例句以上为佳,至少5条,每条例句字数大于8字),通过邮件发送给语料库团队,并在邮件内容中声明同意将搜集语料加入开源共享语料库。

本研究得到国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021)资助。两年多来,北京师范大学的曹媛南、段毓赜、郭懿鸾、何琪怡、黄芷晴、蒋瑞、李涔、李隽琪、罗涵柯、舒蕾、孙雨、王慧萍、杨济清、姚昊辰、张文强、张霄等同学(姓名按音序排列)为义项修订和语料标注工作作出了贡献;张学涛和胡韧奋老师为语料库的建设提供了悉心的指导。在此一并致谢。

[1] 舒蕾, 郭懿鸾, 王慧萍, 张学涛, 胡韧奋. 古汉语词义标注语料库的构建及应用研究. 第二十届中国计算语言学大会 (CCL 2021). 2021.

[2] Renfen Hu, Shen Li and Shichen Liang. Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological View. ACL 2019.

[3] 王慧萍. 高中阶段常用文言实词自动命题研究. 北京师范大学硕士学位论文, 2021.

[4] Zellig S. Harris. Distributional structure[J]. Word, 1954, 10(2-3): 146-162.

[5] John R. Firth. Papers in Linguistics[M]. Oxford University Press, London, UK, 1957.

[6] 杨逢彬. 论语新注新译. 北京大学出版社, 2016.

[7] 杨逢彬. 孟子新注新译. 北京大学出版社, 2018.

[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019.

[9] 胡韧奋,李绅,诸雨辰.基于深层语言模型的古汉语知识表示及自动断句研究[J].中文信息学报,2021,35(04):8-15.

特别鸣谢

敦和基金会

章黄国学

有深度的大众国学

有趣味的青春国学

有担当的时代国学

北京师范大学章太炎黄侃学术研究中心

北京师范大学汉字研究与现代应用实验室

北京师范大学文学院古代汉语研究所

北京师范大学文学院古代文学研究所

微信号:zhanghuangguoxue

文章原创|版权所有|转发请注出处

公众号主编:孟琢 谢琰 董京尘

责任编辑:花蕊

中央纪委国家监委网站 侯颗报道 2月15日,中国选手苏翊鸣以182.50分夺得北京冬奥会单板滑雪男子大跳台金牌。在这位17岁小将高举金墩墩的那一刻,来自日本的著名..

东汉末年,民生凋敝,灵帝一朝,天灾人祸,接踵而至,让本就人心思乱的局面,变得愈发不可收拾。正所谓,乱世出英雄,隐忍于民间的各色人物,顺天应命,肩负起拯救苍生之责..

今天给各位分享人保助力贷款怎么申请的知识,其中也会对人保助贷电话进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!人保可以贷款吗?中国人保可以用保单可以申请贷款,需要满足以下条件:1.保单生效6个月以上。2.具有一定的现金价值。3.该保险在过去两年内并没有超额支付。4..

Focus on vascular七月的赤峰,美丽的草原。生机盎然,郁郁葱葱!2022年7月30日,由中国微循环学会周围血管疾病专业委员会、中国微循环学会周围血管疾病专业委员..

7月29日,协鑫能科正式推出基于车电分离的系列租售产品方案。这是公司继今年6月8日发布协鑫电港系列自研产品后取得的又一项关键成果,在创新移动能源业务模式,构筑绿色出..

孩子频繁眨眼睛?皱眉、嗤鼻、努嘴儿、耸肩、做怪相?有时候还会发出一些奇怪的声音?总是坐不住,没有耐心?写作业拖拉,丢三落四……这些可不是普通的“捣蛋”行为!可能..

肌萎缩侧索硬化症(ALS)俗称“渐冻症”,是一类致命的神经退行性疾病。ALS患者大脑和脊髓中的运动神经元不可逆退化,导致逐步失去自主肌肉运动能力,比如:走路、说话、吃..

【商用车新网原创】后疫情时代,传统客运模式无法满足民众即时、随地的出行需求,已成为当下公共交通行业面临的主要矛盾。正如济南公交集团总经理助理何彬所说,疫情对公共..

EV导购专注于新能源车资讯及导购关注发布会开完2小时,订单破万;4个小时后,订单破两万;48小时后,订单破5万;72小时后,订单居然突破6万。这简直就是火箭版的增速,而主..

“辰辰这孩子最近瘦的好厉害,也没怎么长高,一眼看过去,比西瓜矮了好多哦。”这是昨天爷爷带着西瓜小朋友遛弯回来,进门的第一句话。紧接着奶奶就说:“辰辰之前是不是比..

湘粤川贵老年医学专家研讨会当前,我国已逐步迈入老龄化社会,其程度之深、规模之大、速度之快,为我国老年医学的发展和创新带来了一系列挑战和机遇。日前,在长沙举办的“..

2022湖南车展2022湖南汽车展览会暨长沙市汽车消费节得到了众多参展厂家和商家的积极响应,长沙市政府及各区县(市)政府也给予了大力支持,以刺激汽车消费、增强消费信心、..

日前,长城汽车股份有限公司(601633.SH,以下简称“长城汽车”)发布2022年6月产销数据。今年6月,长城汽车共销售新车10.19万辆,环比增长26.38%。其中,海外销售1.35万辆..

《全球癫痫报告》指出,癫痫是世界最常见的神经系统疾病之一,全世界目前至少有5000万癫痫患者,我国目前有1000万以上的癫痫患者,活动性癫痫患者(过去1年有过发作)至少6..

本文由 章黄国学 来源发布

古汉语词义标注语料库:助力词义教学与研究

评论问答