2020年

“古联杯”古籍文献
命名实体识别评测大赛

公司简介

古联(北京)数字传媒科技有限公司(以下简称“古联公司”)成立于 2015 年 8 月,是中华书局的全资子公司,前身是中华书局 “古籍资源开发部”。古联公司致力于传统文化的传播,依托中华书局百年品牌和优质权威的古籍整理成果持续为社会提供高品质的古籍整理数字化产品,承担古籍数字化项目建设及传统文化数字产品的研发和推广工作,以及多类型的古籍数字化服务。

古联公司先后承担了中华基本史籍知识库 ( “十二五” 规划项目 )、中华古籍整理出版资源平台 ( “十三五” 规划项目 ) 等数字化项目。开发的产品有:“中华经典古籍库”(镜像版、网络版和微信版)“中华善本古籍数据库”“中华古籍书目数据库”“中华文史工具书数据库”“中华文史学术论著库”等。公司还研发了在线的古籍整理与发布系统,开启了全新的线上资源生产和出版模式。2018 年,公司整合现有数字产品, 推出了古籍整理与数字化综合服务平台——籍合网。古联公司致力于打造高品质的古籍类数字产品。其中“中华经典古籍库”获得了第四届“中国出版政府奖”,得到业内的广泛认可。

未来古联公司将继续以知识服务为发展方向,全力打造更多传统文化类数字精品,为推动古籍整理、学术研究和传承经典尽绵薄之力。

任务介绍

命名实体识别在古籍文献处理过程中极为重要,是其他工作得以顺利开展的关键,该项工作会影响到古文自动标点、文白翻译等一系列自动化处理工作, 因此,能够从古籍文献中自动识别出专名信息是一项非常重要且有价值的工作。具体任务要求如下:

1. 根据给定的古籍篇章,参赛者需要建立模型将候选篇章中的命名实体提取出来,并且按照既定类别进行归并;

2. 将提取出来的实体名称大致分为两类:书名和其他专名(含人名、地名、朝代名、民族名等)。详细情况请见附件《专名线、书名线使用细则举例》

数据介绍

1. 评测数据由古联(北京)数字传媒科技有限公司提供,可以公开,由组委会指定统一平台下载。

2. 数据格式:文本文件,含有书名和专名标签。参赛人员,可以结合自己的训练模型,将数据先转化为特定的数据样式,再进行处理。

3. 数据集将分为:训练集、测试集两部分,内容涉及经、史、子、集等范围。训练集可以公开,测试集不公开,用于测试模型效果。

4. 训练集包含1929本语料。经部133本、史部508本、子部449本、集部837本;涉及朝代情况为民国时期8本、清朝424本、明朝167本、元朝50本、宋朝615本、唐朝146本、春秋20本、战国11本、秦朝127本、汉朝60本、三国9本、晋朝26本、南北朝35本、隋朝11本、五代11本,其他306本。该数据集是随机提取的2819句,1063291字符数(计空格),含11068组书名,10040组专名。

数据样例

{{noun_bookname::肆命}}二十,{{noun_bookname::原命}}二十一,{{noun_bookname::武成}}二十二,{{noun_bookname::旅獒}}二十三, {{noun_bookname::冏命}}二十四。以此二十四爲十六卷者,{{noun_bookname::九共}}九篇共卷,除八篇,故爲十六是也。云“爲五十七篇”者, {{noun_bookname::書}}疏又云:“{{noun_other:鄭}}於{{noun_other:伏生}}二十九篇之内,分出{{noun_bookname::盤庚}}二篇、 {{noun_bookname::康王之誥}}、又{{noun_bookname::泰誓}}三篇,爲三十四篇,更增益僞{{noun_bookname::書}}二十四篇,爲五十八。” {{noun_other:桓譚}}{{noun_bookname::新論}}亦云:“古文{{noun_bookname::尚書}},舊有四十五卷,爲五十八篇。”僞{{noun_bookname::武成}} 疏引{{noun_other:鄭}}云:“{{noun_bookname::武成}},逸{{noun_bookname::書}},{{noun_other:建武}}之際亡。”{{noun_other:譚}}云五十八者, {{noun_other:譚}}没於世祖時,在{{noun_other:建武}}前,{{noun_bookname::武成}}未亡。{{noun_other:班}}云五十七者,{{noun_other:班}}作 {{noun_bookname::漢書}}在{{noun_other:顯宗}}時,{{noun_bookname::武成}}已亡故也。

备注说明:大家可以将此数据格式根据训练需要进行改造,“noun_bookname”意指“书名”,“noun_other”意指“其他专名”。

既有模型简介

专名识别主要用于发现未整理古籍文献中的专有名词。模型基于已标识的语料进行机器训练,训练语料主要来源于中华书局整理本古籍文献,以下划直线和下划曲线为名词标识,形成专有名词和书名两大类:

古联公司使用改进型Transformer模型。该模型性能良好,并行能力强,效果出众,优于CNN和RNN模型。对数据集的大小兼容性很好,实现预训练的字向量和bigram向量。集以time: 时间 location: 地点 person: 人名 product: 产品名为主要目标进行标注,例:[person:曹操]征[person:馬超],隔[location:渭水]。時操軍每渡渭,輒爲超騎所衝突,營不得立,地又多沙,不可築壘。

评价方式

1.命名实体提取的完整率和准确率。参赛者需要将测试集所提供的文献中的专名及书名提取出来。

(1)评测方提供测试样本,内容为中华经典古籍库中收录的正式出版的,做过专名标引的数据,去标签后作为测试样本,字数约10万字。

(2)根据专名提取的正确率及处理速度进行综合测评。

(3)提取专名后,应记录专名的类型和出处。

2.命名实体分类准确率。参赛者需要将提取到的实体名称分为:专名及书名两类。专名部分请参照附件《专名线、书名线使用细则举例》中所涉及的类型进行提取和归类。

参赛方式

参赛对象 : 本次技术竞赛面向全社会开放,相关领域的个人、科研机构、高等院校、企业单位等人员均可报名参加。

报名方式 : 竞赛网站将于2020年05月26日开放报名,填报相关信息,即可报名参赛。

报名时间 : 2020年05月26日至2020年07月30日。(可能根据参赛队伍情况调整,具体时间请关注官方网站公告栏)

赛程安排

第一阶段(2020.05.26-2020.07.30):开启比赛报名,提供专名提取及标引训练语料,用于编写模型进行训练。阶段结束后,举办方提供测试语料由报名团队进行自行测试,在规定时间内提交结果给主办方,主办方在平台上公布结果,筛选前8名的团队或个人。

第二阶段(2020.08.15-2020.09.20):为第一阶段成绩前8名的团队或个人提供第二批训练语料,用于参赛模型调优。阶段结束后举办方提供测试语料由第二阶段团队自行测试,在规定时间内提交结果给主办方,主办方在平台上公布比赛结果,并最终筛选出成绩排在前4位的团队或个人进行奖励。

第三阶段(2020.09.30-2020.10.25):公布最终成绩,并开展技术交流和颁奖活动。

奖项设置

本次测评将评选出一等奖1名,二等奖1名,三等奖2名。由主办方中国中文信息学会(CIPS)为获奖者提供荣誉证书认证;由古联(北京)数字传媒科技有限公司为获奖者提供奖金。

一等奖 20000

二等奖 10000

三等奖 5000

联系我们

联系人:朱老师

办公电话:010-63498401-231

邮箱:zhucuiping@ancientbooks.cn

(如有问题或者特殊情况,请及时联系会务组)