2021年10月26日,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列权威多语言理解评测XTREME榜首,四个赛道中获得三项最好成绩,刷新世界纪录。
XTREME评测(Cross-Lingual Transfer Evaluation of Multilingual Encoders)由谷歌举办,旨在全面考察模型的多语言理解与跨语言迁移能力。该评测覆盖40种语言,包含了句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务。XTREME评测举办以来吸引了众多知名高校和研究机构参加,其中包括纽约大学、微软、华为、阿里巴巴、字节跳动、百度等。
XTREME评测
XTREME评测包含4大类9个任务,分别为:
句对分类:XNLI、PAWS-X(自然语言推断)
序列标注:UDPOS(词性标注)、PANX (命名实体识别)
阅读理解:XQuAD、MLQA、TyDiQA(片段抽取型阅读理解)
句子检索:BUCC、Tatoeba(跨语言文本检索)
与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,评价的是模型在多种语言上的平均指标,因此要求模型具有很好的多语言理解与跨语言迁移能力,而并非只专注于处理单一语言。
此外,从任务的多样性也可以看出,XTREME同时评测模型的多种理解能力,而非单一种类任务上的表现。XTREME的总平均分是各个语言、各个任务得分的平均值。若要在XTREME评测上取得总平均分提升,并且从众多顶尖评测队伍中脱颖而出,模型要具备全面的多语言、多任务能力。
XTREME评测的难度可想而知,榜单上的模型也代表了多语言模型的顶尖水平,因此获得了众多机构和高校的广泛关注。
夺冠系统
本次哈工大讯飞联合实验室提交的CoFe模型以总成绩84.1分位居XTREME评测榜首,有三大法宝:
加入了自主研发的跨语言对比学习技术,鼓励模型学习不同语言中的语义相似性。
利用知识蒸馏技术进行自监督学习和知识迁移,进一步提升了模型在各个语言上效果的稳定性。
创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。
也就是说,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过“类比”学会这门语言,减少了收集语料、语音标注等大量工作,标志着多语言理解与跨语言迁移能力再上新台阶!
来源:长三角信息智能创新研究院 编辑:唐菁莲 校对:罗添 初审:施羽晗 终审:聂竹明