合作单位动态

当前位置: 网站首页 - 合作单位动态 - 正文

认知智能全国重点实验室数学推理评测DROP双指标夺冠

点击量: 时间:2023-06-19 编辑:唐菁莲

让机器做“阅读理解”已经屡见不鲜,但如果让机器去尝试难度更大、更考验逻辑推理的数学题,结果会怎样?

2023年6月19日,认知智能全国重点实验室在离散推理阅读理解任务DROP取得双指标第一的成绩,获得冠军。DROP评测A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs)由AI2(艾伦人工智能研究院)举办,旨在全面考察模型的阅读理解和数学推理能力。DROP评测自2019年举办以来吸引了众多知名研究机构和企业参加,其中包括蚂蚁、平安、京东、WeChat AI、Google Research等团队。

评测榜单排名截图

DROP评测:数学推理挑战大,难度高挑战大

DROP评测任务的形式是让机器理解一个篇章,并回答篇章中的问题,但与其他大多数阅读理解评测任务不同,DROP主要考察模型的数学推理能力。

DROP任务中的问题主要包括三种类型:数学问题(number)、日期问题(date)以及文本片段(span)问题;并从以下两个指标对机器进行评测:

  • EM:预测答案与数据标注答案完全一致

  • F1:预测答案与标注答案的部分匹配

举一个任务中的测试题目例子:

虽然看上去是简单的加减法,但机器想要做对却并不容易:首先,模型需要理解问题中“青少年人口”和“20到29岁间的成年人口”之间的比较关系,再通过两者的概率值计算得到答案。

DROP评测的难点也因此可见一斑:

  • 首先需要根据问题,找到与问题相关的实体、实体之间的关系以及对应的数量或大小等数值,即需要准确定位实体和数值;

  • 其次,需要较强的逻辑推理,如样例中比较大小的逻辑,还包含计算时间先后差、统计某个实体数量以及实体数量差/和等等;

  • 最后,在准确定位实体和数值并推理出相关的计算逻辑后,模型还需要准确地将对应逻辑计算表达式映射到对应数值,才能最终计算出答案。

目前,即使是GPT-4在DROP上的F1指标也只有80.9%(根据OpenAI官方技术报告中数字),距离人类水平的96.4%还有很大差距,可见DROP任务挑战性之大。

夺冠系统D-Reasoner:面向数学推理,思维链生成是亮点

此次认知智能全国重点实验室实现双指标夺冠的秘诀,在于团队自主研发的D-Reasoner模型,属于Reasoner系列模型。

Reasoner系列模型是专门用于处理推理型阅读理解任务的系列模型。其中,X-Reasoner模型在2022年的常识推理阅读理解评测OpenBookQA和QASC上分别夺得冠军,并突破了人类最好水平;随后针对逻辑推理的Rational Reasoner模型能力“进阶”,同年获得逻辑推理阅读理解挑战赛ReClor冠军。

今年,Reasoner系列模型再度升级,研发了针对数学推理的D-Reasoner模型。D-Reasoner主要有两大亮点:利用大语言模型(LLM)对问题以及篇章进行思维链生成,以及结合生成的思维链以及篇章和问题,计算出最终的数值、日期以及文本片段答案

例如通过以下这个评测题目,我们可以看到D-Reasoner模型是如何正确解题的:

篇章:……截至2012年12月,加拿大共有1,107,540家雇主企业,其中1,087,803家是小型企业。小型企业占雇主企业总数的98.2%,中型企业占雇主企业总数的1.6%,大型企业占雇主企业总数的0.1%……

问题:加拿大有多少家企业不是小型企业?

第一步:LLM生成如下思维链:

加拿大共有雇主企业的数量减去小型企业数量,即可得不是小型企业的企业数量,所以不是小型企业=雇主企业的数量-小型企业数量

第二步:D-Reasoner 计算答案:

不是小型企业=1,107,540家雇主企业-1,087,803家是小型企业=19737

答案:19737 ✔

D-Reasoner系统流程

D-Reasoner模型利用大语言模型生成丰富的思维链,这些思维链涵盖了各种数学概念、定理和解题技巧,为专业模型提供了强大的支持。这些思维链应用到专业模型中,使其能够更全面地理解数学问题,更好应对DROP评测中的各种挑战,最终也在DROP评测中脱颖而出、拿下双指标第一。

大模型与专业模型“协同并进”,应用大有可为

D-Reasoner模型系统结合了大模型的能力,从而提升了在数学推理任务上的效果。这意味着拥有优秀泛化能力的大模型不仅可以独立地完成各种通用任务,还可以通过与专业模型结合,在专业领域与任务上发挥重要作用。

此前,认知智能全国重点实验室已多次在国际机器阅读理解评测赛事中取得优异成绩。Reasoner系列模型“队伍”的壮大与成绩,也是科大讯飞在认知智能与大模型相关技术上不断创新突破的表现。未来,讯飞将继续瞄准让“机器能理解会思考”的目标持续攀登,积极推动核心源头技术的进步与应用落地实践。



来源:长三角信息智能创新研究院    编辑:唐菁莲    校对:罗添    预审:施羽晗    终审:聂竹明

相关文章: