小i机器人SQuAD1.1榜单全球第三机器阅读理解能力上新高度-爱云资讯

近日，小i机器人研究院团队(Xiaoi Research)在由斯坦福大学发起的国际权威机器阅读理解评测SQuAD1.1挑战赛中，凭借最新研究成果—BERT+WWM+MT的单模型，以EM(精准匹配率和F1(模糊匹配率)超越人类平均水平的优异成绩排名第三(截至7月30日)，进一步验证了小i机器人NLP相关模型算法的技术可行性和全球先进性。

关于SQuAD1.1

SQuAD被誉为自然语言处理领域金字塔尖的比赛，旨在促进智能搜索引擎的发展。国际机器阅读理解评测SQuAD自2016年发布以来，便受到了业界的广泛关注，共吸引了包括谷歌、微软亚洲研究院、IBM研究院、阿里巴巴达摩院、上海交通大学等众多国内外知名研究机构和高校的踊跃报名。

在SQuAD1.1数据集当中，阅读理解的主要难点是上下文的语义理解。所提问题的答案并不能靠简单的近邻或相似度对答案进行匹配，而是需要通过NLP的语义分析，在考虑前后文信息后从全文中寻找到最合适的答案位置。想要做好这一点，需要算法能力达到人类阅读理解的思考水平。

参赛者需要提交一个系统模型，该系统模型在阅读完数据集中的一篇文章后，逐一回答若干个基于文章内容的问题。然后，与人工标注的答案进行比对，得出精确匹配(Exact Match)和模糊匹配(F1-score)等相关评价指标。EM表示预测答案和真实答案完全匹配，而F1用来评测模型的整体性能的结果。

小i机器人BERT+WWM+MT单模型

小i机器人研究院团队在基于Whole Word Masking的BERT预训练模型基础之上，引入辅助任务如NewsQA等数据集，采用多任务学习的思路来改进现有模型的效果，进一步提升模型的最终预测评价指标 (主要为Exact Match和F1值)，小i机器人参赛模型在此次比赛中获得EM指标 (精准匹配率)达到88.650，F1指标(模糊匹配率)达到94.393的优异成绩。

具体地来说，小i机器人研究院团队针对目标任务和辅助任务中的问题和答案的属性和语义特征，来综合判断辅助任务中的数据样本与目标任务中的数据样本之间的相关性，最后将这个相关性指标引入到模型训练过程中损失函数的计算过程中，以充分利用并学习到来自目标任务和有关辅助任务中的知识，从而最终提升模型的预测效果。

参赛模型相关技术已广泛落地应用

技术评测不只是“花拳绣腿”，能否将技术更好的应用到实际产品中才是评测的最终目的。此次小i机器人用以参赛模型的相关技术已被成熟运用于小i服务的数十个行业的有关产品和实际项目中，已实现可商业化可应用化。例如，小i在开发的智能对话系统iBot平台中，就融合了基于机器阅读理解的Discovery Bot能力，可用于解决系统未收录的知识问题的提问。通过引入这一能力，可进一步减少人力资源，不断提升对话系统的回复准确率，同时辅助完善相关的问答知识库积累。

在比赛指标上超越人类水平远远不是终点，人类探索的脚步从未停止。小i机器人一直坚持“大脑”研发，专注于认知智能相关技术的自主研发和产业化应用，并用“智能+”赋能传统行业AI升级，推动人工智能产业化发展进程。

小i机器人SQuAD1.1榜单全球第三 机器阅读理解能力上新高度

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业

小i机器人SQuAD1.1榜单全球第三机器阅读理解能力上新高度