five

DuReaderrobust

收藏
arXiv2021-07-21 更新2024-06-21 收录
下载链接:
https://github.com/baidu/DuReader
下载链接
链接失效反馈
资源简介:
DuReaderrobust是由百度公司创建的一个大型中文机器阅读理解数据集,旨在评估MRC模型在实际应用中的鲁棒性和泛化能力。该数据集包含20,778个实例,每个实例由问题、段落级上下文和参考答案组成。数据来源于百度搜索,覆盖多种答案类型,如日期、数字、人物等。创建过程中,通过众包和语言专家的审核确保数据质量。DuReaderrobust主要用于解决MRC模型在实际应用中的过度敏感性、过度稳定性和泛化问题,为未来模型开发提供重要参考。
提供机构:
百度公司,北京,中国
创建时间:
2020-04-23
搜集汇总
数据集介绍
main_image_url
构建方式
在机器阅读理解领域,评估模型在真实场景下的鲁棒性与泛化能力至关重要。DuReaderrobust数据集的构建基于大规模中文阅读理解数据集DuReader,从中筛选实体类问题与段落级上下文,并借助众包平台对答案范围进行精细标注。为确保数据质量,采用专家复审机制,随机抽取10%的标注样本进行审核,准确率需达到95%以上方可通过。最终,数据集包含约21,000个实例,每个实例由问题、段落上下文及参考答案构成,覆盖训练集、开发集、测试集以及专门用于评估模型鲁棒性与泛化能力的挑战测试集。
特点
该数据集的核心特点在于其专注于评估机器阅读理解模型的三大关键问题:过度敏感性、过度稳定性及泛化能力。挑战测试集进一步细分为三个子集,分别对应这三种评估维度。所有数据均来源于百度搜索的真实用户查询与自然文本,避免了人为篡改导致的不自然语言现象。数据集中答案类型丰富多样,涵盖日期、数字、人物、组织等十余种实体类别,全面反映了现实应用中的复杂性与多样性。
使用方法
使用DuReaderrobust时,研究者可首先利用训练集对模型进行常规微调,随后在开发集与测试集上评估模型的基础性能。针对鲁棒性与泛化能力的深入分析,则需依赖挑战测试集中的三个子集:过度敏感性子集通过同义问题对模型稳定性进行检验;过度稳定性子集则考察模型是否易于受词汇重叠陷阱误导;泛化子集包含教育、金融等垂直领域数据,用于评估模型在分布外数据上的适应能力。评估指标采用精确匹配率与F1分数,为模型改进提供实证依据。
背景与挑战
背景概述
在自然语言处理领域,机器阅读理解作为衡量人工智能理解文本能力的关键任务,近年来虽取得显著进展,但模型在实际应用中的鲁棒性与泛化能力仍面临严峻考验。为应对这一挑战,百度与苏州大学的研究团队于2021年联合推出了DuReaderrobust数据集,该数据集基于大规模中文MRC数据集DuReader构建,专注于评估模型对自然文本的过敏感性、过稳定性及跨领域泛化能力。其问题与文档均源自百度搜索的真实用户查询与结果,涵盖了日期、数值、人物等多种答案类型,旨在通过真实场景数据推动MRC模型向更稳健、更通用的方向发展。
当前挑战
DuReaderrobust数据集所针对的核心挑战在于机器阅读理解模型在真实应用中的鲁棒性不足与泛化能力薄弱。具体而言,模型常表现出过敏感性,即对问题表述的细微变化(如同义改写)产生不一致的答案;同时存在过稳定性问题,模型易受文本中与问题词汇重叠的干扰片段误导,过度依赖表面词汇模式而缺乏深层语言理解。此外,模型在跨领域数据(如教育、金融等垂直领域)上表现显著下降,揭示了其泛化能力受限于训练数据的领域分布。数据构建过程中,需确保自然文本的采集质量、通过众包与专家审核平衡标注效率与准确性,并设计针对性的挑战子集以系统化评估模型的上述缺陷。
常用场景
经典使用场景
在自然语言处理领域,机器阅读理解(MRC)作为衡量模型理解能力的关键任务,其稳健性与泛化能力在实际应用中至关重要。DuReaderrobust数据集通过构建包含自然文本的挑战性子集,专门用于评估模型对语义等效问题的敏感性、对干扰信息的稳定性以及跨领域泛化能力。该数据集常被用于系统性地测试MRC模型在真实场景下的鲁棒性,为模型优化提供基准。
实际应用
在实际应用中,DuReaderrobust数据集为搜索引擎、智能客服及教育辅助系统等需要高可靠性自然语言理解能力的场景提供了关键评估工具。通过模拟真实用户查询中的语义变化与领域多样性,该数据集帮助开发者识别模型在复杂环境下的失效模式,进而提升系统在金融、教育等垂直领域的应用稳定性与用户体验。
衍生相关工作
基于DuReaderrobust数据集,研究者们开展了一系列经典工作,包括针对语义等效问题的对抗训练方法、基于注意力机制的陷阱跨度抑制策略,以及融合领域知识的跨领域迁移学习框架。这些工作不仅深化了对模型鲁棒性机理的理解,还催生了如ERNIE、RoBERTa等预训练模型的针对性优化版本,推动了机器阅读理解技术向实用化迈进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作