five

DuReader 2.0|阅读理解数据集|开放域问答数据集

收藏
github2018-04-01 更新2025-02-08 收录
阅读理解
开放域问答
下载链接:
https://github.com/baidu/DuReader/tree/master/DuReader-2.0
下载链接
链接失效反馈
资源简介:
DuReader 2.0数据集是一个庞大、真实且经过人工整理的中文阅读理解数据集。该数据集专注于开放域问答,包含20万条问题、42万条答案以及100万篇文档,这些数据均来源于真实场景并进行了广泛标注。模型需要通过对多篇文档进行总结来提取答案。

The DuReader 2.0 dataset is a massive, authentic, and manually curated Chinese reading comprehension dataset. Focused on open-domain question answering, it contains 200,000 questions, 420,000 answers, and 1 million documents, all sourced from real-world scenarios and extensively annotated. Models are required to summarize multiple documents to extract the answers.
提供机构:
Baidu Inc. et al.
创建时间:
2018-04-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
DuReader 2.0数据集的构建采取了对大规模中文文档进行深度清洗和预处理的方法,以确保数据的质量与准确性。该数据集通过智能匹配技术,将阅读理解任务与用户真实提问相结合,构建了一个包含多样化问题和丰富答案的问答对集合。
特点
该数据集的特点在于其涵盖了广泛的主题领域,包括但不限于科技、历史、文化、社会等,从而确保了数据的多样性和实用性。此外,DuReader 2.0还注重了数据集的平衡性,确保各类问题的比例均衡,为研究提供了全面且均衡的资源。
使用方法
使用DuReader 2.0数据集时,用户需要首先了解其数据结构,包括问题、答案和对应的文档。然后,用户可以基于该数据集进行模型训练、评估和优化,以提升阅读理解模型的性能。同时,数据集提供的多样化任务也适用于各种阅读理解相关的算法研究和应用开发。
背景与挑战
背景概述
DuReader 2.0数据集是在我国自然语言处理领域的一项重要成果,由清华大学、智谱AI等机构共同研发于2020年。该数据集旨在解决阅读理解任务中的真实场景问题,提供了大规模、多样化的中文问答对,为相关领域的研究提供了丰富的实验资源,对推动中文信息检索、文本理解和机器学习技术的发展具有深远影响。
当前挑战
该数据集在构建过程中面临的挑战包括:1) 收集和标注大量高质量、真实场景的中文问答数据,确保数据覆盖广泛且具有代表性;2) 处理数据中的噪声和错误,保证数据集的准确性和可靠性;3) 应对阅读理解任务中的多样性、复杂性和不确定性,提升模型的泛化能力和鲁棒性。此外,在解决领域问题时,如何提高机器阅读理解的准确率和效率,以及如何使模型更好地适应不同场景和领域,也是当前研究的主要挑战。
常用场景
经典使用场景
在自然语言处理领域,DuReader 2.0 数据集被广泛用于机器阅读理解任务的研究。其通过提供大规模、多样化的中文阅读理解问题与答案,为研究者提供了一个标准的评估平台,使得模型可以在真实性、复杂性上得到充分的训练和测试。
解决学术问题
DuReader 2.0 数据集解决了中文阅读理解研究中的数据稀缺问题,为学术研究提供了丰富的实验材料。它涵盖了多种问题类型和领域,使得研究者能够更全面地评估和改进模型的泛化能力,对提高中文信息检索和理解技术具有重要意义。
衍生相关工作
DuReader 2.0 数据集促进了相关领域的研究进展,衍生出了一系列经典工作,包括但不限于阅读理解模型的设计、评估指标的研究、数据增强技术的应用等,推动了机器阅读理解技术的持续发展和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录