mandarjoshi/trivia_qa
收藏Hugging Face2024-01-05 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/mandarjoshi/trivia_qa
下载链接
链接失效反馈官方服务:
资源简介:
TriviaQA是一个阅读理解数据集,包含超过65万个问题-答案-证据三元组。该数据集包括由琐事爱好者创作的9.5万个问题-答案对,以及独立收集的证据文档,平均每个问题有六个文档,为回答问题提供了高质量的远程监督。数据集为单语言(英语),适用于问答和文本生成任务。
TriviaQA is a reading comprehension dataset containing over 650,000 question-answer-evidence triplets. It includes 95,000 question-answer pairs created by trivia enthusiasts, alongside independently collected evidence documents. On average, each question is paired with six documents, which provide high-quality distant supervision for answering the questions. This dataset is monolingual (English) and is applicable to question answering and text generation tasks.
提供机构:
mandarjoshi
原始信息汇总
数据集概述
数据集基本信息
- 名称: TriviaQA
- 语言: 英语
- 多语言性: 单语
- 许可证: 未知
- 注释创建者: 众包
- 语言创建者: 机器生成
- 大小类别:
- 10K<n<100K
- 100K<n<1M
数据集结构
配置详情
配置: rc
- 特征:
- 问题: 字符串
- 问题ID: 字符串
- 问题来源: 字符串
- 实体页面: 序列
- 文档来源: 字符串
- 文件名: 字符串
- 标题: 字符串
- 维基上下文: 字符串
- 搜索结果: 序列
- 描述: 字符串
- 文件名: 字符串
- 排名: 整数
- 标题: 字符串
- URL: 字符串
- 搜索上下文: 字符串
- 答案: 结构
- 别名: 序列,字符串
- 规范化别名: 序列,字符串
- 匹配的维基实体名称: 字符串
- 规范化匹配的维基实体名称: 字符串
- 规范化值: 字符串
- 类型: 字符串
- 值: 字符串
- 分割:
- 训练: 138384个示例,12749651131字节
- 验证: 17944个示例,1662321188字节
- 测试: 17210个示例,1577710503字节
- 下载大小: 8998808983字节
- 数据集大小: 15989682822字节
配置: rc.nocontext
- 特征: 同上
- 分割:
- 训练: 138384个示例,106882730字节
- 验证: 17944个示例,14059830字节
- 测试: 17210个示例,3667903字节
- 下载大小: 63926518字节
- 数据集大小: 124610463字节
配置: rc.web
- 特征: 同上
- 分割:
- 训练: 76496个示例,9408851139字节
- 验证: 9951个示例,1232155138字节
- 测试: 9509个示例,1171663999字节
- 下载大小: 6626625832字节
- 数据集大小: 11812670276字节
配置: rc.web.nocontext
- 特征: 同上
- 分割:
- 训练: 76496个示例,58523085字节
- 验证: 9951个示例,7694557字节
- 测试: 9509个示例,2024747字节
- 下载大小: 35123473字节
- 数据集大小: 68242389字节
配置: rc.wikipedia
- 特征: 同上
- 分割:
- 训练: 61888个示例,3340799992字节
- 验证: 7993个示例,430166050字节
- 测试: 7701个示例,406046504字节
- 下载大小: 2293374081字节
- 数据集大小: 4177012546字节
配置: rc.wikipedia.nocontext
- 特征: 同上
- 分割:
- 训练: 61888个示例,48359645字节
- 验证: 7993个示例,6365273字节
- 测试: 7701个示例,1643156字节
- 下载大小: 28803950字节
- 数据集大小: 56368074字节
配置: unfiltered
- 特征: 同上
- 分割:
- 训练: 87622个示例,23292199425字节
- 验证: 11313个示例,3038803743字节
- 测试: 10832个示例,2906455311字节
- 下载大小: 16695552268字节
- 数据集大小: 29237458479字节
配置: unfiltered.nocontext
- 特征: 同上
- 分割:
- 训练: 87622个示例,63300226字节
- 验证: 11313个示例,8296870字节
- 测试: 10832个示例,2320660字节
- 下载大小: 38364033字节
- 数据集大小: 73917756字节
配置: unfiltered.web
- 特征: 同上
- 分割: 无数据
- 下载大小: 3298328560字节
- 数据集大小: 0字节
配置: unfiltered.web.nocontext
- 特征: 同上
- 分割: 无数据
- 下载大小: 632549060字节
- 数据集大小: 0字节
配置: unfiltered.wikipedia
- 特征: 同上
- 分割: 无数据
- 下载大小: 3298328560字节
- 数据集大小: 0字节
配置: unfiltered.wikipedia.nocontext
- 特征: 同上
- 分割: 无数据
- 下载大小: 632549060字节
- 数据集大小: 0字节
任务类别
- 问题回答
- 文本到文本生成
任务ID
- 开放领域QA
- 开放领域抽象QA
- 提取QA
- 抽象QA
数据集信息
- 论文代码ID: triviaqa
- 美观名称: TriviaQA
搜集汇总
数据集介绍

构建方式
TriviaQA数据集的构建基于大规模的问答对和相关证据文档的收集。该数据集通过众包方式收集了超过650K个问题-答案-证据三元组,其中问题和答案由 trivia 爱好者提供,而证据文档则通过自动化的方式收集,平均每个问题有六个相关文档。这种构建方式确保了数据集的高质量和多样性,为阅读理解任务提供了丰富的训练和评估资源。
特点
TriviaQA数据集的主要特点在于其大规模和多样性。数据集包含了超过650K个问题-答案-证据三元组,涵盖了广泛的领域和主题。此外,数据集提供了多种配置,包括有上下文和无上下文的版本,以及针对不同来源(如Wikipedia和Web)的子集,这使得研究人员可以根据具体需求选择合适的子集进行实验。
使用方法
TriviaQA数据集适用于多种自然语言处理任务,特别是阅读理解和问答系统。用户可以通过加载不同的配置文件来选择特定版本的子集,如'rc'、'rc.nocontext'等。数据集提供了详细的特征描述和数据分割,用户可以根据需要加载训练、验证和测试集。此外,数据集还支持多种任务,包括开放域问答、抽取式问答和抽象式问答,为研究人员提供了丰富的实验场景。
背景与挑战
背景概述
TriviaQA数据集由华盛顿大学的研究人员创建,旨在推动阅读理解领域的发展。该数据集包含超过650,000个问题-答案-证据三元组,涵盖了广泛的领域知识。TriviaQA的核心研究问题是如何通过远监督的方式提高机器阅读理解的能力。数据集的构建依赖于众包和机器生成,确保了数据的多样性和高质量。自2017年发布以来,TriviaQA已成为评估和提升自然语言处理模型性能的重要基准,尤其在开放域问答和文本生成任务中具有显著影响力。
当前挑战
TriviaQA数据集在构建过程中面临多重挑战。首先,如何从海量数据中筛选出高质量的问题和答案,确保其准确性和相关性,是一个复杂的过程。其次,远监督方法的应用虽然提高了数据集的规模,但也引入了噪声和错误,增加了模型训练的难度。此外,数据集的多语言特性(尽管目前仅支持英语)为未来的扩展和应用提出了新的要求。最后,如何在保持数据多样性的同时,确保数据集的平衡性和代表性,也是当前研究的重要课题。
常用场景
经典使用场景
在自然语言处理领域,TriviaQA数据集的经典使用场景主要集中在开放域问答(Open-Domain Question Answering, ODQA)和阅读理解(Reading Comprehension)任务中。研究者们利用该数据集训练和评估模型,以验证其在处理复杂问题和从大量文本中提取准确答案的能力。通过模拟真实世界的问答情境,TriviaQA为模型提供了丰富的训练数据,从而提升了其在实际应用中的表现。
解决学术问题
TriviaQA数据集解决了学术界在开放域问答和阅读理解领域面临的多个关键问题。首先,它通过提供大量高质量的问答对和相关证据文档,解决了数据稀缺的问题。其次,TriviaQA的多样性和复杂性有助于模型学习更深层次的语言理解和推理能力。此外,该数据集还推动了多模态问答系统的发展,为跨文本和图像的问答任务提供了新的研究方向。
衍生相关工作
TriviaQA数据集的发布催生了众多相关研究工作,推动了问答系统和阅读理解技术的发展。例如,研究者们基于TriviaQA开发了多种增强型问答模型,如BERT、RoBERTa等预训练语言模型在此数据集上的应用。此外,TriviaQA还激发了对多模态问答系统的研究,探索如何结合文本和图像信息来提高问答的准确性。这些衍生工作不仅提升了模型的性能,也为未来的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



