TriviaQA 用于阅读理解和问答的大型数据集

超神经2024-04-19 更新2024-05-15 收录

下载链接：

https://hyper.ai/cn/datasets/30622

下载链接

链接失效反馈

官方服务：

资源简介：

TriviaQA 是一个阅读理解数据集，包含超过 65 万个问答证据三元组。 TriviaQA 包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集（SQuAD）等标准 QA 基准数据集更具挑战性，因为问题的答案可能无法通过跨度预测直接获得，而且上下文很长。 TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。详细信息可以在 ACL 17 论文「TriviaQA：用于阅读理解的大规模远程监督挑战数据集」中找到。

TriviaQA is a reading comprehension dataset containing over 650,000 question-answer-evidence triples. It includes 950K question-answer pairs sourced from 662K documents collected from Wikipedia and the web. Compared to standard QA benchmark datasets such as the Stanford Question Answering Dataset (SQuAD), TriviaQA is more challenging, as its answers cannot be directly obtained via span prediction, and the context passages are relatively long. The TriviaQA dataset is composed of human-verified and machine-generated QA subsets. Detailed information can be found in the ACL 2017 paper titled "TriviaQA: A Large-Scale Distantly Supervised Challenge Dataset for Reading Comprehension".

创建时间：

2024-04-03

搜集汇总

数据集介绍

背景与挑战

背景概述

TriviaQA是一个大型阅读理解数据集，包含超过65万个问答证据三元组，涵盖662K文档中的950K问答对。该数据集比标准QA基准更具挑战性，因为答案可能无法直接通过跨度预测获得，且上下文较长，适用于自然语言处理和智能问答领域的研究。

以上内容由遇见数据集搜集并总结生成