TriviaQA

Opencsg2024-03-11 更新2024-06-22 收录

下载链接：

https://www.opencsg.com/datasets/OpenDataLab/TriviaQA

下载链接

链接失效反馈

官方服务：

资源简介：

TriviaQA 是一个现实的基于文本的问答数据集，其中包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集（SQuAD）等标准 QA 基准数据集更具挑战性，因为问题的答案可能无法通过跨度预测直接获得，而且上下文很长。 TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。

TriviaQA is a realistic text-based question answering dataset that contains 950K question-answer pairs sourced from 662K documents across Wikipedia and the web. This dataset is more challenging than standard QA benchmark datasets such as the Stanford Question Answering Dataset (SQuAD), as the answers to its questions cannot be directly obtained via span prediction, and the accompanying contexts are often lengthy. The TriviaQA dataset consists of two subsets: manually verified question-answer pairs and machine-generated question-answer pairs.

创建时间：

2024-03-11

搜集汇总

数据集介绍

背景与挑战

背景概述

TriviaQA是一个大规模的基于文本的问答数据集，包含来自维基百科和网络的662K文档中的950K问答对。该数据集比SQuAD等标准基准更具挑战性，因为答案可能无法通过简单的跨度预测获得，且上下文较长，需要更复杂的推理。数据集由人工验证和机器生成的子集组成，适用于问答和文本分类任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集