five

TriviaQA

收藏
Opencsg2024-03-11 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/OpenDataLab/TriviaQA
下载链接
链接失效反馈
官方服务:
资源简介:
TriviaQA 是一个现实的基于文本的问答数据集,其中包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集(SQuAD)等标准 QA 基准数据集更具挑战性,因为问题的答案可能无法通过跨度预测直接获得,而且上下文很长。 TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。

TriviaQA is a realistic text-based question answering dataset that contains 950K question-answer pairs sourced from 662K documents across Wikipedia and the web. This dataset is more challenging than standard QA benchmark datasets such as the Stanford Question Answering Dataset (SQuAD), as the answers to its questions cannot be directly obtained via span prediction, and the accompanying contexts are often lengthy. The TriviaQA dataset consists of two subsets: manually verified question-answer pairs and machine-generated question-answer pairs.
创建时间:
2024-03-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TriviaQA是一个大规模的基于文本的问答数据集,包含来自维基百科和网络的662K文档中的950K问答对。该数据集比SQuAD等标准基准更具挑战性,因为答案可能无法通过简单的跨度预测获得,且上下文较长,需要更复杂的推理。数据集由人工验证和机器生成的子集组成,适用于问答和文本分类任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作