howard-hou/WikiQA-LongForm

Name: howard-hou/WikiQA-LongForm
Creator: howard-hou
Published: 2024-07-15 11:10:44
License: 暂无描述

Hugging Face2024-07-15 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/howard-hou/WikiQA-LongForm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于Wikipedia，是一个长形式的问答集合，包含训练集和测试集。数据集的特征包括问题、答案、文档ID、检索到的文档ID和检索到的文档分数。

The dataset, derived from Wikipedia, consists of a long-form question-and-answer collection, including training and test sets. It features questions, answers, document IDs, retrieved document ID lists, and retrieved document score lists. The training set contains 1,509,096 samples, and the test set contains 15,244 samples.

提供机构：

howard-hou

原始信息汇总

数据集概述

数据集信息

特征:
- question: 问题，类型为字符串。
- answer: 答案，类型为字符串。
- docid: 文档ID，类型为字符串。
- retrieved_docids: 检索到的文档ID列表，类型为字符串序列。
- retrieved_doc_scores: 检索到的文档分数列表，类型为浮点数序列。
数据集分割:
- train: 训练集，包含1,509,096个样本，大小为3,912,970,806字节。
- test: 测试集，包含15,244个样本，大小为39,528,338字节。
数据集大小:
- 下载大小: 3,285,882,072字节
- 总大小: 3,952,499,144字节

配置

默认配置:
- train: 数据文件路径为data/train-*。
- test: 数据文件路径为data/test-*。

数据集来源

数据集源自Wikipedia，包含长篇问答对，分为训练集和测试集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集