howard-hou/WikiQA-LongForm
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/howard-hou/WikiQA-LongForm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Wikipedia,是一个长形式的问答集合,包含训练集和测试集。数据集的特征包括问题、答案、文档ID、检索到的文档ID和检索到的文档分数。
The dataset, derived from Wikipedia, consists of a long-form question-and-answer collection, including training and test sets. It features questions, answers, document IDs, retrieved document ID lists, and retrieved document score lists. The training set contains 1,509,096 samples, and the test set contains 15,244 samples.
提供机构:
howard-hou
原始信息汇总
数据集概述
数据集信息
-
特征:
question: 问题,类型为字符串。answer: 答案,类型为字符串。docid: 文档ID,类型为字符串。retrieved_docids: 检索到的文档ID列表,类型为字符串序列。retrieved_doc_scores: 检索到的文档分数列表,类型为浮点数序列。
-
数据集分割:
train: 训练集,包含1,509,096个样本,大小为3,912,970,806字节。test: 测试集,包含15,244个样本,大小为39,528,338字节。
-
数据集大小:
- 下载大小: 3,285,882,072字节
- 总大小: 3,952,499,144字节
配置
- 默认配置:
train: 数据文件路径为data/train-*。test: 数据文件路径为data/test-*。
数据集来源
- 数据集源自Wikipedia,包含长篇问答对,分为训练集和测试集。



