mteb/hotpotqa
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/hotpotqa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于文本检索任务的英语单语言数据集,源数据集为HotpotQA。数据集包含三个配置:default、corpus和queries。default配置包含query-id、corpus-id和score特征,corpus配置包含_id、title和text特征,queries配置包含_id和text特征。数据集的分割包括train、dev、test、corpus和queries,每个分割都有相应的字节数和示例数。
该数据集是一个用于文本检索任务的英语单语言数据集,源数据集为HotpotQA。数据集包含三个配置:default、corpus和queries。default配置包含query-id、corpus-id和score特征,corpus配置包含_id、title和text特征,queries配置包含_id和text特征。数据集的分割包括train、dev、test、corpus和queries,每个分割都有相应的字节数和示例数。
提供机构:
mteb
原始信息汇总
数据集概述
语言和多语言性
- 语言:英语
- 多语言性:单语种
任务类别和ID
- 任务类别:文本检索
- 任务ID:文档检索
配置名称和标签
- 配置名称:corpus
- 标签:文本检索
数据集信息
默认配置
- 特征:
- query-id:字符串
- corpus-id:字符串
- score:浮点数(float64)
- 数据分割:
- 训练集:
- 字节数:7987509
- 样本数:170000
- 开发集:
- 字节数:512018
- 样本数:10894
- 测试集:
- 字节数:695504
- 样本数:14810
- 训练集:
语料库配置
- 特征:
- _id:字符串
- title:字符串
- text:字符串
- 数据分割:
- 语料库:
- 字节数:1621286119
- 样本数:5233329
- 语料库:
查询配置
- 特征:
- _id:字符串
- text:字符串
- 数据分割:
- 查询:
- 字节数:13368277
- 样本数:97852
- 查询:
配置和数据文件
默认配置
- 数据文件:
- 训练集:qrels/train.jsonl
- 开发集:qrels/dev.jsonl
- 测试集:qrels/test.jsonl
语料库配置
- 数据文件:
- 语料库:corpus.jsonl
查询配置
- 数据文件:
- 查询:queries.jsonl



