dkoterwa/msmarco_retrieval

Name: dkoterwa/msmarco_retrieval
Creator: dkoterwa
Published: 2024-05-15 11:17:43
License: 暂无描述

Hugging Face2024-05-15 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/dkoterwa/msmarco_retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于MSMARCO数据集的v1.1版本进行过滤和添加列后创建的，主要用于评估检索器的性能。数据集包含多个特征，如passages（包含is_selected、passage_text和url）、query、query_id、query_type、golden_passages和answer。数据集分为一个训练集，包含70616个样本，总大小为326842258字节。

提供机构：

dkoterwa

原始信息汇总

数据集概述

数据集特征

passages:
- is_selected: 整数类型，表示是否被选中。
- passage_text: 字符串类型，文本内容。
- url: 字符串类型，链接地址。
query: 字符串类型，查询内容。
query_id: 整数类型，查询ID。
query_type: 字符串类型，查询类型。
golden_passages: 字符串类型，黄金段落。
answer: 字符串类型，答案。

数据集分割

train:
- num_bytes: 326842258字节
- num_examples: 70616个样本

数据集大小

download_size: 168328467字节
dataset_size: 326842258字节

配置

config_name: default
data_files:
- split: train
- path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集