dariolopez/ms-marco-es-500k
收藏Hugging Face2023-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dariolopez/ms-marco-es-500k
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: query
dtype: string
- name: positive
dtype: string
- name: negative
dtype: string
splits:
- name: train
num_bytes: 433633520
num_examples: 500000
download_size: 170119229
dataset_size: 433633520
license: apache-2.0
task_categories:
- question-answering
language:
- es
size_categories:
- 100K<n<1M
---
# Dataset Card for "ms-marco-es-500k"
QA asymmetric Spanish dataset filtered from [multilingual version of MS Marco](https://huggingface.co/datasets/unicamp-dl/mmarco) and sampled on 500k rows.
```python
import datasets
ms_marco_es = datasets.load_dataset('unicamp-dl/mmarco', name='spanish', split='train')
ms_marco_es.select(range(500_000)).push_to_hub("dariolopez/ms-marco-es-500k", token=os.environ['hg_token'])
```
提供机构:
dariolopez
原始信息汇总
数据集概述
基本信息
- 名称: ms-marco-es-500k
- 语言: 西班牙语(es)
- 许可: Apache-2.0
- 任务类别: 问答(question-answering)
- 大小类别: 100K<n<1M
数据集特征
- query: 字符串类型
- positive: 字符串类型
- negative: 字符串类型
数据集划分
- 训练集(train):
- 示例数量: 500000
- 数据大小: 433633520 字节
下载信息
- 下载大小: 170119229 字节
- 数据集总大小: 433633520 字节



