five

dariolopez/ms-marco-es-500k

收藏
Hugging Face2023-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dariolopez/ms-marco-es-500k
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: query dtype: string - name: positive dtype: string - name: negative dtype: string splits: - name: train num_bytes: 433633520 num_examples: 500000 download_size: 170119229 dataset_size: 433633520 license: apache-2.0 task_categories: - question-answering language: - es size_categories: - 100K<n<1M --- # Dataset Card for "ms-marco-es-500k" QA asymmetric Spanish dataset filtered from [multilingual version of MS Marco](https://huggingface.co/datasets/unicamp-dl/mmarco) and sampled on 500k rows. ```python import datasets ms_marco_es = datasets.load_dataset('unicamp-dl/mmarco', name='spanish', split='train') ms_marco_es.select(range(500_000)).push_to_hub("dariolopez/ms-marco-es-500k", token=os.environ['hg_token']) ```
提供机构:
dariolopez
原始信息汇总

数据集概述

基本信息

  • 名称: ms-marco-es-500k
  • 语言: 西班牙语(es)
  • 许可: Apache-2.0
  • 任务类别: 问答(question-answering)
  • 大小类别: 100K<n<1M

数据集特征

  • query: 字符串类型
  • positive: 字符串类型
  • negative: 字符串类型

数据集划分

  • 训练集(train):
    • 示例数量: 500000
    • 数据大小: 433633520 字节

下载信息

  • 下载大小: 170119229 字节
  • 数据集总大小: 433633520 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作