five

neuclir/neumarco

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuclir/neumarco
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - machine-generated language: - fa - ru - zh language_creators: - machine-generated multilinguality: - multilingual pretty_name: NeuMARCO size_categories: - 1M<n<10M source_datasets: - extended|irds/msmarco-passage tags: [] task_categories: - text-retrieval --- # Dataset Card for NeuMARCO ## Dataset Description - **Website:** https://neuclir.github.io/ ### Dataset Summary This is the dataset created for TREC 2022 NeuCLIR Track. The collection consists of documents from [`msmarco-passage`](https://ir-datasets.com/msmarco-passage) translated into Chinese, Persian, and Russian. ### Languages - Chinese - Persian - Russian ## Dataset Structure ### Data Instances | Split | Documents | |-----------------|----------:| | `fas` (Persian) | 8.8M | | `rus` (Russian) | 8.8M | | `zho` (Chinese) | 8.8M | ### Data Fields - `doc_id`: unique identifier for this document - `text`: translated passage text ## Dataset Usage Using 🤗 Datasets: ```python from datasets import load_dataset dataset = load_dataset('neuclir/neumarco') dataset['fas'] # Persian passages dataset['rus'] # Russian passages dataset['zho'] # Chinese passages ```
提供机构:
neuclir
原始信息汇总

数据集概述

数据集名称

NeuMARCO

数据集描述

该数据集是为TREC 2022 NeuCLIR Track创建的,包含从msmarco-passage数据集翻译成中文、波斯语和俄语的文档。

语言

  • 中文
  • 波斯语
  • 俄语

数据集结构

数据实例

分割 文档数量
fas (波斯语) 8.8M
rus (俄语) 8.8M
zho (中文) 8.8M

数据字段

  • doc_id: 文档的唯一标识符
  • text: 翻译后的文本内容

数据集使用

使用🤗 Datasets加载数据集的示例代码如下:

python from datasets import load_dataset

dataset = load_dataset(neuclir/neumarco) dataset[fas] # 波斯语文本 dataset[rus] # 俄语文本 dataset[zho] # 中语文本

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作