neuclir/neumarco

Name: neuclir/neumarco
Creator: neuclir
Published: 2023-02-06 16:16:37
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/neuclir/neumarco

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - machine-generated language: - fa - ru - zh language_creators: - machine-generated multilinguality: - multilingual pretty_name: NeuMARCO size_categories: - 1M<n<10M source_datasets: - extended|irds/msmarco-passage tags: [] task_categories: - text-retrieval --- # Dataset Card for NeuMARCO ## Dataset Description - **Website:** https://neuclir.github.io/ ### Dataset Summary This is the dataset created for TREC 2022 NeuCLIR Track. The collection consists of documents from [`msmarco-passage`](https://ir-datasets.com/msmarco-passage) translated into Chinese, Persian, and Russian. ### Languages - Chinese - Persian - Russian ## Dataset Structure ### Data Instances | Split | Documents | |-----------------|----------:| | `fas` (Persian) | 8.8M | | `rus` (Russian) | 8.8M | | `zho` (Chinese) | 8.8M | ### Data Fields - `doc_id`: unique identifier for this document - `text`: translated passage text ## Dataset Usage Using 🤗 Datasets: ```python from datasets import load_dataset dataset = load_dataset('neuclir/neumarco') dataset['fas'] # Persian passages dataset['rus'] # Russian passages dataset['zho'] # Chinese passages ```

提供机构：

neuclir

原始信息汇总

数据集概述

数据集名称

NeuMARCO

数据集描述

该数据集是为TREC 2022 NeuCLIR Track创建的，包含从msmarco-passage数据集翻译成中文、波斯语和俄语的文档。

语言

中文
波斯语
俄语

数据集结构

数据实例

分割	文档数量
`fas` (波斯语)	8.8M
`rus` (俄语)	8.8M
`zho` (中文)	8.8M

数据字段

doc_id: 文档的唯一标识符
text: 翻译后的文本内容

数据集使用

使用🤗 Datasets加载数据集的示例代码如下：

python from datasets import load_dataset

dataset = load_dataset(neuclir/neumarco) dataset[fas] # 波斯语文本 dataset[rus] # 俄语文本 dataset[zho] # 中语文本

5,000+

优质数据集

54 个

任务类型

进入经典数据集