neuclir/neumarco
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuclir/neumarco
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- machine-generated
language:
- fa
- ru
- zh
language_creators:
- machine-generated
multilinguality:
- multilingual
pretty_name: NeuMARCO
size_categories:
- 1M<n<10M
source_datasets:
- extended|irds/msmarco-passage
tags: []
task_categories:
- text-retrieval
---
# Dataset Card for NeuMARCO
## Dataset Description
- **Website:** https://neuclir.github.io/
### Dataset Summary
This is the dataset created for TREC 2022 NeuCLIR Track. The collection consists of documents from [`msmarco-passage`](https://ir-datasets.com/msmarco-passage) translated into
Chinese, Persian, and Russian.
### Languages
- Chinese
- Persian
- Russian
## Dataset Structure
### Data Instances
| Split | Documents |
|-----------------|----------:|
| `fas` (Persian) | 8.8M |
| `rus` (Russian) | 8.8M |
| `zho` (Chinese) | 8.8M |
### Data Fields
- `doc_id`: unique identifier for this document
- `text`: translated passage text
## Dataset Usage
Using 🤗 Datasets:
```python
from datasets import load_dataset
dataset = load_dataset('neuclir/neumarco')
dataset['fas'] # Persian passages
dataset['rus'] # Russian passages
dataset['zho'] # Chinese passages
```
提供机构:
neuclir
原始信息汇总
数据集概述
数据集名称
NeuMARCO
数据集描述
该数据集是为TREC 2022 NeuCLIR Track创建的,包含从msmarco-passage数据集翻译成中文、波斯语和俄语的文档。
语言
- 中文
- 波斯语
- 俄语
数据集结构
数据实例
| 分割 | 文档数量 |
|---|---|
fas (波斯语) |
8.8M |
rus (俄语) |
8.8M |
zho (中文) |
8.8M |
数据字段
doc_id: 文档的唯一标识符text: 翻译后的文本内容
数据集使用
使用🤗 Datasets加载数据集的示例代码如下:
python from datasets import load_dataset
dataset = load_dataset(neuclir/neumarco) dataset[fas] # 波斯语文本 dataset[rus] # 俄语文本 dataset[zho] # 中语文本



