unicamp-dl/mrobust
收藏数据集概述
数据集名称
mRobust
数据集描述
mRobust 是一个多语言版本的 TREC 2004 Robust 段落排名数据集。
支持的语言
- 英语
- 中文
- 法语
- 德语
- 印度尼西亚语
- 意大利语
- 葡萄牙语
- 俄语
- 西班牙语
- 荷兰语
- 越南语
数据集结构
数据集包含特定语言的文档和查询的翻译集合。
查询示例
python
dataset = load_dataset(unicamp-dl/mrobust, queries-spanish) dataset[queries][1] {id: 302, text: ¿Está controlada la enfermedad de la poliomielitis (polio) en el mundo?}
文档集合示例
python
dataset = load_dataset(unicamp-dl/mrobust, collection-portuguese) dataset[collection][5] {id: FT931-16660, text: 930105 FT 05 JAN 93 / Cenelec: Correção O endereço do Cenelec, Comitê Europeu de Normalização Eletrotécnica, estava incorreto na edição de ontem. É Rue de Stassart 35, B-1050, Bruxelas, Tel (322) 519 6871. CEN, Comitê Europeu de Normalização, está localizado na Rue de Stassart 36, B-1050, Bruxelas, Tel 519 6811.}
引用信息
@misc{https://doi.org/10.48550/arxiv.2209.13738, doi = {10.48550/ARXIV.2209.13738}, url = {https://arxiv.org/abs/2209.13738}, author = {Jeronymo, Vitor and Nascimento, Mauricio and Lotufo, Roberto and Nogueira, Rodrigo}, title = {mRobust04: A Multilingual Version of the TREC Robust 2004 Benchmark}, publisher = {arXiv}, year = {2022}, copyright = {Creative Commons Attribution 4.0 International} }




