castorini/mr-tydi-corpus
收藏Hugging Face2022-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/mr-tydi-corpus
下载链接
链接失效反馈官方服务:
资源简介:
Mr. TyDi是一个多语言基准数据集,基于TyDi构建,涵盖11种类型多样的语言,包括阿拉伯语、孟加拉语、英语、芬兰语、印尼语、日语、韩语、俄语、斯瓦希里语、泰卢固语和泰语。该数据集专门用于单语检索,特别是评估学习到的密集表示的排名。数据集的唯一配置是语言,所有三个折叠(训练、开发和测试)共享相同的语料库,因此每个语言下只有一个训练折叠。
提供机构:
castorini
原始信息汇总
数据集概述
Mr. TyDi 是一个多语言基准数据集,基于 TyDi,涵盖了十一种类型多样的语言。它专门设计用于单语言检索,特别是评估使用学习密集表示的排名。
数据集结构
数据集的唯一配置是 language。由于所有三个折叠(train、dev 和 test)共享相同的语料库,每个语言下只有一个 train 折叠,与 castorini/mr-tydi 不同。
文档数据条目的示例如下: json { docid: 25#0, title: Autism, text: Autism is a developmental disorder characterized by difficulties with social interaction and communication, ... }
加载数据集
加载数据集的示例如下: python language = english dataset = load_dataset(castorini/mr-tydi-corpus, language, train)
引用信息
plaintext @article{mrtydi, title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin}, year={2021}, journal={arXiv:2108.08787}, }



