five

castorini/mr-tydi-corpus

收藏
Hugging Face2022-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/castorini/mr-tydi-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Mr. TyDi是一个多语言基准数据集,基于TyDi构建,涵盖11种类型多样的语言,包括阿拉伯语、孟加拉语、英语、芬兰语、印尼语、日语、韩语、俄语、斯瓦希里语、泰卢固语和泰语。该数据集专门用于单语检索,特别是评估学习到的密集表示的排名。数据集的唯一配置是语言,所有三个折叠(训练、开发和测试)共享相同的语料库,因此每个语言下只有一个训练折叠。
提供机构:
castorini
原始信息汇总

数据集概述

Mr. TyDi 是一个多语言基准数据集,基于 TyDi,涵盖了十一种类型多样的语言。它专门设计用于单语言检索,特别是评估使用学习密集表示的排名。

数据集结构

数据集的唯一配置是 language。由于所有三个折叠(train、dev 和 test)共享相同的语料库,每个语言下只有一个 train 折叠,与 castorini/mr-tydi 不同。

文档数据条目的示例如下: json { docid: 25#0, title: Autism, text: Autism is a developmental disorder characterized by difficulties with social interaction and communication, ... }

加载数据集

加载数据集的示例如下: python language = english dataset = load_dataset(castorini/mr-tydi-corpus, language, train)

引用信息

plaintext @article{mrtydi, title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin}, year={2021}, journal={arXiv:2108.08787}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作