castorini/mr-tydi-corpus

Name: castorini/mr-tydi-corpus
Creator: castorini
Published: 2022-10-12 20:25:51
License: 暂无描述

Hugging Face2022-10-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/castorini/mr-tydi-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Mr. TyDi是一个多语言基准数据集，基于TyDi构建，涵盖11种类型多样的语言，包括阿拉伯语、孟加拉语、英语、芬兰语、印尼语、日语、韩语、俄语、斯瓦希里语、泰卢固语和泰语。该数据集专门用于单语检索，特别是评估学习到的密集表示的排名。数据集的唯一配置是语言，所有三个折叠（训练、开发和测试）共享相同的语料库，因此每个语言下只有一个训练折叠。

提供机构：

castorini

原始信息汇总

数据集概述

Mr. TyDi 是一个多语言基准数据集，基于 TyDi，涵盖了十一种类型多样的语言。它专门设计用于单语言检索，特别是评估使用学习密集表示的排名。

数据集结构

数据集的唯一配置是 language。由于所有三个折叠（train、dev 和 test）共享相同的语料库，每个语言下只有一个 train 折叠，与 castorini/mr-tydi 不同。

文档数据条目的示例如下： json { docid: 25#0, title: Autism, text: Autism is a developmental disorder characterized by difficulties with social interaction and communication, ... }

加载数据集

加载数据集的示例如下： python language = english dataset = load_dataset(castorini/mr-tydi-corpus, language, train)

引用信息

plaintext @article{mrtydi, title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin}, year={2021}, journal={arXiv:2108.08787}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集