five

macavaney/miracl-noauth

收藏
Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/macavaney/miracl-noauth
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL-corpus数据集是一个多语言文本检索数据集,支持阿拉伯语、孟加拉语、英语、西班牙语、波斯语、芬兰语、法语、印地语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语和中文。该数据集由专家生成注释,适用于文档检索任务,采用Apache 2.0许可证。此版本是原始数据集的克隆,无需认证,但详细信息需参考原始数据集。

MIRACL-corpus数据集是一个多语言文本检索数据集,支持阿拉伯语、孟加拉语、英语、西班牙语、波斯语、芬兰语、法语、印地语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语和中文。该数据集由专家生成注释,适用于文档检索任务,采用Apache 2.0许可证。此版本是原始数据集的克隆,无需认证,但详细信息需参考原始数据集。
提供机构:
macavaney
原始信息汇总

数据集概述

数据集名称

  • 名称:MIRACL-corpus

语言支持

  • 支持语言:阿拉伯语 (ar)、孟加拉语 (bn)、英语 (en)、西班牙语 (es)、波斯语 (fa)、芬兰语 (fi)、法语 (fr)、印地语 (hi)、印度尼西亚语 (id)、日语 (ja)、韩语 (ko)、俄语 (ru)、斯瓦希里语 (sw)、泰卢固语 (te)、泰语 (th)、中文 (zh)

多语言性

  • 多语言支持

任务类别

  • 任务类别:文本检索 (text-retrieval)

许可证

  • 许可证:Apache-2.0

任务ID

  • 任务ID:文档检索 (document-retrieval)

源数据集

  • 源数据集:miracl/miracl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作