nthakur/swim-ir-cross-lingual

Name: nthakur/swim-ir-cross-lingual
Creator: nthakur
Published: 2024-04-28 05:11:45
License: 暂无描述

Hugging Face2024-04-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/nthakur/swim-ir-cross-lingual

下载链接

链接失效反馈

官方服务：

资源简介：

SWIM-IR（跨语言）数据集是一个合成的多语言检索数据集，包含约29百万个检索训练对，涵盖27种语言。每个问题都是使用PaLM-2模型通过Summarize-then-Ask (STA)提示技术自动生成的。该数据集用于跨语言检索和问答任务，支持18种语言。数据集是机器生成的，遵循CC-BY-SA 4.0许可。

提供机构：

nthakur

原始信息汇总

数据集概述

数据集名称

SWIM-IR (Cross-lingual)

数据集配置

配置名称：多个配置，包括ar, bn, de, es, fa, fi, fr, hi, id, ja, ko, ru, sw, te, th, yo, zh等。
特征：每个配置包含以下特征：
- _id：字符串类型
- lang：字符串类型
- code：字符串类型
- query：字符串类型
- title：字符串类型
- text：字符串类型
分割：每个配置包含train分割，详细信息如下：
- num_bytes：训练数据的大小，范围从654925593到737075032字节。
- num_examples：训练实例的数量，范围从901363到921701。
下载大小：数据集的下载大小，范围从407779682到441576861字节。
数据集大小：数据集的总大小，与num_bytes相同。

数据集详细信息

语言：支持18种语言，包括阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、日语、韩语、俄语、泰语、汉语等。
任务类别：文本检索、问答。
数据创建者：机器生成。
多语言性：多语言。
源数据集：原始数据。
大小类别：10M<n<100M。

数据集链接

SWIM-IR v1.0：SWIM-IR v1.0数据集下载链接

许可证

CC-BY-SA-4.0

数据集使用

该数据集适用于研究目的，特别是在跨语言和单语言环境下的文本检索和问答任务。数据集的合成性质使其成为测试和优化多语言神经检索器的理想选择。

5,000+

优质数据集

54 个

任务类型

进入经典数据集