nthakur/swim-ir-cross-lingual
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/swim-ir-cross-lingual
下载链接
链接失效反馈官方服务:
资源简介:
SWIM-IR(跨语言)数据集是一个合成的多语言检索数据集,包含约29百万个检索训练对,涵盖27种语言。每个问题都是使用PaLM-2模型通过Summarize-then-Ask (STA)提示技术自动生成的。该数据集用于跨语言检索和问答任务,支持18种语言。数据集是机器生成的,遵循CC-BY-SA 4.0许可。
SWIM-IR(跨语言)数据集是一个合成的多语言检索数据集,包含约29百万个检索训练对,涵盖27种语言。每个问题都是使用PaLM-2模型通过Summarize-then-Ask (STA)提示技术自动生成的。该数据集用于跨语言检索和问答任务,支持18种语言。数据集是机器生成的,遵循CC-BY-SA 4.0许可。
提供机构:
nthakur
原始信息汇总
数据集概述
数据集名称
- SWIM-IR (Cross-lingual)
数据集配置
- 配置名称:多个配置,包括
ar,bn,de,es,fa,fi,fr,hi,id,ja,ko,ru,sw,te,th,yo,zh等。 - 特征:每个配置包含以下特征:
_id:字符串类型lang:字符串类型code:字符串类型query:字符串类型title:字符串类型text:字符串类型
- 分割:每个配置包含
train分割,详细信息如下:- num_bytes:训练数据的大小,范围从654925593到737075032字节。
- num_examples:训练实例的数量,范围从901363到921701。
- 下载大小:数据集的下载大小,范围从407779682到441576861字节。
- 数据集大小:数据集的总大小,与
num_bytes相同。
数据集详细信息
- 语言:支持18种语言,包括阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、日语、韩语、俄语、泰语、汉语等。
- 任务类别:文本检索、问答。
- 数据创建者:机器生成。
- 多语言性:多语言。
- 源数据集:原始数据。
- 大小类别:10M<n<100M。
数据集链接
- SWIM-IR v1.0:SWIM-IR v1.0数据集下载链接
许可证
- CC-BY-SA-4.0
数据集使用
- 该数据集适用于研究目的,特别是在跨语言和单语言环境下的文本检索和问答任务。数据集的合成性质使其成为测试和优化多语言神经检索器的理想选择。



