five

nthakur/swim-ir-cross-lingual

收藏
Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/swim-ir-cross-lingual
下载链接
链接失效反馈
官方服务:
资源简介:
SWIM-IR(跨语言)数据集是一个合成的多语言检索数据集,包含约29百万个检索训练对,涵盖27种语言。每个问题都是使用PaLM-2模型通过Summarize-then-Ask (STA)提示技术自动生成的。该数据集用于跨语言检索和问答任务,支持18种语言。数据集是机器生成的,遵循CC-BY-SA 4.0许可。

SWIM-IR(跨语言)数据集是一个合成的多语言检索数据集,包含约29百万个检索训练对,涵盖27种语言。每个问题都是使用PaLM-2模型通过Summarize-then-Ask (STA)提示技术自动生成的。该数据集用于跨语言检索和问答任务,支持18种语言。数据集是机器生成的,遵循CC-BY-SA 4.0许可。
提供机构:
nthakur
原始信息汇总

数据集概述

数据集名称

  • SWIM-IR (Cross-lingual)

数据集配置

  • 配置名称:多个配置,包括ar, bn, de, es, fa, fi, fr, hi, id, ja, ko, ru, sw, te, th, yo, zh等。
  • 特征:每个配置包含以下特征:
    • _id:字符串类型
    • lang:字符串类型
    • code:字符串类型
    • query:字符串类型
    • title:字符串类型
    • text:字符串类型
  • 分割:每个配置包含train分割,详细信息如下:
    • num_bytes:训练数据的大小,范围从654925593到737075032字节。
    • num_examples:训练实例的数量,范围从901363到921701。
  • 下载大小:数据集的下载大小,范围从407779682到441576861字节。
  • 数据集大小:数据集的总大小,与num_bytes相同。

数据集详细信息

  • 语言:支持18种语言,包括阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、日语、韩语、俄语、泰语、汉语等。
  • 任务类别:文本检索、问答。
  • 数据创建者:机器生成。
  • 多语言性:多语言。
  • 源数据集:原始数据。
  • 大小类别:10M<n<100M。

数据集链接

许可证

  • CC-BY-SA-4.0

数据集使用

  • 该数据集适用于研究目的,特别是在跨语言和单语言环境下的文本检索和问答任务。数据集的合成性质使其成为测试和优化多语言神经检索器的理想选择。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作