nthakur/swim-ir-monolingual
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/swim-ir-monolingual
下载链接
链接失效反馈官方服务:
资源简介:
SWIM-IR(单语)数据集是一个多语言检索训练数据集,包含单语和跨语言的训练对。数据是通过使用PaLM-2模型生成的,采用了Summarize-then-Ask (STA)提示技术。数据集涵盖了多种语言,包括阿拉伯语、孟加拉语、德语、英语、西班牙语、芬兰语、法语、印地语、印度尼西亚语和约鲁巴语等。数据集的主要用途是用于研究,特别是在多语言密集检索领域。
The SWIM-IR (monolingual) dataset is a multilingual retrieval training dataset that contains both monolingual and cross-language training pairs. The data was generated using the PaLM-2 model with the Summarize-then-Ask (STA) prompting technique. This dataset covers a diverse set of languages, including Arabic, Bengali, German, English, Spanish, Finnish, French, Hindi, Indonesian, Yoruba, and others. Its primary application is for research, especially in the field of multilingual dense retrieval.
提供机构:
nthakur
原始信息汇总
数据集概述
数据集名称
- 名称: SWIM-IR (Monolingual)
数据集特征
- 语言: 包含多种语言,如阿拉伯语(ar)、孟加拉语(bn)、德语(de)、英语(en)、西班牙语(es)、芬兰语(fi)、法语(fr)、印地语(hi)、印度尼西亚语(id)、约鲁巴语(yo)等。
- 特征字段: 包括
_id、lang、code、query、title、text,均为字符串类型。
数据集分割
- 分割类型: 仅包含训练集(train)。
- 数据量: 不同语言的训练集大小不同,例如阿拉伯语训练集大小为282655146字节,包含277651个示例;德语训练集大小为312380289字节,包含446918个示例等。
数据集大小
- 下载大小: 不同语言的下载大小不同,例如阿拉伯语下载大小为139098959字节,德语下载大小为201707387字节等。
- 数据集总大小: 不同语言的数据集总大小不同,与训练集大小一致。
许可信息
- 许可: CC-BY-SA-4.0
任务类别
- 任务: 文本检索、问答
数据集创建者
- 创建方式: 机器生成
- 多语言性: 单语种
数据源
- 源数据集: 原始数据
数据集详细信息
数据集描述
- 数据内容: 包含约2800万条维基百科合成查询-段落训练对,用于单语种和跨语种检索设置。
- 数据生成方法: 使用PaLM 2模型,采用
summarize-then-ask提示技术生成查询。
数据敏感性
- 敏感性: 数据不包含敏感信息。
数据示例
- 数据字段:
lang(语言)、code(ISO代码)、query(生成查询)、_id(唯一ID)、title(维基百科文章标题)、text(维基百科文章内容)。 - 典型数据点: 例如,一个典型的数据点包含一个唯一ID、语言、ISO代码、生成的查询、文章标题和文章内容。
数据集动机
- 目的: 用于研究。
- 应用领域: 多语种密集检索、合成数据集。
数据来源
- 收集方法: 人工生成、从其他现有数据集获取。
- 数据源描述: 使用TyDI-QA、MIRACL和XTREME-UP数据集作为源数据。
- 数据集成: 数据一次性从多个源收集,为静态数据集。



