mFollowIR-cross-lingual-parquet

Name: mFollowIR-cross-lingual-parquet
Creator: Center for Language and Speech Processing @ JHU
Published: 2024-10-25 01:11:16
License: 暂无描述

Hugging Face2024-10-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jhu-clsp/mFollowIR-cross-lingual-parquet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是mFollowIR跨语言数据集的parquet版本，包含三种目标语言（波斯语、俄语、中文）的配置。每种语言有五个配置：原始相关性判断（qrels_og_[lang]）、修改后的相关性判断（qrels_changed_[lang]）、文档集合（corpus_[lang]）、带有指令的查询集（queries_[lang]）和顶级文档（top_ranked_[lang]）。可以使用Hugging Face的`load_dataset()`函数直接加载该数据集。

提供机构：

Center for Language and Speech Processing @ JHU

创建时间：

2024-10-25

原始信息汇总

mFollowIR-cross-lingual-parquet 数据集概述

数据集结构

该数据集包含以下配置，针对每种目标语言（fas, rus, zho）：

配置

qrels_og_[lang]: 原始相关性判断（test 分割）
qrels_changed_[lang]: 修改后的相关性判断（test 分割）
corpus_[lang]: 文档集合
queries_[lang]: 查询集，包含指令
top_ranked_[lang]: 排名靠前的文档

数据集详情

配置详情

qrels_og-fas

特征:
- query-id: string
- corpus-id: string
- score: float64
分割:
- test: 470546 字节, 12163 样本
下载大小: 470546 字节
数据集大小: 470546 字节

qrels_changed-fas

特征:
- query-id: string
- corpus-id: string
- score: float64
分割:
- test: 470157 字节, 12163 样本
下载大小: 470157 字节
数据集大小: 470157 字节

corpus-fas

特征:
- _id: string
- title: string
- text: string
分割:
- corpus: 108126004 字节, 41189 样本
下载大小: 108126004 字节
数据集大小: 108126004 字节

queries-fas

特征:
- _id: string
- text: string
- instruction_og: string
- instruction_changed: string
分割:
- queries: 28833 字节, 40 样本
下载大小: 28833 字节
数据集大小: 28833 字节

top_ranked-fas

特征:
- qid: string
- pid: string
分割:
- top_ranked: 1531154 字节, 40000 样本
下载大小: 1531154 字节
数据集大小: 1531154 字节

qrels_og-rus

特征:
- query-id: string
- corpus-id: string
- score: float64
分割:
- test: 466885 字节, 12067 样本
下载大小: 466885 字节
数据集大小: 466885 字节

qrels_changed-rus

特征:
- query-id: string
- corpus-id: string
- score: float64
分割:
- test: 466487 字节, 12067 样本
下载大小: 466487 字节
数据集大小: 466487 字节

corpus-rus

特征:
- _id: string
- title: string
- text: string
分割:
- corpus: 100142813 字节, 39326 样本
下载大小: 100142813 字节
数据集大小: 100142813 字节

queries-rus

特征:
- _id: string
- text: string
- instruction_og: string
- instruction_changed: string
分割:
- queries: 27729 字节, 40 样本
下载大小: 27729 字节
数据集大小: 27729 字节

top_ranked-rus

特征:
- qid: string
- pid: string
分割:
- top_ranked: 1531215 字节, 40000 样本
下载大小: 1531215 字节
数据集大小: 1531215 字节

qrels_og-zho

特征:
- query-id: string
- corpus-id: string
- score: float64
分割:
- test: 492178 字节, 12732 样本
下载大小: 492178 字节
数据集大小: 492178 字节

qrels_changed-zho

特征:
- query-id: string
- corpus-id: string
- score: float64
分割:
- test: 491764 字节, 12732 样本
下载大小: 491764 字节
数据集大小: 491764 字节

corpus-zho

特征:
- _id: string
- title: string
- text: string
分割:
- corpus: 83950020 字节, 41120 样本
下载大小: 83950020 字节
数据集大小: 83950020 字节

queries-zho

特征:
- _id: string
- text: string
- instruction_og: string
- instruction_changed: string
分割:
- queries: 29669 字节, 43 样本
下载大小: 29669 字节
数据集大小: 29669 字节

top_ranked-zho

特征:
- qid: string
- pid: string
分割:
- top_ranked: 1646082 字节, 43000 样本
下载大小: 1646082 字节
数据集大小: 1646082 字节

搜集汇总

数据集介绍

构建方式

mFollowIR-cross-lingual-parquet数据集通过将原始mFollowIR跨语言数据集转换为Parquet格式构建而成，旨在提供高效的数据加载与处理能力。该数据集涵盖了波斯语（fas）、俄语（rus）和中文（zho）三种目标语言，每种语言均包含多个配置，如原始相关性判断、修改后的相关性判断、文档集合、查询集及排名靠前的文档。数据以Parquet文件形式存储，支持直接通过`load_dataset()`函数加载，极大简化了数据访问流程。

特点

mFollowIR-cross-lingual-parquet数据集以其跨语言特性为核心，涵盖多种语言的信息检索任务。每种语言配置均包含丰富的结构化数据，如查询与文档的关联评分、文档标题与正文内容、查询指令等。数据集特别提供了原始与修改后的相关性判断，为研究指令对信息检索的影响提供了独特视角。此外，数据以Parquet格式存储，具有高效压缩与快速读取的优势，适用于大规模数据处理与分析。

使用方法

使用mFollowIR-cross-lingual-parquet数据集时，可通过Hugging Face的`datasets`库直接加载所需配置。用户可指定目标语言及具体配置，如查询集或文档集合，实现灵活的数据访问。支持单配置或多配置加载，满足不同研究需求。加载后的数据集可直接用于信息检索模型的训练与评估，为跨语言指令跟随研究提供高质量数据支持。

背景与挑战

背景概述

mFollowIR-cross-lingual-parquet数据集由约翰霍普金斯大学计算语言与语音处理实验室（JHU-CLSP）于2024年发布，旨在为多语言信息检索领域提供基准测试。该数据集的核心研究问题在于评估模型在多语言环境下遵循指令进行信息检索的能力。数据集涵盖了波斯语（fas）、俄语（rus）和中文（zho）三种语言，包含原始和修改后的相关性判断、文档集合、查询集以及排名靠前的文档。该数据集的发布为多语言信息检索领域的研究提供了重要的数据支持，推动了跨语言信息检索技术的发展。

当前挑战

mFollowIR-cross-lingual-parquet数据集在构建和应用过程中面临多重挑战。首先，多语言信息检索的复杂性要求模型能够处理不同语言之间的语义差异和语法结构，这对模型的跨语言理解能力提出了较高要求。其次，数据集的构建需要确保不同语言版本的数据质量和一致性，这对数据标注和清洗工作提出了严格的标准。此外，如何在多语言环境下准确评估模型的表现，尤其是在不同语言之间的性能差异，也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建过程，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

mFollowIR-cross-lingual-parquet数据集在跨语言信息检索领域具有广泛的应用。该数据集通过提供多种语言的查询、文档集合以及相关性判断，为研究者提供了一个标准化的测试平台。特别是在多语言环境下，该数据集能够帮助评估和比较不同信息检索模型的性能，尤其是在指令跟随任务中的表现。

解决学术问题

该数据集解决了跨语言信息检索中的关键问题，尤其是在多语言环境下如何有效评估模型的指令跟随能力。通过提供原始和修改后的相关性判断，研究者能够深入分析模型在不同指令下的表现差异，从而推动信息检索技术的进一步发展。

衍生相关工作

基于mFollowIR-cross-lingual-parquet数据集，研究者们已经开展了多项经典工作。例如，一些研究专注于改进跨语言信息检索模型的指令跟随能力，另一些则探索了如何利用该数据集进行多语言语义匹配和文档排序优化。这些工作进一步推动了跨语言信息检索领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集