mFollowIR-parquet

Name: mFollowIR-parquet
Creator: Center for Language and Speech Processing @ JHU
Published: 2024-10-25 00:55:58
License: 暂无描述

Hugging Face2024-10-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jhu-clsp/mFollowIR-parquet

下载链接

链接失效反馈

官方服务：

资源简介：

mFollowIR-parquet数据集是mFollowIR数据集的parquet版本，专为多语言信息检索任务设计。它包含波斯语（fas）、俄语（rus）和中文（zho）三种语言的配置。每种语言配置包括相关性判断（原始和修改）、文档集合、带有指令的查询集以及排名靠前的文档。该数据集可以直接使用HuggingFace datasets库中的`load_dataset()`函数加载。原始数据集可以在[jhu-clsp/mFollowIR](https://huggingface.co/datasets/jhu-clsp/mFollowIR)找到。

提供机构：

Center for Language and Speech Processing @ JHU

创建时间：

2024-10-25

原始信息汇总

mFollowIR-parquet 数据集概述

数据集结构

该数据集包含以下配置，适用于每种语言（fas, rus, zho）：

配置

qrels_og_[lang]: 原始相关性判断（测试集）
qrels_changed_[lang]: 修改后的相关性判断（测试集）
corpus_[lang]: 文档集合
queries_[lang]: 查询集，包含指令
top_ranked_[lang]: 排名靠前的文档

详细信息

配置：qrels_og-fas

特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
分割:
- test: 470546 字节，12163 个样本
下载大小: 470546 字节
数据集大小: 470546 字节

配置：qrels_changed-fas

特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
分割:
- test: 470157 字节，12163 个样本
下载大小: 470157 字节
数据集大小: 470157 字节

配置：corpus-fas

特征:
- _id: 字符串
- title: 字符串
- text: 字符串
分割:
- corpus: 108126004 字节，41189 个样本
下载大小: 108126004 字节
数据集大小: 108126004 字节

配置：queries-fas

特征:
- _id: 字符串
- text: 字符串
- instruction_og: 字符串
- instruction_changed: 字符串
分割:
- queries: 37059 字节，40 个样本
下载大小: 37059 字节
数据集大小: 37059 字节

配置：top_ranked-fas

特征:
- qid: 字符串
- pid: 字符串
分割:
- top_ranked: 1531154 字节，40000 个样本
下载大小: 1531154 字节
数据集大小: 1531154 字节

配置：qrels_og-rus

特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
分割:
- test: 466885 字节，12067 个样本
下载大小: 466885 字节
数据集大小: 466885 字节

配置：qrels_changed-rus

特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
分割:
- test: 466487 字节，12067 个样本
下载大小: 466487 字节
数据集大小: 466487 字节

配置：corpus-rus

特征:
- _id: 字符串
- title: 字符串
- text: 字符串
分割:
- corpus: 100142813 字节，39326 个样本
下载大小: 100142813 字节
数据集大小: 100142813 字节

配置：queries-rus

特征:
- _id: 字符串
- text: 字符串
- instruction_og: 字符串
- instruction_changed: 字符串
分割:
- queries: 46554 字节，40 个样本
下载大小: 46554 字节
数据集大小: 46554 字节

配置：top_ranked-rus

特征:
- qid: 字符串
- pid: 字符串
分割:
- top_ranked: 1531215 字节，40000 个样本
下载大小: 1531215 字节
数据集大小: 1531215 字节

配置：qrels_og-zho

特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
分割:
- test: 492178 字节，12732 个样本
下载大小: 492178 字节
数据集大小: 492178 字节

配置：qrels_changed-zho

特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
分割:
- test: 491764 字节，12732 个样本
下载大小: 491764 字节
数据集大小: 491764 字节

配置：corpus-zho

特征:
- _id: 字符串
- title: 字符串
- text: 字符串
分割:
- corpus: 83950020 字节，41120 个样本
下载大小: 83950020 字节
数据集大小: 83950020 字节

配置：queries-zho

特征:
- _id: 字符串
- text: 字符串
- instruction_og: 字符串
- instruction_changed: 字符串
分割:
- queries: 27482 字节，43 个样本
下载大小: 27482 字节
数据集大小: 27482 字节

配置：top_ranked-zho

特征:
- qid: 字符串
- pid: 字符串
分割:
- top_ranked: 1646082 字节，43000 个样本
下载大小: 1646082 字节
数据集大小: 1646082 字节

搜集汇总

数据集介绍

构建方式

mFollowIR-parquet数据集通过将原始mFollowIR数据集转换为Parquet格式构建而成，旨在提供高效的数据加载与处理能力。该数据集涵盖了多种语言（如波斯语、俄语和中文），并包含多个配置项，如原始相关性判断、修改后的相关性判断、文档集合、查询集以及排名靠前的文档。每个配置项均以Parquet文件形式存储，便于直接通过`load_dataset()`方法加载。

特点

mFollowIR-parquet数据集的特点在于其多语言支持与丰富的配置项。数据集不仅提供了原始与修改后的相关性判断，还包含了详细的文档集合与查询集，且每个查询均附有指令说明。此外，数据集还提供了排名靠前的文档信息，为信息检索领域的研究提供了全面的数据支持。其Parquet格式的设计进一步提升了数据加载与处理的效率。

使用方法

使用mFollowIR-parquet数据集时，可通过`load_dataset()`方法加载特定配置项或多个配置项。例如，加载波斯语的查询集可使用`load_dataset("jhu-clsp/mFollowIR-parquet", "queries_fas")`，同时加载查询集与文档集合则可通过指定多个配置项实现。该数据集的设计使得研究人员能够灵活地根据需求选择所需数据，为信息检索模型的开发与评估提供了便利。

背景与挑战

背景概述

mFollowIR-parquet数据集是由约翰霍普金斯大学计算语言与语音处理实验室（JHU-CLSP）于2024年发布的多语言信息检索基准数据集。该数据集旨在评估多语言环境下指令跟随在信息检索任务中的表现。数据集涵盖了波斯语（fas）、俄语（rus）和中文（zho）三种语言，包含原始和修改后的相关性判断、文档集合、查询集以及排名靠前的文档。该数据集的发布为多语言信息检索领域的研究提供了重要的实验平台，推动了跨语言检索技术的发展。

当前挑战

mFollowIR-parquet数据集在构建和应用过程中面临多重挑战。首先，多语言信息检索任务本身具有复杂性，不同语言之间的语义差异和语法结构多样性增加了模型训练的难度。其次，数据集的构建需要确保原始和修改后的相关性判断的准确性和一致性，这对标注质量提出了较高要求。此外，文档集合的多样性和查询集的指令复杂性也对模型的泛化能力提出了挑战。最后，如何有效整合多语言数据并提升跨语言检索性能，仍是该领域亟待解决的核心问题。

常用场景

经典使用场景

mFollowIR-parquet数据集在信息检索领域中被广泛用于评估多语言指令跟随模型的性能。通过提供多种语言的查询、文档集合以及相关性判断，该数据集为研究者提供了一个标准化的测试平台，用于验证模型在不同语言环境下的检索效果。

衍生相关工作

基于mFollowIR-parquet数据集，研究者们已经开展了多项经典工作，如多语言检索模型的对比分析、指令跟随技术的改进以及跨语言检索算法的优化。这些工作不仅推动了信息检索领域的技术进步，还为多语言处理提供了新的研究方向。

数据集最近研究