mFollowIR-cross-lingual-parquet-mteb

Name: mFollowIR-cross-lingual-parquet-mteb
Creator: Center for Language and Speech Processing @ JHU
Published: 2024-11-06 05:35:53
License: 暂无描述

Hugging Face2024-11-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jhu-clsp/mFollowIR-cross-lingual-parquet-mteb

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个跨语言的多任务评估基准（MTEB）格式的新版本，包含波斯语（fas）、俄语（rus）和中文（zho）三种语言的配置。每个语言配置包括原始语料库文档、包含原始和修改版本的查询、查询的指令、原始相关性判断、相关性判断的变化以及每个查询的顶级文档。

提供机构：

Center for Language and Speech Processing @ JHU

创建时间：

2024-11-06

原始信息汇总

mFollowIR-cross-lingual-mteb 数据集概述

数据集结构

语言: 波斯语 (fas)

corpus-fas: 原始语料库文档
- 特征:
  - _id: 字符串
  - title: 字符串
  - text: 字符串
- 分割:
  - corpus: 41189个样本, 108126004字节
queries-fas: 包含原始和修改版本的查询
- 特征:
  - _id: 字符串
  - text: 字符串
- 分割:
  - queries: 80个样本, 28833字节
instruction-fas: 原始和修改查询的指令
- 特征:
  - query-id: 字符串
  - instruction: 字符串
- 分割:
  - instruction: 80个样本
default-fas: 原始相关性判断
- 特征:
  - query-id: 字符串
  - corpus-id: 字符串
  - score: 浮点数 (float64)
- 分割:
  - test: 24326个样本, 470546字节
qrel_diff-fas: 相关性判断的变化
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - qrel_diff: 40个样本
top_ranked-fas: 每个查询的顶级文档
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - top_ranked: 80个样本

语言: 俄语 (rus)

corpus-rus: 原始语料库文档
- 特征:
  - _id: 字符串
  - title: 字符串
  - text: 字符串
- 分割:
  - corpus: 39326个样本, 100142813字节
queries-rus: 包含原始和修改版本的查询
- 特征:
  - _id: 字符串
  - text: 字符串
- 分割:
  - queries: 80个样本, 27729字节
instruction-rus: 原始和修改查询的指令
- 特征:
  - query-id: 字符串
  - instruction: 字符串
- 分割:
  - instruction: 80个样本
default-rus: 原始相关性判断
- 特征:
  - query-id: 字符串
  - corpus-id: 字符串
  - score: 浮点数 (float64)
- 分割:
  - test: 24134个样本, 466885字节
qrel_diff-rus: 相关性判断的变化
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - qrel_diff: 39个样本
top_ranked-rus: 每个查询的顶级文档
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - top_ranked: 80个样本

语言: 中文 (zho)

corpus-zho: 原始语料库文档
- 特征:
  - _id: 字符串
  - title: 字符串
  - text: 字符串
- 分割:
  - corpus: 41120个样本, 83950020字节
queries-zho: 包含原始和修改版本的查询
- 特征:
  - _id: 字符串
  - text: 字符串
- 分割:
  - queries: 86个样本, 29669字节
instruction-zho: 原始和修改查询的指令
- 特征:
  - query-id: 字符串
  - instruction: 字符串
- 分割:
  - instruction: 86个样本
default-zho: 原始相关性判断
- 特征:
  - query-id: 字符串
  - corpus-id: 字符串
  - score: 浮点数 (float64)
- 分割:
  - test: 25464个样本, 492178字节
qrel_diff-zho: 相关性判断的变化
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - qrel_diff: 41个样本
top_ranked-zho: 每个查询的顶级文档
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - top_ranked: 86个样本

搜集汇总

数据集介绍

构建方式

mFollowIR-cross-lingual-parquet-mteb数据集是基于mFollowIR-cross-lingual数据集的新版本，经过重新构建以适应MTEB格式。该数据集通过将查询分为原始版本和修改版本，并将指令单独配置，重新组织了相关性判断，分为默认配置和qrel_diff配置。每个语言版本均包含原始语料库文档、查询、指令、原始相关性判断、相关性判断变化以及每个查询的顶级排名文档。

特点

该数据集的特点在于其多语言支持，涵盖了波斯语、俄语和中文三种语言。每个语言版本均提供了完整的语料库、查询、指令和相关性判断，确保了数据的全面性和多样性。数据集还特别区分了原始查询与修改查询，以及原始相关性判断与变化后的判断，为研究者提供了丰富的实验素材。此外，每个查询的顶级排名文档也为信息检索任务提供了重要参考。

使用方法

使用该数据集时，研究者可以根据需要选择特定语言的配置进行实验。通过加载corpus、queries、instruction、default、qrel_diff和top_ranked等配置，可以分别获取语料库文档、查询、指令、原始相关性判断、相关性判断变化以及顶级排名文档。这些数据可以用于训练和评估跨语言信息检索模型，特别是在多语言环境下的查询扩展和相关性判断优化任务中。

背景与挑战

背景概述

mFollowIR-cross-lingual-parquet-mteb数据集是mFollowIR-cross-lingual数据集的新版本，专为适应MTEB格式而设计。该数据集由多个语言配置组成，包括波斯语（fas）、俄语（rus）和中文（zho），旨在支持跨语言信息检索任务。数据集的核心研究问题在于如何有效处理多语言环境下的查询与文档匹配，以及如何通过指令和相关性判断提升检索系统的性能。该数据集的创建标志着跨语言信息检索领域的一个重要进展，为研究人员提供了一个标准化的评估平台，推动了多语言信息处理技术的发展。

当前挑战

mFollowIR-cross-lingual-parquet-mteb数据集在构建和应用过程中面临多重挑战。首先，跨语言信息检索任务本身具有复杂性，不同语言之间的语义差异和表达方式使得查询与文档的匹配难度显著增加。其次，数据集的构建需要处理大量多语言文本，确保其质量和一致性，这对数据清洗和标注提出了较高要求。此外，如何有效利用指令和相关性判断来优化检索系统，也是一个亟待解决的技术难题。这些挑战不仅考验了数据集的构建方法，也对后续的算法设计和系统优化提出了更高的标准。

常用场景

经典使用场景

在跨语言信息检索领域，mFollowIR-cross-lingual-parquet-mteb数据集被广泛应用于评估和优化多语言检索模型的性能。该数据集通过提供多种语言的语料库、查询和相关性判断，使得研究人员能够在波斯语、俄语和中文等多种语言环境下测试模型的跨语言检索能力。经典的使用场景包括跨语言检索模型的训练与评估，特别是在处理多语言查询与文档匹配时，该数据集提供了丰富的实验数据。

实际应用

在实际应用中，mFollowIR-cross-lingual-parquet-mteb数据集被广泛应用于多语言搜索引擎的开发与优化。通过利用该数据集，企业能够构建更加精准的跨语言检索系统，提升用户在多种语言环境下的搜索体验。此外，该数据集还可用于多语言内容推荐系统的开发，帮助平台更好地理解用户的多语言需求，提供个性化的内容推荐。

衍生相关工作

基于mFollowIR-cross-lingual-parquet-mteb数据集，衍生了一系列经典的跨语言信息检索研究工作。例如，研究人员利用该数据集开发了多种跨语言检索模型，如基于神经网络的跨语言嵌入模型和跨语言检索排序算法。这些工作不仅提升了跨语言检索的准确性，还为多语言信息处理领域提供了新的研究方向。此外，该数据集还被用于多语言自然语言处理任务的研究，如跨语言文本分类和跨语言问答系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集