mFollowIR-parquet-mteb

Name: mFollowIR-parquet-mteb
Creator: Center for Language and Speech Processing @ JHU
Published: 2024-11-06 05:35:00
License: 暂无描述

Hugging Face2024-11-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jhu-clsp/mFollowIR-parquet-mteb

下载链接

链接失效反馈

官方服务：

资源简介：

mFollowIR-mteb数据集是一个经过重组以适应MTEB格式的新版本。该数据集包含三种语言（波斯语、俄语和中文）的多个配置。每种语言配置包括原始文档语料库、包含原始和更改版本的查询、查询的指令、原始相关性判断、相关性判断的变化以及每个查询的顶级文档。数据集的结构旨在促进信息检索任务的研究和开发，特别是关注查询变体和相关性判断。

提供机构：

Center for Language and Speech Processing @ JHU

创建时间：

2024-11-06

原始信息汇总

mFollowIR-mteb 数据集概述

数据集结构

语言: fas

corpus-fas: 原始语料库文档
- 特征:
  - _id: string
  - title: string
  - text: string
- 分割:
  - corpus: 41189个样本, 108126004字节
queries-fas: 包含原始和修改版本的查询
- 特征:
  - _id: string
  - text: string
- 分割:
  - queries: 80个样本, 37059字节
instruction-fas: 原始和修改查询的指令
- 特征:
  - query-id: string
  - instruction: string
- 分割:
  - instruction: 80个样本
default-fas: 原始相关性判断
- 特征:
  - query-id: string
  - corpus-id: string
  - score: float64
- 分割:
  - test: 24326个样本, 470546字节
qrel_diff-fas: 相关性判断的变化
- 特征:
  - query-id: string
  - corpus-ids: list[string]
- 分割:
  - qrel_diff: 40个样本
top_ranked-fas: 每个查询的顶级文档
- 特征:
  - query-id: string
  - corpus-ids: list[string]
- 分割:
  - top_ranked: 80个样本

语言: rus

corpus-rus: 原始语料库文档
- 特征:
  - _id: string
  - title: string
  - text: string
- 分割:
  - corpus: 39326个样本, 100142813字节
queries-rus: 包含原始和修改版本的查询
- 特征:
  - _id: string
  - text: string
- 分割:
  - queries: 80个样本, 46554字节
instruction-rus: 原始和修改查询的指令
- 特征:
  - query-id: string
  - instruction: string
- 分割:
  - instruction: 80个样本
default-rus: 原始相关性判断
- 特征:
  - query-id: string
  - corpus-id: string
  - score: float64
- 分割:
  - test: 24134个样本, 466885字节
qrel_diff-rus: 相关性判断的变化
- 特征:
  - query-id: string
  - corpus-ids: list[string]
- 分割:
  - qrel_diff: 39个样本
top_ranked-rus: 每个查询的顶级文档
- 特征:
  - query-id: string
  - corpus-ids: list[string]
- 分割:
  - top_ranked: 80个样本

语言: zho

corpus-zho: 原始语料库文档
- 特征:
  - _id: string
  - title: string
  - text: string
- 分割:
  - corpus: 41120个样本, 83950020字节
queries-zho: 包含原始和修改版本的查询
- 特征:
  - _id: string
  - text: string
- 分割:
  - queries: 86个样本, 27482字节
instruction-zho: 原始和修改查询的指令
- 特征:
  - query-id: string
  - instruction: string
- 分割:
  - instruction: 86个样本
default-zho: 原始相关性判断
- 特征:
  - query-id: string
  - corpus-id: string
  - score: float64
- 分割:
  - test: 25464个样本, 492178字节
qrel_diff-zho: 相关性判断的变化
- 特征:
  - query-id: string
  - corpus-ids: list[string]
- 分割:
  - qrel_diff: 41个样本
top_ranked-zho: 每个查询的顶级文档
- 特征:
  - query-id: string
  - corpus-ids: list[string]
- 分割:
  - top_ranked: 86个样本

搜集汇总

数据集介绍

构建方式

mFollowIR-parquet-mteb数据集的构建基于多语言信息检索任务的需求，通过对原始数据集进行重构以适应MTEB格式。具体而言，数据集将查询分为原始版本和修改版本，并将指令部分独立为专用配置。此外，相关性判断被重新组织为默认配置和qrel_diff配置，分别表示原始相关性判断及其变化。数据集的构建过程注重多语言支持，涵盖了波斯语、俄语和中文三种语言，每种语言均包含语料库、查询、指令、默认相关性判断、相关性变化及排名靠前的文档等配置。

特点

mFollowIR-parquet-mteb数据集的特点在于其多语言性和结构化设计。数据集支持波斯语、俄语和中文三种语言，每种语言均包含完整的语料库、查询、指令及相关性判断配置。查询部分同时包含原始版本和修改版本，便于研究查询变化对检索结果的影响。指令部分独立配置，为任务提供了明确的指导信息。相关性判断分为默认配置和qrel_diff配置，分别用于评估原始相关性及其变化。此外，数据集还提供了每种查询下排名靠前的文档，为信息检索模型的性能评估提供了丰富的数据支持。

使用方法

mFollowIR-parquet-mteb数据集的使用方法主要围绕多语言信息检索任务的评估展开。用户可通过加载不同语言的配置，获取语料库、查询、指令及相关性判断等数据。默认配置用于评估模型在原始查询下的性能，而qrel_diff配置则用于分析查询变化对检索结果的影响。指令配置为任务提供了明确的指导信息，可用于训练或评估模型在特定指令下的表现。排名靠前的文档配置可用于进一步分析模型在检索任务中的表现。数据集的使用需结合具体的研究目标，灵活选择配置以支持多语言信息检索模型的开发与评估。

背景与挑战

背景概述

mFollowIR-parquet-mteb数据集是mFollowIR数据集的新版本，专为适应MTEB（Massive Text Embedding Benchmark）格式而设计。该数据集由多个语言配置组成，包括波斯语（fas）、俄语（rus）和中文（zho），涵盖了原始语料库文档、查询、指令、相关性判断及其变化等多个方面。该数据集的创建旨在为多语言信息检索任务提供标准化的评估基准，推动跨语言信息检索技术的发展。通过将查询、指令和相关性判断进行结构化分离，mFollowIR-parquet-mteb为研究人员提供了更灵活和细粒度的实验工具，进一步促进了信息检索领域的创新。

当前挑战

mFollowIR-parquet-mteb数据集在构建和应用过程中面临多重挑战。首先，多语言信息检索任务本身具有复杂性，不同语言之间的语义差异和表达方式多样化，导致模型在跨语言检索中的表现难以统一。其次，数据集的构建需要对原始查询和相关性判断进行精确的分离和重组，这一过程对数据标注的准确性和一致性提出了极高要求。此外，如何在不同语言配置之间保持数据结构的统一性和兼容性，也是数据集构建中的一大难题。这些挑战不仅影响了数据集的构建效率，也对后续模型训练和评估的可靠性提出了更高的标准。

常用场景

经典使用场景

在信息检索领域，mFollowIR-parquet-mteb数据集被广泛用于评估和改进多语言检索系统的性能。该数据集通过提供多种语言的查询、文档和相关度标注，使得研究人员能够在不同语言环境下测试检索算法的效果。特别是在跨语言检索任务中，该数据集能够帮助研究者理解不同语言之间的语义差异，并优化检索模型的跨语言适应性。

解决学术问题

mFollowIR-parquet-mteb数据集解决了多语言信息检索中的关键问题，如跨语言语义理解、查询扩展和相关度评估。通过提供多种语言的查询和相关度标注，该数据集为研究人员提供了一个标准化的测试平台，用于验证和改进多语言检索算法。此外，数据集中的查询变化和相关度差异标注，使得研究者能够深入分析检索系统在不同语言环境下的表现，从而推动多语言检索技术的发展。

衍生相关工作

基于mFollowIR-parquet-mteb数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了多种跨语言检索模型，如基于神经网络的跨语言语义匹配算法和基于迁移学习的多语言检索系统。此外，该数据集还被用于评估和改进现有的多语言检索框架，如BERT-based跨语言检索模型和基于图神经网络的跨语言推荐系统。这些工作不仅推动了多语言检索技术的发展，还为相关领域的研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集