core17-instructions-mteb

Name: core17-instructions-mteb
Creator: Center for Language and Speech Processing @ JHU
Published: 2024-11-06 03:00:04
License: 暂无描述

Hugging Face2024-11-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/jhu-clsp/core17-instructions-mteb

下载链接

链接失效反馈

官方服务：

资源简介：

数据集core17-instructions-mteb是一个经过修改以适应新MTEB格式的core17-instructions数据集的新版本。它包含了多个配置，每个配置都有特定的数据文件和特征。具体配置包括：corpus（原始语料库文档）、queries（包含原始和修改版本的查询）、instruction（原始和修改查询的指令）、default（原始相关性判断）、qrel_diff（相关性判断的变化）、top_ranked（每个查询的顶级文档）。每个配置都有其特定的特征和分割，如corpus配置包含文档的ID、标题和文本，而queries配置包含查询的ID和文本。数据集主要用于文本检索和指令检索任务，语言为英语，是单语种数据集。

提供机构：

Center for Language and Speech Processing @ JHU

创建时间：

2024-11-06

原始信息汇总

core17-instructions-mteb 数据集概述

数据集结构

配置

corpus: 原始语料库文档
- 特征:
  - _id: 字符串
  - title: 字符串
  - text: 字符串
- 分割:
  - corpus: 19899个样本
queries: 包含原始和修改版本的查询
- 特征:
  - _id: 字符串
  - text: 字符串
- 分割:
  - queries: 40个样本
instruction: 原始和修改查询的指令
- 特征:
  - query-id: 字符串
  - instruction: 字符串
- 分割:
  - instruction: 40个样本
default: 原始相关性判断
- 特征:
  - query-id: 字符串
  - corpus-id: 字符串
  - score: 浮点数 (float64)
- 分割:
  - test: 9480个样本
qrel_diff: 相关性判断的变化
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - qrel_diff: 20个样本
top_ranked: 每个查询的顶级文档
- 特征:
  - query-id: 字符串
  - corpus-ids: 字符串列表
- 分割:
  - top_ranked: 40个样本

语言与多语言性

语言: 英语 (en)
多语言性: 单语种 (monolingual)

标签与任务类别

标签:
- 文本检索 (text-retrieval)
- 指令检索 (instruction-retrieval)
任务类别: 文本检索 (text-retrieval)
任务ID: 文档检索 (document-retrieval)

搜集汇总

数据集介绍

构建方式

core17-instructions-mteb数据集是基于core17-instructions数据集的新版本，经过重构以适应MTEB格式。该数据集通过将查询分为原始版本和修改版本，并将指令单独配置，重新组织了相关性判断。具体而言，数据集包含六个配置：corpus、queries、instruction、default、qrel_diff和top_ranked，分别对应原始文档、查询、指令、原始相关性判断、相关性判断变化以及每个查询的顶级排名文档。

特点

core17-instructions-mteb数据集的特点在于其结构化的配置和多样化的查询版本。数据集不仅保留了原始查询和相关性判断，还引入了修改后的查询版本和相应的指令，使得用户能够对比不同查询版本的效果。此外，数据集还提供了相关性判断的变化和每个查询的顶级排名文档，为文本检索任务提供了丰富的实验数据。

使用方法

使用core17-instructions-mteb数据集时，用户可以根据不同配置进行实验。通过corpus配置获取原始文档，queries配置获取查询，instruction配置获取指令，default配置获取原始相关性判断，qrel_diff配置获取相关性判断的变化，top_ranked配置获取每个查询的顶级排名文档。用户可以根据需要选择不同配置进行文本检索和指令检索任务，对比不同查询版本的效果，评估模型性能。

背景与挑战

背景概述

core17-instructions-mteb数据集是core17-instructions数据集的新版本，经过调整以适应MTEB格式。该数据集由多个配置组成，包括原始语料库文档、查询的原始和修改版本、指令、原始相关性判断、相关性判断的变化以及每个查询的顶级排名文档。该数据集主要用于文本检索和指令检索任务，旨在提供更结构化的数据格式，以支持相关领域的研究。其创建时间不详，但显然是为了满足MTEB框架的需求而进行的更新。该数据集在文本检索领域具有重要影响力，为研究人员提供了丰富的实验数据，推动了文本检索技术的发展。

当前挑战

core17-instructions-mteb数据集在解决文本检索和指令检索问题时面临多重挑战。首先，文本检索任务本身具有复杂性，需要处理大量非结构化文本数据，并准确匹配查询与相关文档。其次，指令检索任务要求模型能够理解并执行复杂的指令，这对模型的语义理解能力提出了更高要求。在数据集构建过程中，研究人员需要确保数据的多样性和代表性，同时保持数据的一致性和准确性。此外，将数据集调整为MTEB格式时，需重新组织查询、指令和相关性判断，确保新格式与原有数据兼容，并满足MTEB框架的要求。这些挑战共同构成了该数据集在研究和应用中的主要难点。

常用场景

经典使用场景

在文本检索领域，core17-instructions-mteb数据集被广泛用于评估和优化信息检索系统的性能。其独特的结构允许研究人员在原始查询和修改后的查询之间进行对比，从而深入分析查询变化对检索结果的影响。

实际应用

在实际应用中，core17-instructions-mteb数据集被用于开发和测试搜索引擎、推荐系统等需要高效文本检索技术的应用。其丰富的查询和文档对为系统提供了多样化的测试场景，确保系统在不同查询条件下的稳定性和准确性。

衍生相关工作

基于core17-instructions-mteb数据集，许多经典的研究工作得以展开。例如，研究人员利用该数据集开发了新的检索算法，提出了改进的相关性判断模型，并探索了查询优化策略的有效性，这些工作显著推动了信息检索领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集