five

news21-instructions-mteb

收藏
Hugging Face2024-11-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jhu-clsp/news21-instructions-mteb
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个新的news21-instructions数据集版本,经过修改以适应新的MTEB格式。数据集包含多个配置,每个配置对应不同的数据文件和特征。主要配置包括:corpus(原始语料文档)、queries(包含原始和修改版本的查询)、instruction(原始和修改查询的指令)、default(原始相关性判断)、qrel_diff(相关性判断的变化)、top_ranked(每个查询的顶级文档)。数据集的语言为英语,任务类别为文本检索,任务ID为文档检索。

This is a revised version of the news21-instructions dataset, modified to align with the new MTEB format. The dataset includes multiple configurations, each corresponding to distinct data files and features. The primary configurations are as follows: corpus (raw corpus documents), queries (queries containing both original and modified versions), instruction (instructions for original and modified queries), default (original relevance judgments), qrel_diff (changes in relevance judgments), and top_ranked (top-ranked documents for each query). The dataset is in English, with the task category being text retrieval and the task ID being document retrieval.
提供机构:
Center for Language and Speech Processing @ JHU
创建时间:
2024-11-06
原始信息汇总

news21-instructions-mteb 数据集概述

数据集结构

配置

  • corpus: 原始语料库文档

    • 特征:
      • _id: 字符串
      • title: 字符串
      • text: 字符串
    • 分割:
      • corpus: 30921个样本
  • queries: 包含原始和更改版本的查询

    • 特征:
      • _id: 字符串
      • text: 字符串
    • 分割:
      • queries: 64个样本
  • instruction: 原始和更改查询的指令

    • 特征:
      • query-id: 字符串
      • instruction: 字符串
    • 分割:
      • instruction: 64个样本
  • default: 原始相关性判断

    • 特征:
      • query-id: 字符串
      • corpus-id: 字符串
      • score: 浮点数 (float64)
    • 分割:
      • test: 8554个样本
  • qrel_diff: 相关性判断的变化

    • 特征:
      • query-id: 字符串
      • corpus-ids: 字符串列表
    • 分割:
      • qrel_diff: 32个样本
  • top_ranked: 每个查询的顶级文档

    • 特征:
      • query-id: 字符串
      • corpus-ids: 字符串列表
    • 分割:
      • top_ranked: 64个样本

语言与多语言性

  • 语言: 英语 (en)
  • 多语言性: 单语种 (monolingual)

标签与任务类别

  • 标签:
    • 文本检索 (text-retrieval)
    • 指令检索 (instruction-retrieval)
  • 任务类别:
    • 文本检索 (text-retrieval)
  • 任务ID:
    • 文档检索 (document-retrieval)
搜集汇总
数据集介绍
main_image_url
构建方式
news21-instructions-mteb数据集的构建基于新闻文本检索领域的最新需求,采用了MTEB格式进行重构。该数据集通过重新组织查询结构,将原始查询与修改后的查询版本分离,并将指令部分独立为一个专用配置。此外,数据集还重新整理了相关性判断,分为默认配置和qrel_diff配置,以反映相关性判断的变化。
使用方法
使用news21-instructions-mteb数据集时,用户可以根据不同配置进行任务定制。通过corpus配置访问原始文档,queries配置获取查询信息,instruction配置提供查询指令,default配置用于原始相关性判断,qrel_diff配置分析相关性变化,top_ranked配置则提供每个查询的顶级文档。该数据集适用于评估文本检索系统的性能,特别是在处理指令驱动的检索任务时表现出色。
背景与挑战
背景概述
news21-instructions-mteb数据集是news21-instructions数据集的新版本,经过调整以适应MTEB(Massive Text Embedding Benchmark)格式。该数据集由多个配置组成,包括原始语料库文档、查询及其修改版本、指令、原始相关性判断、相关性判断的变化以及每个查询的顶级排名文档。该数据集的主要研究问题集中在文本检索和指令检索领域,旨在通过提供多样化的查询和指令,推动文本嵌入和检索模型的发展。其创建时间虽未明确提及,但可以推测其基于MTEB框架的更新,反映了近年来文本检索领域对更复杂任务和多样化数据的需求。
当前挑战
news21-instructions-mteb数据集在文本检索领域面临多重挑战。首先,如何有效处理查询的原始版本与修改版本之间的差异,以确保模型能够准确理解并响应不同形式的查询,是一个核心问题。其次,数据集构建过程中需要精确分离和标注指令、相关性判断及其变化,这对数据标注的准确性和一致性提出了较高要求。此外,如何在保持数据集多样性的同时,确保其在不同检索任务中的通用性和可扩展性,也是构建过程中需要解决的关键问题。这些挑战不仅影响了数据集的质量,也对后续模型训练和评估提出了更高的标准。
常用场景
经典使用场景
在文本检索领域,news21-instructions-mteb数据集被广泛应用于评估和优化信息检索系统。通过其包含的原始和修改后的查询版本,研究人员能够深入分析不同查询策略对检索效果的影响,进而提升检索系统的准确性和效率。
解决学术问题
该数据集有效解决了文本检索系统中查询优化和相关性判断的学术难题。通过提供详细的查询变化和相关性差异,研究人员能够精确评估不同检索算法的性能,推动信息检索技术的理论发展和实践应用。
实际应用
在实际应用中,news21-instructions-mteb数据集被用于构建和测试智能搜索引擎、推荐系统等。其丰富的查询和文档数据为系统提供了多样化的测试场景,帮助开发者在真实环境中优化检索算法,提升用户体验。
数据集最近研究
最新研究方向
在信息检索领域,news21-instructions-mteb数据集的最新研究方向聚焦于指令检索与文本检索的深度融合。随着大语言模型和生成式AI技术的迅猛发展,如何通过指令优化检索效果成为研究热点。该数据集通过分离指令配置,提供了原始查询与修改后查询的对比,为研究指令对检索结果的影响提供了丰富的数据支持。此外,qrel_diff配置的引入,使得研究者能够深入分析相关性判断的变化,进一步探索检索系统的鲁棒性与适应性。这些创新不仅推动了指令检索技术的发展,也为多任务评估基准(MTEB)的完善提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作