robust04-instructions-mteb
收藏Hugging Face2024-11-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jhu-clsp/robust04-instructions-mteb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是robust04-instructions数据集的新版本,经过修改以适应新的MTEB格式。数据集包含多个配置,每个配置对应不同的数据文件和特征。具体包括:corpus配置包含原始语料文档,queries配置包含原始和修改后的查询,instruction配置包含原始和修改后的查询指令,default配置包含原始的相关性判断,qrel_diff配置包含相关性判断的变化,top_ranked配置包含每个查询的顶级文档。数据集主要用于文本检索和指令检索任务,语言为英语,单语种。
提供机构:
Center for Language and Speech Processing @ JHU
创建时间:
2024-11-06
原始信息汇总
robust04-instructions-mteb 数据集概述
数据集结构
配置
-
corpus: 原始语料库文档
- 数据文件路径:
corpus/corpus-* - 分割:
corpus - 样本数量: 47492
- 特征:
_id: 字符串title: 字符串text: 字符串
- 数据文件路径:
-
queries: 包含原始和修改版本的查询
- 数据文件路径:
queries/queries-* - 分割:
queries - 样本数量: 104
- 特征:
_id: 字符串text: 字符串
- 数据文件路径:
-
instruction: 原始和修改查询的指令
- 数据文件路径:
instruction/instruction-* - 分割:
instruction - 样本数量: 104
- 特征:
query-id: 字符串instruction: 字符串
- 数据文件路径:
-
default: 原始相关性判断
- 数据文件路径:
data/default-* - 分割:
test - 样本数量: 36930
- 特征:
query-id: 字符串corpus-id: 字符串score: 浮点数 (float64)
- 数据文件路径:
-
qrel_diff: 相关性判断的变化
- 数据文件路径:
qrel_diff/qrel_diff-* - 分割:
qrel_diff - 样本数量: 52
- 特征:
query-id: 字符串corpus-ids: 字符串列表
- 数据文件路径:
-
top_ranked: 每个查询的顶级文档
- 数据文件路径:
top_ranked/top_ranked-* - 分割:
top_ranked - 样本数量: 104
- 特征:
query-id: 字符串corpus-ids: 字符串列表
- 数据文件路径:
语言与多语言性
- 语言: 英语 (en)
- 多语言性: 单语种 (monolingual)
标签与任务类别
- 标签:
- 文本检索 (text-retrieval)
- 指令检索 (instruction-retrieval)
- 任务类别:
- 文本检索 (text-retrieval)
- 任务ID:
- 文档检索 (document-retrieval)
搜集汇总
数据集介绍

构建方式
robust04-instructions-mteb数据集是基于robust04-instructions数据集的全新版本,经过重构以适应MTEB格式。该数据集通过重新组织查询结构,将原始查询与修改后的查询版本分离,并将指令部分独立为一个专用配置。此外,数据集还将相关性判断重新整理为默认配置和qrel_diff配置,以反映相关性判断的变化。
特点
该数据集包含多个配置,涵盖了原始语料库文档、原始与修改后的查询版本、针对查询的指令、原始相关性判断、相关性判断的变化以及每个查询的顶级排名文档。数据集的语言为英语,适用于文本检索和指令检索任务,具有单语言特性,专注于文档检索任务。
使用方法
使用robust04-instructions-mteb数据集时,用户可以根据需要选择不同的配置进行实验。例如,通过corpus配置访问原始文档,使用queries配置获取查询信息,或通过instruction配置获取查询指令。default配置提供原始相关性判断,qrel_diff配置则展示相关性判断的变化,而top_ranked配置则提供了每个查询的顶级排名文档。这些配置共同支持用户在文本检索和指令检索任务中进行全面分析。
背景与挑战
背景概述
robust04-instructions-mteb数据集是基于robust04-instructions数据集的新版本,旨在适应MTEB(Massive Text Embedding Benchmark)格式。该数据集由多个配置组成,包括原始语料库文档、查询及其修改版本、指令、原始相关性判断、相关性判断的变化以及每个查询的顶级排名文档。robust04-instructions-mteb的创建时间不详,但其核心研究问题聚焦于文本检索和指令检索领域,特别是在多任务嵌入基准测试中的应用。该数据集通过重新结构化查询、分离指令以及重新组织相关性判断,为文本检索任务提供了更为精细和多样化的评估工具,对提升文本检索模型的性能具有重要影响。
当前挑战
robust04-instructions-mteb数据集在解决文本检索和指令检索问题时面临多重挑战。首先,文本检索任务本身具有复杂性,尤其是在处理大规模语料库时,如何高效准确地匹配查询与相关文档仍是一个难题。其次,指令检索任务要求模型能够理解并执行复杂的指令,这对模型的语义理解能力提出了更高要求。在数据集构建过程中,如何确保查询及其修改版本的一致性、指令的清晰性以及相关性判断的准确性,都是需要克服的技术难点。此外,数据集的多配置结构虽然提供了丰富的评估维度,但也增加了数据处理和模型训练的复杂性。
常用场景
经典使用场景
在信息检索领域,robust04-instructions-mteb数据集被广泛用于评估和优化文本检索模型的性能。该数据集通过提供原始查询和修改后的查询,以及相应的指令,帮助研究者测试模型在不同查询条件下的表现。其经典使用场景包括文档检索任务,特别是在处理复杂查询和指令时,模型能够更好地理解用户意图并返回相关文档。
衍生相关工作
基于robust04-instructions-mteb数据集,研究者们开展了多项经典工作,特别是在文本检索和指令处理领域。例如,一些研究利用该数据集开发了新的检索算法,这些算法在处理复杂查询时表现出更高的准确性和鲁棒性。此外,还有研究专注于指令驱动的检索模型,这些模型能够根据用户指令动态调整检索策略,从而提升检索效果。
数据集最近研究
最新研究方向
在信息检索领域,robust04-instructions-mteb数据集的推出标志着文本检索与指令检索的深度融合。该数据集通过重构查询结构,将原始查询与修改后的查询版本分离,并专门配置了指令模块,为研究者提供了更为精细的实验环境。近年来,随着大语言模型的兴起,指令检索成为研究热点,robust04-instructions-mteb的发布为探索指令对检索效果的影响提供了重要数据支持。其独特的qrel_diff配置,能够捕捉相关性判断的变化,为研究检索系统的鲁棒性和适应性提供了新的视角。此外,top_ranked配置的引入,使得研究者能够更直观地分析检索结果的排序质量,推动了检索系统性能评估的精细化发展。这一数据集的应用,不仅提升了文本检索研究的深度,也为指令检索的标准化和规模化研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



