jhu-clsp/core17-instructions
收藏Hugging Face2026-03-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jhu-clsp/core17-instructions
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
multilinguality:
- monolingual
task_categories:
- text-retrieval
source_datasets:
- core2017
task_ids:
- document-retrieval
config_names:
- corpus
tags:
- text-retrieval
- instruction-retrieval
dataset_info:
- config_name: top_ranked
features:
- name: qid
dtype: string
- name: pid
dtype: string
splits:
- name: top_ranked
num_examples: 20000
- config_name: qrels_og
features:
- name: query-id
dtype: string
- name: corpus-id
dtype: string
- name: score
dtype: float64
splits:
- name: test
num_examples: 4740
- config_name: qrels_changed
features:
- name: query-id
dtype: string
- name: corpus-id
dtype: string
- name: score
dtype: float64
splits:
- name: test
num_examples: 4740
- config_name: corpus
features:
- name: _id
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: corpus
num_examples: 19899
- config_name: queries
features:
- name: _id
dtype: string
- name: text
dtype: string
- name: instruction_og
dtype: string
- name: instruction_changed
dtype: string
- name: keywords
dtype: string
- name: short_query
dtype: string
splits:
- name: queries
num_examples: 20
configs:
- config_name: qrels_og
data_files:
- split: test
path: qrels_og/test.jsonl
- config_name: qrels_changed
data_files:
- split: test
path: qrels_changed/test.jsonl
- config_name: corpus
data_files:
- split: corpus
path: corpus.jsonl
- config_name: queries
data_files:
- split: queries
path: queries.jsonl
- config_name: top_ranked
data_files:
- split: top_ranked
path: top_ranked.jsonl
license: mit
---
语言:
- 英语
多语言属性:
- 单语言
任务类别:
- 文本检索
源数据集:
- core2017
任务子类型:
- 文档检索
配置名称:
- 语料库
标签:
- 文本检索
- 指令检索
数据集信息:
- 配置名称:top_ranked
特征:
- 名称:qid,数据类型:字符串
- 名称:pid,数据类型:字符串
划分集:
- 名称:top_ranked,样本数量:20000
- 配置名称:qrels_og
特征:
- 名称:查询ID(query-id),数据类型:字符串
- 名称:语料库ID(corpus-id),数据类型:字符串
- 名称:得分(score),数据类型:float64
划分集:
- 名称:测试集(test),样本数量:4740
- 配置名称:qrels_changed
特征:
- 名称:查询ID(query-id),数据类型:字符串
- 名称:语料库ID(corpus-id),数据类型:字符串
- 名称:得分(score),数据类型:float64
划分集:
- 名称:测试集(test),样本数量:4740
- 配置名称:corpus
特征:
- 名称:_id,数据类型:字符串
- 名称:标题(title),数据类型:字符串
- 名称:文本内容(text),数据类型:字符串
划分集:
- 名称:corpus,样本数量:19899
- 配置名称:queries
特征:
- 名称:_id,数据类型:字符串
- 名称:文本(text),数据类型:字符串
- 名称:原始指令(instruction_og),数据类型:字符串
- 名称:修改后指令(instruction_changed),数据类型:字符串
- 名称:关键词(keywords),数据类型:字符串
- 名称:短查询(short_query),数据类型:字符串
划分集:
- 名称:queries,样本数量:20
配置项:
- 配置名称:qrels_og
数据文件:
- 划分集:测试集(test),路径:qrels_og/test.jsonl
- 配置名称:qrels_changed
数据文件:
- 划分集:测试集(test),路径:qrels_changed/test.jsonl
- 配置名称:corpus
数据文件:
- 划分集:corpus,路径:corpus.jsonl
- 配置名称:queries
数据文件:
- 划分集:queries,路径:queries.jsonl
- 配置名称:top_ranked
数据文件:
- 划分集:top_ranked,路径:top_ranked.jsonl
许可证:MIT许可证
提供机构:
jhu-clsp
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 多语言性: 单语
- 任务类别: 文本检索
- 源数据集: core2017
- 任务ID: 文档检索
- 配置名称: corpus
- 标签: 文本检索, 指令检索
数据集配置
配置: top_ranked
- 特征:
- qid: 字符串
- pid: 字符串
- 分割: top_ranked
- 样本数: 20000
配置: qrels_og
- 特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
- 分割: test
- 样本数: 4740
配置: qrels_changed
- 特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
- 分割: test
- 样本数: 4740
配置: corpus
- 特征:
- _id: 字符串
- title: 字符串
- text: 字符串
- 分割: corpus
- 样本数: 19899
配置: queries
- 特征:
- _id: 字符串
- text: 字符串
- instruction_og: 字符串
- instruction_changed: 字符串
- keywords: 字符串
- short_query: 字符串
- 分割: queries
- 样本数: 20
数据文件
配置: qrels_og
- 分割: test
- 路径: qrels_og/test.jsonl
配置: qrels_changed
- 分割: test
- 路径: qrels_changed/test.jsonl
配置: corpus
- 分割: corpus
- 路径: corpus.jsonl
配置: queries
- 分割: queries
- 路径: queries.jsonl
配置: top_ranked
- 分割: top_ranked
- 路径: top_ranked.jsonl
搜集汇总
数据集介绍

构建方式
在信息检索领域,构建高质量的数据集对于评估检索模型性能至关重要。jhu-clsp/core17-instructions数据集基于CORE2017学术文献资源,通过精心设计的结构化流程构建而成。该数据集包含语料库、查询及关联标注三个核心组件,其中语料库收录了近两万篇学术文献的标题与正文,查询部分则提供了二十条精心设计的检索指令及其变体。数据集的构建过程注重学术资源的整合与标注的准确性,确保了数据的一致性与可靠性,为后续的检索任务奠定了坚实基础。
特点
该数据集在文本检索任务中展现出鲜明的特色,其核心在于引入了指令检索的新颖维度。每条查询不仅包含原始检索指令,还提供了经过修改的变体指令,这为研究检索模型对指令变化的鲁棒性提供了独特视角。数据集涵盖了丰富的学术文献内容,主题多样,且通过精确的关联标注(qrels)为检索结果提供了权威的评估基准。这种结构化的设计使得数据集既能支持传统的文档检索评估,又能深入探索指令语义变化对检索性能的影响。
使用方法
使用该数据集进行信息检索研究时,研究者可依据不同的配置灵活开展实验。语料库(corpus)与查询(queries)配置分别提供了检索文档集合和检索指令,是构建检索系统的基础。关联标注配置(qrels_og与qrels_changed)则对应不同指令版本下的标准答案,用于评估检索结果的准确性。典型的使用流程包括:首先利用检索模型根据查询指令从语料库中检索相关文档,随后将检索结果与对应的关联标注进行比对,计算诸如NDCG等指标以量化模型性能。数据集支持对指令敏感性进行对比分析,从而推动检索技术的进步。
背景与挑战
背景概述
在信息检索领域,指令驱动的检索任务逐渐成为研究热点,旨在探索自然语言指令如何精准引导文档检索过程。jhu-clsp/core17-instructions数据集由约翰斯·霍普金斯大学计算语言与语音处理实验室构建,其核心研究问题聚焦于评估检索系统对多样化指令的响应能力与鲁棒性。该数据集基于TREC 2017核心赛道(Core 2017)的语料库,通过引入原始指令与修改后指令的对比,为研究指令语义变化对检索效果的影响提供了重要基准。自发布以来,它推动了检索模型在复杂查询理解方面的进展,成为评估指令感知检索性能的关键资源之一。
当前挑战
该数据集致力于解决指令驱动文档检索中的核心挑战,即如何使检索模型准确解析并执行自然语言指令的细微语义差异,从而提升检索结果的相关性与一致性。在构建过程中,研究人员面临多重困难:一是需要从TREC 2017核心赛道中筛选并重构高质量的查询-文档对,确保数据覆盖多样化的主题与指令类型;二是设计并验证指令的修改版本,以平衡语义变化与检索任务的真实性,避免引入人为偏差;三是处理大规模语料库的标注与对齐问题,保证查询指令、文档内容及相关性评分的完整性与可复用性。
常用场景
经典使用场景
在信息检索领域,jhu-clsp/core17-instructions数据集为研究指令引导的文档检索提供了基准平台。该数据集基于TREC 2017核心赛道构建,包含近两万篇文档和二十条查询,每条查询均配有原始指令和修改后指令,旨在模拟用户通过自然语言指令调整检索需求的场景。经典使用场景聚焦于评估检索模型在理解复杂指令、适应查询语义变化时的性能,为模型在动态信息需求下的鲁棒性测试奠定基础。
解决学术问题
该数据集针对信息检索中指令敏感性这一核心学术问题,通过提供配对指令变体,系统探究模型对用户意图细微调整的响应能力。它解决了传统检索任务中指令语义理解不足的局限,推动研究从静态查询匹配转向动态意图解析。其意义在于为指令感知检索建立了可量化的评估框架,促进了检索系统与用户交互的自然化演进,对提升智能信息服务的适应性具有深远影响。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在指令感知检索模型的创新与评估方法拓展上。例如,研究通过对比学习或指令微调策略,提升模型对指令变体的语义捕捉能力;同时,基于该数据集构建的基准测试推动了检索评估指标从单一相关性向多维度指令遵循度的延伸。这些工作深化了对指令驱动检索机制的理解,并为后续跨任务指令泛化研究提供了重要借鉴。
以上内容由遇见数据集搜集并总结生成



