jhu-clsp/robust04-instructions
收藏Hugging Face2026-03-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jhu-clsp/robust04-instructions
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
multilinguality:
- monolingual
task_categories:
- text-retrieval
source_datasets:
- robust04
task_ids:
- document-retrieval
config_names:
- corpus
tags:
- text-retrieval
- instruction-retrieval
dataset_info:
- config_name: top_ranked
features:
- name: qid
dtype: string
- name: pid
dtype: string
splits:
- name: top_ranked
num_examples: 52000
- config_name: qrels_og
features:
- name: query-id
dtype: string
- name: corpus-id
dtype: string
- name: score
dtype: float64
splits:
- name: test
num_examples: 18465
- config_name: qrels_changed
features:
- name: query-id
dtype: string
- name: corpus-id
dtype: string
- name: score
dtype: float64
splits:
- name: test
num_examples: 18465
- config_name: corpus
features:
- name: _id
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: corpus
num_examples: 47492
- config_name: queries
features:
- name: _id
dtype: string
- name: text
dtype: string
- name: instruction_og
dtype: string
- name: instruction_changed
dtype: string
- name: keywords
dtype: string
- name: short_query
dtype: string
splits:
- name: queries
num_examples: 52
configs:
- config_name: qrels_og
data_files:
- split: test
path: qrels_og/test.jsonl
- config_name: qrels_changed
data_files:
- split: test
path: qrels_changed/test.jsonl
- config_name: corpus
data_files:
- split: corpus
path: corpus.jsonl
- config_name: queries
data_files:
- split: queries
path: queries.jsonl
- config_name: top_ranked
data_files:
- split: top_ranked
path: top_ranked.jsonl
license: mit
---
语言:
- en
多语言属性:
- 单语
任务类别:
- 文本检索(text-retrieval)
源数据集:
- robust04
任务子类型:
- 文档检索(document-retrieval)
配置名称:
- corpus
标签:
- 文本检索(text-retrieval)
- 指令检索(instruction-retrieval)
数据集信息:
- 配置名称:top_ranked
特征字段:
- 名称:qid,数据类型:字符串
- 名称:pid,数据类型:字符串
数据分割:
- 分割名称:top_ranked,样本数量:52000
- 配置名称:qrels_og
特征字段:
- 名称:query-id,数据类型:字符串
- 名称:corpus-id,数据类型:字符串
- 名称:score,数据类型:64位浮点数
数据分割:
- 分割名称:test,样本数量:18465
- 配置名称:qrels_changed
特征字段:
- 名称:query-id,数据类型:字符串
- 名称:corpus-id,数据类型:字符串
- 名称:score,数据类型:64位浮点数
数据分割:
- 分割名称:test,样本数量:18465
- 配置名称:corpus
特征字段:
- 名称:_id,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
数据分割:
- 分割名称:corpus,样本数量:47492
- 配置名称:queries
特征字段:
- 名称:_id,数据类型:字符串
- 名称:text,数据类型:字符串
- 名称:instruction_og,数据类型:字符串
- 名称:instruction_changed,数据类型:字符串
- 名称:keywords,数据类型:字符串
- 名称:short_query,数据类型:字符串
数据分割:
- 分割名称:queries,样本数量:52
配置项:
- 配置名称:qrels_og
数据文件:
- 分割名称:test
文件路径:qrels_og/test.jsonl
- 配置名称:qrels_changed
数据文件:
- 分割名称:test
文件路径:qrels_changed/test.jsonl
- 配置名称:corpus
数据文件:
- 分割名称:corpus
文件路径:corpus.jsonl
- 配置名称:queries
数据文件:
- 分割名称:queries
文件路径:queries.jsonl
- 配置名称:top_ranked
数据文件:
- 分割名称:top_ranked
文件路径:top_ranked.jsonl
提供机构:
jhu-clsp
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 多语言性: 单语
- 任务类别: 文本检索
- 源数据集: robust04
- 任务ID: 文档检索
- 配置名称: corpus
- 标签: 文本检索, 指令检索
数据集配置
配置: top_ranked
- 特征:
- qid: 字符串
- pid: 字符串
- 分割:
- top_ranked: 52000个示例
配置: qrels_og
- 特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
- 分割:
- test: 18465个示例
配置: qrels_changed
- 特征:
- query-id: 字符串
- corpus-id: 字符串
- score: 浮点数
- 分割:
- test: 18465个示例
配置: corpus
- 特征:
- _id: 字符串
- title: 字符串
- text: 字符串
- 分割:
- corpus: 47492个示例
配置: queries
- 特征:
- _id: 字符串
- text: 字符串
- instruction_og: 字符串
- instruction_changed: 字符串
- keywords: 字符串
- short_query: 字符串
- 分割:
- queries: 52个示例
数据文件
配置: qrels_og
- 文件:
- test: qrels_og/test.jsonl
配置: qrels_changed
- 文件:
- test: qrels_changed/test.jsonl
配置: corpus
- 文件:
- corpus: corpus.jsonl
配置: queries
- 文件:
- queries: queries.jsonl
配置: top_ranked
- 文件:
- top_ranked: top_ranked.jsonl



