jianqunZ/Source-v1
收藏Hugging Face2024-07-11 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/jianqunZ/Source-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于文本检索任务的单语(英语)数据集,源自core2017。它包含四个主要配置:qrels_og、qrels_changed、corpus和queries。qrels_og和qrels_changed配置用于测试,每个包含900个例子,特征包括query-id、corpus-id和score。corpus配置包含300个例子,特征包括_id、title和text。queries配置也包含300个例子,特征包括_id、text、instruction_og、instruction_changed、keywords和short_query。
This dataset is a monolingual (English) dataset for text retrieval tasks, derived from core2017. It includes four main configurations: qrels_og, qrels_changed, corpus, and queries. The qrels_og and qrels_changed configurations are used for testing, each containing 900 examples with features including query-id, corpus-id, and score. The corpus configuration contains 300 examples with features including _id, title, and text. The queries configuration also contains 300 examples with features including _id, text, instruction_og, instruction_changed, keywords, and short_query.
提供机构:
jianqunZ
原始信息汇总
数据集概述
语言与多语言性
- 语言:英语(en)
- 多语言性:单语种(monolingual)
任务类别与任务ID
- 任务类别:文本检索(text-retrieval)
- 任务ID:文档检索(document-retrieval)
配置信息
配置名称:qrels_og
- 特征:
- query-id:字符串(string)
- corpus-id:字符串(string)
- score:浮点数(float64)
- 分割:
- 测试集(test):900个样本
配置名称:qrels_changed
- 特征:
- query-id:字符串(string)
- corpus-id:字符串(string)
- score:浮点数(float64)
- 分割:
- 测试集(test):900个样本
配置名称:corpus
- 特征:
- _id:字符串(string)
- title:字符串(string)
- text:字符串(string)
- 分割:
- 语料库(corpus):300个样本
配置名称:queries
- 特征:
- _id:字符串(string)
- text:字符串(string)
- instruction_og:字符串(string)
- instruction_changed:字符串(string)
- keywords:字符串(string)
- short_query:字符串(string)
- 分割:
- 查询集(queries):300个样本
数据文件路径
- qrels_og:
- 测试集(test):qrels_og/test.jsonl
- qrels_changed:
- 测试集(test):qrels_changed/test.jsonl
- corpus:
- 语料库(corpus):corpus.jsonl
- queries:
- 查询集(queries):queries.jsonl



