ArtifactAI/arxiv-beir-100k-generated-queries
收藏Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv-beir-100k-generated-queries
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从ArXiv派生出来的BEIR风格数据集,包含语料库、查询和相关性判断文件。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件,分别以.jsonl和.tsv格式存储。corpus文件包含文档的唯一标识符、标题和文本;queries文件包含查询的唯一标识符和查询文本;qrels文件包含查询ID、文档ID和相关性评分。数据实例部分提供了高层次的示例,展示了corpus、queries和qrels的具体格式。数据字段部分详细描述了corpus、queries和qrels的组成。
该数据集是从ArXiv派生出来的BEIR风格数据集,包含语料库、查询和相关性判断文件。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件,分别以.jsonl和.tsv格式存储。corpus文件包含文档的唯一标识符、标题和文本;queries文件包含查询的唯一标识符和查询文本;qrels文件包含查询ID、文档ID和相关性评分。数据实例部分提供了高层次的示例,展示了corpus、queries和qrels的具体格式。数据字段部分详细描述了corpus、queries和qrels的组成。
提供机构:
ArtifactAI
原始信息汇总
数据集概述
本数据集是一个基于ArXiv的BEIR风格数据集,所有任务语言为英语。
数据集结构
数据集包含三个主要部分:
- 语料库文件 (
corpus): 以.jsonl格式存储,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或文本)。 - 查询文件 (
queries): 以.jsonl格式存储,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符),text(查询文本)。 - 相关性判断文件 (
qrels): 以.tsv格式存储,包含三个字段:query-id(查询ID),corpus-id(文档ID),score(相关性评分)。
数据实例
数据集中的实例包括:
- 语料库:每个文档包含标题和文本内容。
- 查询:每个查询包含唯一的ID和查询文本。
- 相关性判断:每个查询与文档的关联性评分。
数据字段
- 语料库:包含
_id(字符串,唯一文档ID),title(字符串,文档标题),text(字符串,文档文本)。 - 查询:包含
_id(字符串,唯一查询ID),text(字符串,查询文本)。 - 相关性判断:包含
_id(字符串,查询ID),corpus-id(字符串,文档ID),score(整数,相关性评分)。
引用信息
引用此数据集时,应使用以下格式:
@misc{arxiv-beir-100k-generated-queries, title={arxiv-beir-100k-generated-queries}, author={Matthew Kenney}, year={2023} }



