ArtifactAI/arxiv-beir-100k-generated-queries

Name: ArtifactAI/arxiv-beir-100k-generated-queries
Creator: ArtifactAI
Published: 2023-06-21 13:57:53
License: 暂无描述

Hugging Face2023-06-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ArtifactAI/arxiv-beir-100k-generated-queries

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从ArXiv派生出来的BEIR风格数据集，包含语料库、查询和相关性判断文件。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件，分别以.jsonl和.tsv格式存储。corpus文件包含文档的唯一标识符、标题和文本；queries文件包含查询的唯一标识符和查询文本；qrels文件包含查询ID、文档ID和相关性评分。数据实例部分提供了高层次的示例，展示了corpus、queries和qrels的具体格式。数据字段部分详细描述了corpus、queries和qrels的组成。

提供机构：

ArtifactAI

原始信息汇总

数据集概述

本数据集是一个基于ArXiv的BEIR风格数据集，所有任务语言为英语。

数据集结构

数据集包含三个主要部分：

语料库文件 (corpus): 以.jsonl格式存储，包含一系列字典，每个字典包含三个字段：_id（唯一文档标识符），title（文档标题，可选），text（文档段落或文本）。
查询文件 (queries): 以.jsonl格式存储，包含一系列字典，每个字典包含两个字段：_id（唯一查询标识符），text（查询文本）。
相关性判断文件 (qrels): 以.tsv格式存储，包含三个字段：query-id（查询ID），corpus-id（文档ID），score（相关性评分）。

数据实例

数据集中的实例包括：

语料库：每个文档包含标题和文本内容。
查询：每个查询包含唯一的ID和查询文本。
相关性判断：每个查询与文档的关联性评分。

数据字段

语料库：包含_id（字符串，唯一文档ID），title（字符串，文档标题），text（字符串，文档文本）。
查询：包含_id（字符串，唯一查询ID），text（字符串，查询文本）。
相关性判断：包含_id（字符串，查询ID），corpus-id（字符串，文档ID），score（整数，相关性评分）。

引用信息

引用此数据集时，应使用以下格式：

@misc{arxiv-beir-100k-generated-queries, title={arxiv-beir-100k-generated-queries}, author={Matthew Kenney}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集