five

ArtifactAI/arxiv-beir-100k-generated-queries

收藏
Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv-beir-100k-generated-queries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从ArXiv派生出来的BEIR风格数据集,包含语料库、查询和相关性判断文件。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件,分别以.jsonl和.tsv格式存储。corpus文件包含文档的唯一标识符、标题和文本;queries文件包含查询的唯一标识符和查询文本;qrels文件包含查询ID、文档ID和相关性评分。数据实例部分提供了高层次的示例,展示了corpus、queries和qrels的具体格式。数据字段部分详细描述了corpus、queries和qrels的组成。

该数据集是从ArXiv派生出来的BEIR风格数据集,包含语料库、查询和相关性判断文件。所有任务均为英文。数据集的结构包括corpus、queries和qrels文件,分别以.jsonl和.tsv格式存储。corpus文件包含文档的唯一标识符、标题和文本;queries文件包含查询的唯一标识符和查询文本;qrels文件包含查询ID、文档ID和相关性评分。数据实例部分提供了高层次的示例,展示了corpus、queries和qrels的具体格式。数据字段部分详细描述了corpus、queries和qrels的组成。
提供机构:
ArtifactAI
原始信息汇总

数据集概述

本数据集是一个基于ArXiv的BEIR风格数据集,所有任务语言为英语。

数据集结构

数据集包含三个主要部分:

  • 语料库文件 (corpus): 以.jsonl格式存储,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或文本)。
  • 查询文件 (queries): 以.jsonl格式存储,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符),text(查询文本)。
  • 相关性判断文件 (qrels): 以.tsv格式存储,包含三个字段:query-id(查询ID),corpus-id(文档ID),score(相关性评分)。

数据实例

数据集中的实例包括:

  • 语料库:每个文档包含标题和文本内容。
  • 查询:每个查询包含唯一的ID和查询文本。
  • 相关性判断:每个查询与文档的关联性评分。

数据字段

  • 语料库:包含_id(字符串,唯一文档ID),title(字符串,文档标题),text(字符串,文档文本)。
  • 查询:包含_id(字符串,唯一查询ID),text(字符串,查询文本)。
  • 相关性判断:包含_id(字符串,查询ID),corpus-id(字符串,文档ID),score(整数,相关性评分)。

引用信息

引用此数据集时,应使用以下格式:

@misc{arxiv-beir-100k-generated-queries, title={arxiv-beir-100k-generated-queries}, author={Matthew Kenney}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作