five

BeIR/scifact-generated-queries

收藏
Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BeIR/scifact-generated-queries
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR Benchmark是一个异构的基准测试,由18个不同的数据集组成,涵盖了9种信息检索任务,包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。所有数据集均为英文,并且已经过预处理,可以直接用于实验。数据集的结构包括corpus、queries和qrels三个部分,分别存储文档、查询和查询与文档的相关性判断。
提供机构:
BeIR
原始信息汇总

数据集卡片 for BEIR Benchmark

数据集描述

数据集概述

BEIR是一个异构基准,由18个不同数据集组成,代表9个信息检索任务:

  • 事实检查:FEVER, Climate-FEVER, SciFact
  • 问答:NQ, HotpotQA, FiQA-2018
  • 生物医学信息检索:TREC-COVID, BioASQ, NFCorpus
  • 新闻检索:TREC-NEWS, Robust04
  • 论点检索:Touche-2020, ArguAna
  • 重复问题检索:Quora, CqaDupstack
  • 引用预测:SCIDOCS
  • 推文检索:Signal-1M
  • 实体检索:DBPedia

所有这些数据集都已预处理,可供实验使用。

支持的任务和排行榜

数据集支持排行榜,评估模型在任务特定指标(如F1或EM)上的表现,以及从Wikipedia检索支持信息的能力。当前最佳模型表现可在这里找到。

语言

所有任务均为英语(en)。

数据集结构

所有BEIR数据集必须包含语料库、查询和qrels(相关性判断文件)。它们必须采用以下格式:

  • 语料库文件:一个.jsonl文件(jsonlines),包含一个字典列表,每个字典包含三个字段_id(唯一文档标识符)、title(文档标题,可选)和text(文档段落或段落)。例如:{"_id": "doc1", "title": "Albert Einstein", "text": "Albert Einstein was a German-born...."}
  • 查询文件:一个.jsonl文件(jsonlines),包含一个字典列表,每个字典包含两个字段_id(唯一查询标识符)和text(查询文本)。例如:{"_id": "q1", "text": "Who developed the mass-energy equivalence formula?"}
  • qrels文件:一个.tsv文件(制表符分隔),包含三列,即query-idcorpus-idscore,顺序如此。第一行作为标题。例如:q1 doc1 1

数据实例

一个高层次的BEIR数据集示例:

python corpus = { "doc1" : { "title": "Albert Einstein", "text": "Albert Einstein was a German-born theoretical physicist. who developed the theory of relativity, one of the two pillars of modern physics (alongside quantum mechanics). His work is also known for its influence on the philosophy of science. He is best known to the general public for his mass–energy equivalence formula E = mc2, which has been dubbed the worlds most famous equation. He received the 1921 Nobel Prize in Physics for his services to theoretical physics, and especially for his discovery of the law of the photoelectric effect, a pivotal step in the development of quantum theory." }, "doc2" : { "title": "", # Keep title an empty string if not present "text": "Wheat beer is a top-fermented beer which is brewed with a large proportion of wheat relative to the amount of malted barley. The two main varieties are German Weißbier and Belgian witbier; other types include Lambic (made with wild yeast), Berliner Weisse (a cloudy, sour beer), and Gose (a sour, salty beer)." }, }

queries = { "q1" : "Who developed the mass-energy equivalence formula?", "q2" : "Which beer is brewed with a large proportion of wheat?" }

qrels = { "q1" : {"doc1": 1}, "q2" : {"doc2": 1}, }

数据字段

所有配置的示例具有以下特征:

语料库

  • corpus:一个dict特征,表示文档标题和段落文本,由以下部分组成:
    • _id:一个string特征,表示唯一文档ID
      • title:一个string特征,表示文档标题。
      • text:一个string特征,表示文档文本。

查询

  • queries:一个dict特征,表示查询,由以下部分组成:
    • _id:一个string特征,表示唯一查询ID
    • text:一个string特征,表示查询文本。

Qrels

  • qrels:一个dict特征,表示查询文档相关性判断,由以下部分组成:
    • _id:一个string特征,表示查询ID
      • _id:一个string特征,表示文档ID。
      • score:一个int32特征,表示查询和文档之间的相关性判断。

数据分割

数据集 网站 BEIR名称 类型 查询数量 语料库大小 相关文档/查询 下载链接 md5
MSMARCO 主页 msmarco train<br>dev<br>test 6,980 8.84M 1.1 链接 444067daf65d982533ea17ebd59501e4
TREC-COVID 主页 trec-covid test 50 171K 493.5 链接 ce62140cb23feb9becf6270d0d1fe6d1
NFCorpus 主页 nfcorpus train<br>dev<br>test 323 3.6K 38.2 链接 a89dba18a62ef92f7d323ec890a0d38d
BioASQ 主页 bioasq train<br>test 500 14.91M 8.05 如何重现?
NQ 主页 nq train<br>test 3,452 2.68M 1.2 链接 d4d3d2e48787a744b6f6e691ff534307
HotpotQA 主页 hotpotqa train<br>dev<br>test 7,405 5.23M 2.0 链接 f412724f78b0d91183a0e86805e16114
FiQA-2018 主页 fiqa train<br>dev<br>test 648 57K 2.6 链接 17918ed23cd04fb15047f73e6c3bd9d9
Signal-1M(RT) 主页 signal1m test 97 2.86M 19.6 如何重现?
TREC-NEWS 主页 trec-news test 57 595K 19.6 如何重现?
ArguAna 主页 arguana test 1,406 8.67K 1.0 链接 8ad3e3c2a5867cdced806d6503f29b99
Touche-2020 主页 webis-touche2020 test 49 382K 19.0 链接 46f650ba5a527fc69e0a6521c5a23563
CQADupstack 主页 cqadupstack test 13,145 457K 1.4 链接 4e41456d7df8ee7760a7f866133bda78
Quora 主页 quora dev<br>test 10,000 523K 1.6 链接 18fb154900ba42a600f84b839c173167
DBPedia 主页 dbpedia-entity dev<br>test 400 4.63M 38.2 链接 c2a39eb420a3164af735795df012ac2c
SCIDOCS 主页 scidocs test 1,000 25K 4.9 链接 38121350fc3a4d2f48850f6aff52e4a9
FEVER 主页 fever train<br>dev<br>test 6,666 5.42M 1.2 链接 5a818580227bfb4b35bb6fa46d9b6c03
Climate-FEVER 主页 climate-fever test 1,535 5.42M 3.0 链接 8b66f0a9126c521bae2bde127b4dc99d
SciFact 主页 scifact train<br>test 300 5K 1.1 链接 5f7d1de60b170fc8027bb7898e2efca1
Robust04 主页 robust04 test 249 528K 69.9 如何重现?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作