five

income/scidocs-top-20-gen-queries

收藏
Hugging Face2023-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/income/scidocs-top-20-gen-queries
下载链接
链接失效反馈
官方服务:
资源简介:
BEIR基准是一个异构基准,由18个不同的数据集组成,代表了9个信息检索任务,包括事实核查、问答、生物医学信息检索、新闻检索、论点检索、重复问题检索、引用预测、推文检索和实体检索。该数据集是单语(英语)的,采用CC-BY-SA-4.0许可。数据集结构包括语料库、查询和相关性判断文件,每个文件都有特定的格式和字段。README还提到了使用DocT5query模型为NFCorpus数据集生成合成查询。

The BEIR benchmark is a heterogeneous test collection comprising 18 distinct datasets, encompassing 9 information retrieval task categories including fact checking, question answering, biomedical information retrieval, news retrieval, argument retrieval, duplicate question retrieval, citation prediction, tweet retrieval, and entity retrieval. This benchmark is monolingual (English-only) and licensed under CC-BY-SA-4.0. The dataset structure includes corpus, query, and relevance judgment files, each with specific formats and fields. The accompanying README also mentions that the DocT5query model was used to generate synthetic queries for the NFCorpus dataset.
提供机构:
income
原始信息汇总

数据集概述

数据集基本信息

  • 名称: BEIR Benchmark
  • 语言: 英语 (en)
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语种
  • 大小分类:
    • msmarco: 1M<n<10M
    • trec-covid: 100k<n<1M
    • nfcorpus: 1K<n<10K
    • nq: 1M<n<10M
    • hotpotqa: 1M<n<10M
    • fiqa: 10K<n<100K
    • arguana: 1K<n<10K
    • touche-2020: 100K<n<1M
    • cqadupstack: 100K<n<1M
    • quora: 100K<n<1M
    • dbpedia: 1M<n<10M
    • scidocs: 10K<n<100K
    • fever: 1M<n<10M
    • climate-fever: 1M<n<10M
    • scifact: 1K<n<10K

数据集结构

  • 文件格式:
    • corpus: .jsonl 文件,包含文档的唯一标识符、标题和文本。
    • queries: .jsonl 文件,包含查询的唯一标识符和文本。
    • qrels: .tsv 文件,包含查询标识符、文档标识符和相关性评分。

数据集创建

  • 任务类别: 文本检索
  • 数据集来源: 18个不同的数据集,涵盖9种信息检索任务。
  • 数据集用途: 用于评估模型的检索性能,支持任务特定的指标如F1或EM。

数据集详细信息

  • 数据实例: 每个数据集包含文档、查询和相关性判断。
  • 数据字段:
    • Corpus: 文档ID、标题和文本。
    • Queries: 查询ID和文本。
    • Qrels: 查询ID、文档ID和相关性评分。

数据集下载和引用

  • 引用信息:

    @inproceedings{ thakur2021beir, title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models}, author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{e} and Abhishek Srivastava and Iryna Gurevych}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021}, url={https://openreview.net/forum?id=wCu6T5xFjeJ} }

数据集使用注意事项

  • 数据集评估: 支持通过Leaderboard评估模型性能。
  • 语言: 所有任务均为英语。

以上信息概述了BEIR Benchmark数据集的基本情况,包括其结构、用途和相关引用信息。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作