five

yiyic/beir

收藏
Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yiyic/beir
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string splits: - name: arguana num_bytes: 2786456 num_examples: 2807 - name: climate_fever num_bytes: 2516703 num_examples: 2877 - name: dbpedia_entity num_bytes: 13982112 num_examples: 41124 - name: fiqa num_bytes: 1824949 num_examples: 2353 - name: msmarco num_bytes: 3153901 num_examples: 9182 - name: nfcorpus num_bytes: 4689125 num_examples: 3451 - name: nq num_bytes: 2727274 num_examples: 7653 - name: quora num_bytes: 1442109 num_examples: 25675 - name: scidocs num_bytes: 29269039 num_examples: 26313 - name: scifact num_bytes: 458045 num_examples: 583 - name: trec_covid num_bytes: 42655975 num_examples: 30012 - name: webis_touche2020 num_bytes: 5610372 num_examples: 2148 download_size: 65542954 dataset_size: 111116060 configs: - config_name: default data_files: - split: arguana path: data/arguana-* - split: climate_fever path: data/climate_fever-* - split: dbpedia_entity path: data/dbpedia_entity-* - split: fiqa path: data/fiqa-* - split: msmarco path: data/msmarco-* - split: nfcorpus path: data/nfcorpus-* - split: nq path: data/nq-* - split: quora path: data/quora-* - split: scidocs path: data/scidocs-* - split: scifact path: data/scifact-* - split: trec_covid path: data/trec_covid-* - split: webis_touche2020 path: data/webis_touche2020-* ---
提供机构:
yiyic
原始信息汇总

数据集概述

数据集特征

  • 名称: text
  • 数据类型: string

数据集分割

  • 名称: arguana
    • 字节数: 2786456
    • 样本数: 2807
  • 名称: climate_fever
    • 字节数: 2516703
    • 样本数: 2877
  • 名称: dbpedia_entity
    • 字节数: 13982112
    • 样本数: 41124
  • 名称: fiqa
    • 字节数: 1824949
    • 样本数: 2353
  • 名称: msmarco
    • 字节数: 3153901
    • 样本数: 9182
  • 名称: nfcorpus
    • 字节数: 4689125
    • 样本数: 3451
  • 名称: nq
    • 字节数: 2727274
    • 样本数: 7653
  • 名称: quora
    • 字节数: 1442109
    • 样本数: 25675
  • 名称: scidocs
    • 字节数: 29269039
    • 样本数: 26313
  • 名称: scifact
    • 字节数: 458045
    • 样本数: 583
  • 名称: trec_covid
    • 字节数: 42655975
    • 样本数: 30012
  • 名称: webis_touche2020
    • 字节数: 5610372
    • 样本数: 2148

数据集大小

  • 下载大小: 65542954
  • 数据集大小: 111116060

配置

  • 配置名称: default
    • 数据文件:
      • 分割: arguana
        • 路径: data/arguana-*
      • 分割: climate_fever
        • 路径: data/climate_fever-*
      • 分割: dbpedia_entity
        • 路径: data/dbpedia_entity-*
      • 分割: fiqa
        • 路径: data/fiqa-*
      • 分割: msmarco
        • 路径: data/msmarco-*
      • 分割: nfcorpus
        • 路径: data/nfcorpus-*
      • 分割: nq
        • 路径: data/nq-*
      • 分割: quora
        • 路径: data/quora-*
      • 分割: scidocs
        • 路径: data/scidocs-*
      • 分割: scifact
        • 路径: data/scifact-*
      • 分割: trec_covid
        • 路径: data/trec_covid-*
      • 分割: webis_touche2020
        • 路径: data/webis_touche2020-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作