five

Cohere/beir-embed-english-v3

收藏
Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/beir-embed-english-v3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含18个子数据集,每个子数据集包含查询和文档的嵌入信息,用于支持搜索和文档相似性分析。数据集支持多种查询类型和文档处理,包括但不限于支持/反驳证据的搜索、问题相似性匹配等。此外,数据集还提供了详细的性能指标和使用指南,方便用户进行搜索性能评估和应用开发。

该数据集包含18个子数据集,每个子数据集包含查询和文档的嵌入信息,用于支持搜索和文档相似性分析。数据集支持多种查询类型和文档处理,包括但不限于支持/反驳证据的搜索、问题相似性匹配等。此外,数据集还提供了详细的性能指标和使用指南,方便用户进行搜索性能评估和应用开发。
提供机构:
Cohere
原始信息汇总

数据集概述

该数据集包含来自BEIR的18个数据集的查询和文档嵌入,使用Cohere的embed-english-v3.0模型进行嵌入。以下是数据集的详细信息:

数据集配置

数据集分为多个配置,每个配置包含不同类型的数据文件,如文档、查询和相关性评分(qrels)。以下是部分数据集配置示例:

  • arguana-corpus:

    • 分割:train
    • 路径:arguana/corpus/*
  • arguana-queries:

    • 分割:test
    • 路径:arguana/queries/test.parquet
  • arguana-qrels:

    • 分割:test
    • 路径:arguana/qrels/test.parquet

数据集加载

加载文档嵌入

文档嵌入存储在corpus分割中。可以通过以下方式加载:

python from datasets import load_dataset dataset_name = "hotpotqa" docs = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-corpus", split="train")

加载查询嵌入

查询嵌入存储在queries分割中,可能包含traindevtest分割。可以通过以下方式加载:

python from datasets import load_dataset dataset_name = "hotpotqa" queries = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-queries", split="test")

加载相关性评分

相关性评分存储在qrels分割中。可以通过以下方式加载:

python from datasets import load_dataset dataset_name = "hotpotqa" qrels = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-qrels", split="test")

数据集示例

以下是部分数据集的nDCG@10和文档数量:

数据集 nDCG@10 #文档数量
arguana 53.98 8,674
bioasq 45.66 14,914,603
climate-fever 25.90 5,416,593
cqadupstack-android 50.01 22,998
cqadupstack-english 49.09 40,221
cqadupstack-gaming 60.50 45,301
cqadupstack-gis 39.17 37,637
cqadupstack-mathematica 30.38 16,705
cqadupstack-physics 43.82 38,316
cqadupstack-programmers 43.67 32,176
cqadupstack-stats 35.23 42,269
cqadupstack-text 30.84 68,184
cqadupstack-unix 40.59 47,382
cqadupstack-webmasters 40.68 17,405
cqadupstack-wordpress 34.26 48,605
fever 89.00 5,416,568
fiqa 42.14 57,638
hotpotqa 70.72 5,233,329
msmarco 42.86 8,841,823
nfcorpus 38.63 3,633
nq 61.62 2,681,468
quora 88.72 522,931
robust04 54.06 528,155
scidocs 20.34 25,657
scifact 71.81 5,183
signal1m 26.32 2,866,316
trec-covid 81.78 171,332
trec-news 50.42 594,977
webis-touche2020 32.64 382,545

注意事项

  • arguana和climate-fever数据集需要通过嵌入模型提示来改进nDCG@10分数。
  • Quora数据集中的问题使用input_type=search_query进行编码,以找到相似或重复的问题。
  • cqadupstack数据集包含多个子数据集,nDCG@10分数将在BEIR中平均计算。
  • bioasq、robust04、trec-news和signal1m数据集仅提供ID和嵌入,不包含标题/文本字段。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作