Cohere/beir-embed-english-v3

Name: Cohere/beir-embed-english-v3
Creator: Cohere
Published: 2024-01-03 09:25:07
License: 暂无描述

Hugging Face2024-01-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/beir-embed-english-v3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含18个子数据集，每个子数据集包含查询和文档的嵌入信息，用于支持搜索和文档相似性分析。数据集支持多种查询类型和文档处理，包括但不限于支持/反驳证据的搜索、问题相似性匹配等。此外，数据集还提供了详细的性能指标和使用指南，方便用户进行搜索性能评估和应用开发。

提供机构：

Cohere

原始信息汇总

数据集概述

该数据集包含来自BEIR的18个数据集的查询和文档嵌入，使用Cohere的embed-english-v3.0模型进行嵌入。以下是数据集的详细信息：

数据集配置

数据集分为多个配置，每个配置包含不同类型的数据文件，如文档、查询和相关性评分（qrels）。以下是部分数据集配置示例：

arguana-corpus:
- 分割：train
- 路径：arguana/corpus/*
arguana-queries:
- 分割：test
- 路径：arguana/queries/test.parquet
arguana-qrels:
- 分割：test
- 路径：arguana/qrels/test.parquet

数据集加载

加载文档嵌入

文档嵌入存储在corpus分割中。可以通过以下方式加载：

python from datasets import load_dataset dataset_name = "hotpotqa" docs = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-corpus", split="train")

加载查询嵌入

查询嵌入存储在queries分割中，可能包含train、dev和test分割。可以通过以下方式加载：

python from datasets import load_dataset dataset_name = "hotpotqa" queries = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-queries", split="test")

加载相关性评分

相关性评分存储在qrels分割中。可以通过以下方式加载：

python from datasets import load_dataset dataset_name = "hotpotqa" qrels = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-qrels", split="test")

数据集示例

以下是部分数据集的nDCG@10和文档数量：

数据集	nDCG@10	#文档数量
arguana	53.98	8,674
bioasq	45.66	14,914,603
climate-fever	25.90	5,416,593
cqadupstack-android	50.01	22,998
cqadupstack-english	49.09	40,221
cqadupstack-gaming	60.50	45,301
cqadupstack-gis	39.17	37,637
cqadupstack-mathematica	30.38	16,705
cqadupstack-physics	43.82	38,316
cqadupstack-programmers	43.67	32,176
cqadupstack-stats	35.23	42,269
cqadupstack-text	30.84	68,184
cqadupstack-unix	40.59	47,382
cqadupstack-webmasters	40.68	17,405
cqadupstack-wordpress	34.26	48,605
fever	89.00	5,416,568
fiqa	42.14	57,638
hotpotqa	70.72	5,233,329
msmarco	42.86	8,841,823
nfcorpus	38.63	3,633
nq	61.62	2,681,468
quora	88.72	522,931
robust04	54.06	528,155
scidocs	20.34	25,657
scifact	71.81	5,183
signal1m	26.32	2,866,316
trec-covid	81.78	171,332
trec-news	50.42	594,977
webis-touche2020	32.64	382,545

注意事项

arguana和climate-fever数据集需要通过嵌入模型提示来改进nDCG@10分数。
Quora数据集中的问题使用input_type=search_query进行编码，以找到相似或重复的问题。
cqadupstack数据集包含多个子数据集，nDCG@10分数将在BEIR中平均计算。
bioasq、robust04、trec-news和signal1m数据集仅提供ID和嵌入，不包含标题/文本字段。

5,000+

优质数据集

54 个

任务类型

进入经典数据集