Cohere/beir-embed-english-v3
收藏数据集概述
该数据集包含来自BEIR的18个数据集的查询和文档嵌入,使用Cohere的embed-english-v3.0模型进行嵌入。以下是数据集的详细信息:
数据集配置
数据集分为多个配置,每个配置包含不同类型的数据文件,如文档、查询和相关性评分(qrels)。以下是部分数据集配置示例:
-
arguana-corpus:
- 分割:train
- 路径:arguana/corpus/*
-
arguana-queries:
- 分割:test
- 路径:arguana/queries/test.parquet
-
arguana-qrels:
- 分割:test
- 路径:arguana/qrels/test.parquet
数据集加载
加载文档嵌入
文档嵌入存储在corpus分割中。可以通过以下方式加载:
python from datasets import load_dataset dataset_name = "hotpotqa" docs = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-corpus", split="train")
加载查询嵌入
查询嵌入存储在queries分割中,可能包含train、dev和test分割。可以通过以下方式加载:
python from datasets import load_dataset dataset_name = "hotpotqa" queries = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-queries", split="test")
加载相关性评分
相关性评分存储在qrels分割中。可以通过以下方式加载:
python from datasets import load_dataset dataset_name = "hotpotqa" qrels = load_dataset("Cohere/beir-embed-english-v3", f"{dataset_name}-qrels", split="test")
数据集示例
以下是部分数据集的nDCG@10和文档数量:
| 数据集 | nDCG@10 | #文档数量 |
|---|---|---|
| arguana | 53.98 | 8,674 |
| bioasq | 45.66 | 14,914,603 |
| climate-fever | 25.90 | 5,416,593 |
| cqadupstack-android | 50.01 | 22,998 |
| cqadupstack-english | 49.09 | 40,221 |
| cqadupstack-gaming | 60.50 | 45,301 |
| cqadupstack-gis | 39.17 | 37,637 |
| cqadupstack-mathematica | 30.38 | 16,705 |
| cqadupstack-physics | 43.82 | 38,316 |
| cqadupstack-programmers | 43.67 | 32,176 |
| cqadupstack-stats | 35.23 | 42,269 |
| cqadupstack-text | 30.84 | 68,184 |
| cqadupstack-unix | 40.59 | 47,382 |
| cqadupstack-webmasters | 40.68 | 17,405 |
| cqadupstack-wordpress | 34.26 | 48,605 |
| fever | 89.00 | 5,416,568 |
| fiqa | 42.14 | 57,638 |
| hotpotqa | 70.72 | 5,233,329 |
| msmarco | 42.86 | 8,841,823 |
| nfcorpus | 38.63 | 3,633 |
| nq | 61.62 | 2,681,468 |
| quora | 88.72 | 522,931 |
| robust04 | 54.06 | 528,155 |
| scidocs | 20.34 | 25,657 |
| scifact | 71.81 | 5,183 |
| signal1m | 26.32 | 2,866,316 |
| trec-covid | 81.78 | 171,332 |
| trec-news | 50.42 | 594,977 |
| webis-touche2020 | 32.64 | 382,545 |
注意事项
- arguana和climate-fever数据集需要通过嵌入模型提示来改进nDCG@10分数。
- Quora数据集中的问题使用
input_type=search_query进行编码,以找到相似或重复的问题。 - cqadupstack数据集包含多个子数据集,nDCG@10分数将在BEIR中平均计算。
- bioasq、robust04、trec-news和signal1m数据集仅提供ID和嵌入,不包含标题/文本字段。



