nixiesearch/beir-eval-hard-negatives

Name: nixiesearch/beir-eval-hard-negatives
Creator: nixiesearch
Published: 2024-01-05 23:48:54
License: 暂无描述

Hugging Face2024-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nixiesearch/beir-eval-hard-negatives

下载链接

链接失效反馈

官方服务：

资源简介：

BEIR/MTEB hard negatives数据集用于在训练过程中快速评估嵌入模型。该数据集通过将“检索”风格的基准测试转换为“重排序”风格来解决在单个GPU上运行完整MTEB评估耗时过长的问题。具体来说，首先使用[intfloat/e5-base-v2](todo)模型计算所有文档的嵌入，然后为BEIR/MTEB基准测试中的每个语料库构建包含文本文档及其嵌入的Lucene索引，最后对每个评估查询进行基于RRF的混合检索以获取前32个负例。由于BEIR测试集大小不平衡（TREC-COVID有42个查询，MS MARCO有约4000个查询），因此从每个数据集中随机抽取前300个查询。使用Nixietune在单个RTX 4090上进行评估大约需要30-60秒。

提供机构：

nixiesearch

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: Apache 2.0
标签: 文本
数据集名称: MTEB/BEIR eval hard negatives
数据规模: 100K<n<1M
来源数据集: BeIR
任务类别: 句子相似度

数据集配置

配置名称: default
特征:
- query: 字符串
- positive: 字符串序列
- negative: 字符串序列
分割:
- test:
  - 字节数: 226515502
  - 样本数: 3679

训练与评估索引

配置: default
任务: 句子相似度
分割:
- 评估分割: test

配置详情

配置名称: default
数据文件:
- 分割: test
- 路径: "data/test/*"

5,000+

优质数据集

54 个

任务类型

进入经典数据集