nixiesearch/beir-eval-hard-negatives
收藏Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/beir-eval-hard-negatives
下载链接
链接失效反馈官方服务:
资源简介:
BEIR/MTEB hard negatives数据集用于在训练过程中快速评估嵌入模型。该数据集通过将“检索”风格的基准测试转换为“重排序”风格来解决在单个GPU上运行完整MTEB评估耗时过长的问题。具体来说,首先使用[intfloat/e5-base-v2](todo)模型计算所有文档的嵌入,然后为BEIR/MTEB基准测试中的每个语料库构建包含文本文档及其嵌入的Lucene索引,最后对每个评估查询进行基于RRF的混合检索以获取前32个负例。由于BEIR测试集大小不平衡(TREC-COVID有42个查询,MS MARCO有约4000个查询),因此从每个数据集中随机抽取前300个查询。使用Nixietune在单个RTX 4090上进行评估大约需要30-60秒。
BEIR/MTEB hard negatives数据集用于在训练过程中快速评估嵌入模型。该数据集通过将“检索”风格的基准测试转换为“重排序”风格来解决在单个GPU上运行完整MTEB评估耗时过长的问题。具体来说,首先使用[intfloat/e5-base-v2](todo)模型计算所有文档的嵌入,然后为BEIR/MTEB基准测试中的每个语料库构建包含文本文档及其嵌入的Lucene索引,最后对每个评估查询进行基于RRF的混合检索以获取前32个负例。由于BEIR测试集大小不平衡(TREC-COVID有42个查询,MS MARCO有约4000个查询),因此从每个数据集中随机抽取前300个查询。使用Nixietune在单个RTX 4090上进行评估大约需要30-60秒。
提供机构:
nixiesearch
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 标签: 文本
- 数据集名称: MTEB/BEIR eval hard negatives
- 数据规模: 100K<n<1M
- 来源数据集: BeIR
- 任务类别: 句子相似度
数据集配置
- 配置名称: default
- 特征:
- query: 字符串
- positive: 字符串序列
- negative: 字符串序列
- 分割:
- test:
- 字节数: 226515502
- 样本数: 3679
- test:
训练与评估索引
- 配置: default
- 任务: 句子相似度
- 分割:
- 评估分割: test
配置详情
- 配置名称: default
- 数据文件:
- 分割: test
- 路径: "data/test/*"



