CoRE

Name: CoRE
Creator: 帕绍大学,德国
Published: 2025-10-22 16:03:31
License: 暂无描述

arXiv2025-10-22 更新2025-10-24 收录

下载链接：

https://github.com/padas-lab-de/CoRECT

下载链接

链接失效反馈

官方服务：

资源简介：

CoRE数据集是CoRECT框架的基础，用于评估嵌入压缩方法。该数据集通过有针对性的从MS MARCO v2中抽取样本构建，包含76个人工判断的TREC DL查询。CoRE数据集旨在评估不同语料库复杂度对检索性能的影响，语料库大小从10K到100M段落不等，检索粒度包括段落级别和文档级别。

The CoRE dataset serves as the foundation of the CoRECT framework, designed for evaluating embedding compression methods. It is constructed by selectively sampling from MS MARCO v2 and contains 76 human-judged TREC DL queries. The CoRE dataset aims to evaluate the impact of varying corpus complexities on retrieval performance, with corpus sizes ranging from 10K to 100M passages and retrieval granularities covering both passage-level and document-level.

提供机构：

帕绍大学,德国

创建时间：

2025-10-22

原始信息汇总

CoRECT数据集概述

数据集基本信息

数据集名称: CoRECT
核心功能: 大规模评估嵌入压缩技术的框架
研究领域: 信息检索、嵌入压缩

支持的数据集

CoRE: MS MARCO v2数据集的转换版本
BeIR: 公开BeIR数据集

支持的嵌入模型

Jina V3 (jinav3)
Multilingual-E5-Large-Instruct (e5)
Snowflake-Arctic-Embed-m (snowflake)
Snowflake-Arctic-Embed-m-v2.0 (snowflakev2)

评估指标

标准化折损累计增益 (NDCG)

ndcg_at_1
ndcg_at_3
ndcg_at_5
ndcg_at_10
ndcg_at_20
ndcg_at_100
ndcg_at_200
ndcg_at_300
ndcg_at_500
ndcg_at_1000

平均精度 (MAP)

map_at_1
map_at_3
map_at_5
map_at_10
map_at_20
map_at_100
map_at_200
map_at_300
map_at_500
map_at_1000

召回率 (Recall)

recall_at_1
recall_at_3
recall_at_5
recall_at_10
recall_at_20
recall_at_100
recall_at_200
recall_at_300
recall_at_500
recall_at_1000

精确率 (Precision)

precision_at_1
precision_at_3
precision_at_5
precision_at_10
precision_at_20
precision_at_100
precision_at_200
precision_at_300
precision_at_500
precision_at_1000

平均倒数排名 (MRR)

mrr_at_1
mrr_at_3
mrr_at_5
mrr_at_10
mrr_at_20
mrr_at_100
mrr_at_200
mrr_at_300
mrr_at_500
mrr_at_1000

排名计数 (RC)

rc_at_1
rc_at_3
rc_at_5
rc_at_10
rc_at_20
rc_at_100
rc_at_200
rc_at_300
rc_at_500
rc_at_1000

压缩技术评估

标量量化
二进制量化
浮点类型转换
向量截断
主成分分析
局部敏感哈希
乘积量化

扩展功能

添加新压缩技术

实现AbstractCompression类
在compression_registry.py中注册

添加新模型

实现AbstractModelWrapper类
在evaluate.py中注册

添加新数据集

支持HuggingFace检索数据集
在dataset_utils.py中实现加载函数

引用信息

@misc{caspari2025corect, title={CoRECT: A Framework for Evaluating Embedding Compression Techniques at Scale}, author={L. Caspari and M. Dinzinger and K. Gosh Dastidar and C. Fellicious and J. Mitrović and M. Granitzer}, year={2025}, eprint={2510.19340}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2510.19340}, }

搜集汇总

数据集介绍

构建方式

在密集检索系统面临内存瓶颈的背景下，CoRE数据集通过精心设计的子采样策略构建而成。该数据集基于MS MARCO v2语料库，采用智能子采样方法从TREC Deep Learning 2023任务中提取高质量干扰项，确保在控制语料规模（从10K到100M段落）和检索粒度（段落级与文档级）的同时，保持检索任务的真实性与挑战性。每个查询严格对应10个相关文档，并搭配100个经互惠排序融合筛选的高质量干扰项，其余部分填充随机文档以模拟真实检索环境。

特点

CoRE数据集的核心特征体现在其对语料复杂度的系统化控制。该数据集通过精确调节语料规模与检索粒度两个维度，为评估嵌入压缩技术的鲁棒性提供标准化测试平台。其段落集合平均长度为286字符，文档集合达9010字符，均配备人工标注的TREC DL相关性判断。独特之处在于保持查询与相关性判断固定的前提下，通过规模扩展（10K至100M）和粒度转换（段落/文档级）揭示压缩方法在不同复杂度场景下的性能变化规律。

使用方法

该数据集作为CoRECT框架的核心评估组件，主要用于系统化验证嵌入压缩技术的有效性。研究人员可通过加载预处理的语料子集，结合四种主流嵌入模型（如Jina V3、E5等）生成向量表示，继而应用标量量化、维度裁剪等八类压缩方法。评估流程采用批处理计算余弦相似度，并输出NDCG@10、Recall@100等标准指标。其模块化设计支持快速集成新模型与压缩算法，通过Hugging Face接口实现数据加载与结果可视化，为压缩方法的横向比较提供标准化实验范式。

背景与挑战

背景概述

CoRE数据集作为CoRECT框架的核心评估基准，于2025年由帕绍大学研究团队构建，聚焦于密集检索系统中嵌入向量压缩技术的系统性评测。该数据集基于MS MARCO v2语料库，通过智能子采样策略构建了涵盖10K至100M规模的多粒度文本单元，并整合了TREC Deep Learning 2023 campaign的人工标注相关性判断。其创新性在于首次将语料复杂度操作化为规模扩展与检索粒度双重维度，为评估压缩算法在真实场景下的鲁棒性提供了标准化实验环境。

当前挑战

在解决密集检索内存瓶颈的领域挑战中，CoRE需应对压缩方法在不同语料规模下的性能衰减问题，例如向量截断在百万级文档上出现的显著召回率下降。构建过程中的核心挑战在于保持负样本分布的真实性，通过融合TREC评测的顶级检索结果构建高质量干扰项，避免随机采样导致的评估偏差。此外，数据集的动态扩展机制需平衡不同嵌入模型对压缩技术的敏感性，例如非学习型压缩在Snowflake V1模型上的性能突变现象。

常用场景

经典使用场景

在密集检索系统研究领域，CoRE数据集主要用于评估嵌入压缩技术的性能表现。该数据集通过精心设计的子采样策略构建，包含从10K到100M不同规模的文档和段落集合，为研究者提供了可控的测试环境。其经典应用场景包括比较标量量化、向量截断和产品量化等压缩方法在保持检索质量的同时实现索引大小缩减的效果，特别是在大规模语料库下的稳定性测试。

解决学术问题

CoRE数据集有效解决了嵌入压缩技术评估中缺乏标准化基准的学术难题。传统研究往往忽视语料复杂性对压缩效果的影响，而该数据集通过系统化控制语料规模和检索粒度，揭示了压缩方法在不同模型间的性能差异。其实验结果表明，最优压缩方法的选择高度依赖具体模型特性，这一发现促使研究社区重新审视压缩技术的通用性假设，推动了更精细化的评估范式发展。

衍生相关工作

基于CoRE数据集的研究催生了多个重要衍生工作。其智能子采样方法被扩展应用于构建领域特定评估基准，如医疗文献检索和专利查新系统。数据集揭示的模型敏感性现象启发了自适应压缩框架的开发，能根据嵌入模型特性动态选择最优压缩策略。此外，其评估范式被迁移到多模态检索场景，推动了图像-文本联合嵌入的压缩技术研究，形成跨领域的技术辐射效应。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集