sycl

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/BatsResearch/sycl

下载链接

链接失效反馈

官方服务：

资源简介：

SyCL Data数据集是基于MS MARCO查询构建的合成数据集，用于列表式训练，并包含多个层级的相关性标注。数据由Llama 3.3 70B、Qwen2.5 72B和Qwen2.5 32B三个模型生成。此外，该数据集还包含了一些真实段落数据，包括BM25检索的顶部文档、TREC DL 2020查询和其注释。

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的训练数据对模型性能至关重要。SyCL数据集基于MS MARCO查询数据，通过Llama 3.3 70B、Qwen2.5 72B和Qwen2.5 32B等先进大语言模型生成合成段落。数据构建过程中，研究者保留了原始MS MARCO的数据格式，并创新性地引入了多级相关性标注体系，将段落相关性细分为{0,1,2,3}四个等级，为列表式训练提供了更精细的监督信号。

特点

该数据集最显著的特点是实现了真实数据与合成数据的有机结合。除了大模型生成的合成段落外，还包含了BM25检索系统获取的真实文档top-1000结果，以及TREC DL 2020标准评测集的查询和标注数据。多源数据的融合使得该数据集既能支持合成数据相关研究，又能验证模型在真实场景中的表现。多级相关性标注的引入突破了传统二值标注的局限，为细粒度相关性建模提供了可能。

使用方法

研究人员可通过不同子目录访问特定大模型生成的合成数据，数据格式与原始MS MARCO保持一致，确保使用便捷性。真实数据部分包含BM25检索结果和TREC评测数据，可直接用于检索模型训练和评估。数据集特别适用于研究合成数据在信息检索中的应用，以及探索多级相关性标注对模型性能的影响。使用时需注意区分合成数据与真实数据，并根据研究目标选择合适的子集。

背景与挑战

背景概述

SyCL数据集诞生于信息检索领域对多级相关性标注数据的需求，由研究人员在2024年基于MS MARCO查询数据构建而成。该数据集的核心创新在于利用Llama 3.3 70B、Qwen2.5 72B等先进大语言模型生成合成段落，并引入{0,1,2,3}四级相关性标注体系，突破了传统二值化相关性判断的局限。作为论文《Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance》的实验基础，该数据集为研究列表式多级相关性排序任务提供了重要基准，推动了检索模型从对比学习向更精细的等级学习范式演进。

当前挑战

SyCL数据集面临双重技术挑战：在领域问题层面，多级相关性标注需要解决人工标注成本高昂与标注一致性难以保证的难题，现有检索模型对离散等级关系的建模能力仍有待验证；在构建过程中，依赖大语言模型生成合成数据需平衡生成结果的多样性与真实性，如何确保合成段落与原始查询的语义连贯性成为关键。此外，将BM25检索结果与人工标注数据整合时，需设计特殊处理机制排除已标注正例以避免数据污染，这种混合数据源的可靠性验证构成额外挑战。

常用场景

经典使用场景

在信息检索领域，SyCL数据集以其独特的多级相关性标注机制，为研究者提供了探索列表式排序学习范式的理想实验平台。该数据集基于MS MARCO查询构建，通过Llama和Qwen等先进大语言模型生成合成段落，每个段落均标注了0至3四个等级的相关性标签，这种精细的粒度设计使得研究者能够深入分析不同相关性级别对排序模型性能的影响。

衍生相关工作

围绕SyCL数据集已衍生出多项重要研究工作，特别是在神经排序模型架构创新方面。原始论文提出的列表式训练框架启发了后续关于多任务学习在信息检索中的应用探索。基于该数据集构建的基准测试协议，已成为评估新型排序算法在细粒度相关性建模能力方面的标准工具，促进了领域内模型性能比较的规范化发展。

数据集最近研究