ssf-synthetic-data-for-retriever

Hugging Face2025-08-02 更新2025-08-03 收录

下载链接：

https://huggingface.co/datasets/dnth/ssf-synthetic-data-for-retriever

下载链接

链接失效反馈

官方服务：

资源简介：

ssf-synthetic-data-for-retriever 是一个使用 distilabel 创建的合成数据集，用于检索任务。数据集包含三个配置：generate_retrieval_pairs_easy、generate_retrieval_pairs_easy_v2 和 generate_retrieval_pairs_hard。每个配置都有特定的特征，例如 Sector、Track、Job Role、anchor、Performance Expectation、positive、negative 和 distilabel_metadata。distilabel_metadata 包括原始输入、原始输出和统计信息。数据集是合成的，包含示例性工作描述，每个描述都有正句和负句，用于检索任务。

ssf-synthetic-data-for-retriever 是一款基于 distilabel 构建的合成检索数据集。该数据集包含三类配置项，分别为 generate_retrieval_pairs_easy、generate_retrieval_pairs_easy_v2 与 generate_retrieval_pairs_hard。每类配置均自带多项专属特征，涵盖行业领域（Sector）、岗位赛道（Track）、岗位角色（Job Role）、锚定文本（anchor）、绩效预期（Performance Expectation）、正例样本（positive）、负例样本（negative）以及 distilabel元数据（distilabel_metadata）。其中，distilabel元数据包含原始输入、原始输出与统计信息。本数据集为合成数据集，内含示例工作描述，每份描述均配套正、负匹配语句，适配检索任务需求。

创建时间：

2025-08-02

原始信息汇总

数据集概述：ssf-synthetic-data-for-retriever

数据集基本信息

数据集名称：ssf-synthetic-data-for-retriever
数据集大小：n<1K
标签：synthetic, distilabel, rlaif
创建工具：distilabel

数据集配置

数据集包含以下三个配置：

1. generate_retrieval_pairs_easy

特征：
- Sector: string
- Track: string
- Job Role: string
- anchor: string
- Performance Expectation: string
- positive: string
- negative: string
- distilabel_metadata: struct
  - raw_input_generate_retrieval_pairs_easy: list
    - content: string
    - role: string
  - raw_output_generate_retrieval_pairs_easy: string
  - statistics_generate_retrieval_pairs_easy: struct
    - input_tokens: int64
    - output_tokens: int64
- model_name: string
数据分割：
- train: 1,885 个样本，10,169,548 字节
下载大小：2,774,194 字节
数据集大小：10,169,548 字节

2. generate_retrieval_pairs_easy_v2

特征：
- 同 generate_retrieval_pairs_easy，但特征名称中的 "easy" 替换为 "easy_v2"
数据分割：
- train: 1,885 个样本，10,177,804 字节
下载大小：2,784,141 字节
数据集大小：10,177,804 字节

3. generate_retrieval_pairs_hard

特征：
- 同 generate_retrieval_pairs_easy，但特征名称中的 "easy" 替换为 "hard"
数据分割：
- train: 1,885 个样本，10,861,267 字节
下载大小：2,867,956 字节
数据集大小：10,861,267 字节

数据集结构示例

generate_retrieval_pairs_hard 示例

json { "Job Role": "Audit Associate / Audit Assistant Associate", "Performance Expectation": "In accordance with: Singapore Standards on Auditing, Ethics Pronouncements in Singapore, Singapore Companies Act, and Singapore Financial Reporting Standards", "Sector": "Accountancy", "Track": "Assurance", "anchor": "The Audit Associate/Audit Assistant Associate undertakes specific stages of audit work under supervision...", "distilabel_metadata": { "raw_input_generate_retrieval_pairs_hard": [...], "raw_output_generate_retrieval_pairs_hard": "## Positive audit assistant associate job description

Negative

risk management analyst", "statistics_generate_retrieval_pairs_hard": { "input_tokens": 606, "output_tokens": 15 } }, "model_name": "Qwen/Qwen2.5-VL-3B-Instruct", "negative": "risk management analyst", "positive": "audit assistant associate job description" }

加载方式

python from datasets import load_dataset

加载 generate_retrieval_pairs_hard

ds = load_dataset("dnth/ssf-synthetic-data-for-retriever", "generate_retrieval_pairs_hard")

加载 generate_retrieval_pairs_easy

ds = load_dataset("dnth/ssf-synthetic-data-for-retriever", "generate_retrieval_pairs_easy")

加载 generate_retrieval_pairs_easy_v2

ds = load_dataset("dnth/ssf-synthetic-data-for-retriever", "generate_retrieval_pairs_easy_v2")

数据集生成

数据集可通过 distilabel CLI 使用提供的 pipeline.yaml 文件重新生成： console distilabel pipeline run --config "https://huggingface.co/datasets/dnth/ssf-synthetic-data-for-retriever/raw/main/pipeline.yaml"

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的训练数据对模型性能至关重要。该数据集采用distilabel框架构建，通过精心设计的提示工程，利用Qwen2.5-VL-3B-Instruct模型生成检索对。构建过程聚焦于职业描述文本，系统生成锚点句子的正向释义和具有迷惑性的负向样本，形成具有挑战性的检索任务三元组。数据生成策略包含两种难度模式，其中困难模式特别强调构建语法结构相似但语义无关的'硬负例'，以提升模型区分能力。

特点

该数据集最显著的特点在于其精心设计的难度梯度。简单版本提供基础的正负例对比，而困难版本则构建了具有高度迷惑性的负例，这些负例在词汇选择和句式结构上都与正例高度相似。数据集覆盖会计、审计等多个职业领域，每个样本包含锚点描述、正向查询、负向描述等完整字段，并附带详细的生成元数据。特别值得注意的是，负例生成采用四种策略确保语义差异，为检索模型提供了极具挑战性的训练素材。

使用方法

该数据集主要应用于检索模型的训练与评估。使用者可通过HuggingFace的datasets库直接加载不同难度配置，其中generate_retrieval_pairs_hard配置专为需要区分细微语义差异的进阶模型设计。典型使用场景包括：将锚点作为查询，正向描述作为相关文档训练稠密检索模型；利用困难负例提升模型鲁棒性；或通过分析不同难度样本上的表现差异来评估模型能力边界。数据集还提供完整的pipeline.yaml文件，支持用户通过distilabel工具复现或修改数据生成流程。

背景与挑战

背景概述

ssf-synthetic-data-for-retriever数据集由Argilla团队基于distilabel框架构建，专注于生成用于检索系统训练的合成数据。该数据集以新加坡SkillsFuture技能框架中的职位描述为锚点，通过大语言模型生成正负样本对，旨在提升检索模型在职业领域的语义理解能力。数据集包含三种配置，分别针对不同难度的负样本生成策略，体现了合成数据在解决特定领域数据稀缺问题上的创新应用。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域层面，职业描述检索需要区分高度相似的职位表述，而模型需在共享行业术语的干扰下捕捉细微的职能差异；构建层面，合成数据的质量依赖于提示工程的精确度，既要确保正样本的语义一致性，又要构造具有迷惑性的硬负样本，这对语言模型的指令遵循能力和领域知识提出了双重考验。

常用场景

经典使用场景

在信息检索系统开发领域，该数据集通过精心设计的锚点-正例-负例三元组结构，为检索模型训练提供了标准化的评估基准。其独特价值在于模拟真实职场搜索场景，通过会计审计等专业领域的职位描述文本，构建了语义相似但实际无关的困难负样本，有效检验模型对细粒度语义差异的捕捉能力。

衍生相关工作

基于该数据集的特性，学术界衍生出多项关于困难负样本采样的创新研究，包括动态负样本加权策略和基于课程学习的渐进式训练方法。在工业界，微软和LinkedIn等机构借鉴其数据构造逻辑，开发了新一代职业社交网络中的语义检索系统，相关成果发表在SIGIR和ACL等顶级会议。

数据集最近研究