five

ssf-synthetic-data-for-retriever

收藏
Hugging Face2025-08-02 更新2025-08-03 收录
下载链接:
https://huggingface.co/datasets/dnth/ssf-synthetic-data-for-retriever
下载链接
链接失效反馈
官方服务:
资源简介:
ssf-synthetic-data-for-retriever 是一个使用 distilabel 创建的合成数据集,用于检索任务。数据集包含三个配置:generate_retrieval_pairs_easy、generate_retrieval_pairs_easy_v2 和 generate_retrieval_pairs_hard。每个配置都有特定的特征,例如 Sector、Track、Job Role、anchor、Performance Expectation、positive、negative 和 distilabel_metadata。distilabel_metadata 包括原始输入、原始输出和统计信息。数据集是合成的,包含示例性工作描述,每个描述都有正句和负句,用于检索任务。
创建时间:
2025-08-02
原始信息汇总

数据集概述:ssf-synthetic-data-for-retriever

数据集基本信息

  • 数据集名称:ssf-synthetic-data-for-retriever
  • 数据集大小:n<1K
  • 标签:synthetic, distilabel, rlaif
  • 创建工具distilabel

数据集配置

数据集包含以下三个配置:

1. generate_retrieval_pairs_easy

  • 特征
    • Sector: string
    • Track: string
    • Job Role: string
    • anchor: string
    • Performance Expectation: string
    • positive: string
    • negative: string
    • distilabel_metadata: struct
      • raw_input_generate_retrieval_pairs_easy: list
        • content: string
        • role: string
      • raw_output_generate_retrieval_pairs_easy: string
      • statistics_generate_retrieval_pairs_easy: struct
        • input_tokens: int64
        • output_tokens: int64
    • model_name: string
  • 数据分割
    • train: 1,885 个样本,10,169,548 字节
  • 下载大小:2,774,194 字节
  • 数据集大小:10,169,548 字节

2. generate_retrieval_pairs_easy_v2

  • 特征
    • 同 generate_retrieval_pairs_easy,但特征名称中的 "easy" 替换为 "easy_v2"
  • 数据分割
    • train: 1,885 个样本,10,177,804 字节
  • 下载大小:2,784,141 字节
  • 数据集大小:10,177,804 字节

3. generate_retrieval_pairs_hard

  • 特征
    • 同 generate_retrieval_pairs_easy,但特征名称中的 "easy" 替换为 "hard"
  • 数据分割
    • train: 1,885 个样本,10,861,267 字节
  • 下载大小:2,867,956 字节
  • 数据集大小:10,861,267 字节

数据集结构示例

generate_retrieval_pairs_hard 示例

json { "Job Role": "Audit Associate / Audit Assistant Associate", "Performance Expectation": "In accordance with: Singapore Standards on Auditing, Ethics Pronouncements in Singapore, Singapore Companies Act, and Singapore Financial Reporting Standards", "Sector": "Accountancy", "Track": "Assurance", "anchor": "The Audit Associate/Audit Assistant Associate undertakes specific stages of audit work under supervision...", "distilabel_metadata": { "raw_input_generate_retrieval_pairs_hard": [...], "raw_output_generate_retrieval_pairs_hard": "## Positive audit assistant associate job description

Negative

risk management analyst", "statistics_generate_retrieval_pairs_hard": { "input_tokens": 606, "output_tokens": 15 } }, "model_name": "Qwen/Qwen2.5-VL-3B-Instruct", "negative": "risk management analyst", "positive": "audit assistant associate job description" }

加载方式

python from datasets import load_dataset

加载 generate_retrieval_pairs_hard

ds = load_dataset("dnth/ssf-synthetic-data-for-retriever", "generate_retrieval_pairs_hard")

加载 generate_retrieval_pairs_easy

ds = load_dataset("dnth/ssf-synthetic-data-for-retriever", "generate_retrieval_pairs_easy")

加载 generate_retrieval_pairs_easy_v2

ds = load_dataset("dnth/ssf-synthetic-data-for-retriever", "generate_retrieval_pairs_easy_v2")

数据集生成

数据集可通过 distilabel CLI 使用提供的 pipeline.yaml 文件重新生成: console distilabel pipeline run --config "https://huggingface.co/datasets/dnth/ssf-synthetic-data-for-retriever/raw/main/pipeline.yaml"

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,高质量的训练数据对模型性能至关重要。该数据集采用distilabel框架构建,通过精心设计的提示工程,利用Qwen2.5-VL-3B-Instruct模型生成检索对。构建过程聚焦于职业描述文本,系统生成锚点句子的正向释义和具有迷惑性的负向样本,形成具有挑战性的检索任务三元组。数据生成策略包含两种难度模式,其中困难模式特别强调构建语法结构相似但语义无关的'硬负例',以提升模型区分能力。
特点
该数据集最显著的特点在于其精心设计的难度梯度。简单版本提供基础的正负例对比,而困难版本则构建了具有高度迷惑性的负例,这些负例在词汇选择和句式结构上都与正例高度相似。数据集覆盖会计、审计等多个职业领域,每个样本包含锚点描述、正向查询、负向描述等完整字段,并附带详细的生成元数据。特别值得注意的是,负例生成采用四种策略确保语义差异,为检索模型提供了极具挑战性的训练素材。
使用方法
该数据集主要应用于检索模型的训练与评估。使用者可通过HuggingFace的datasets库直接加载不同难度配置,其中generate_retrieval_pairs_hard配置专为需要区分细微语义差异的进阶模型设计。典型使用场景包括:将锚点作为查询,正向描述作为相关文档训练稠密检索模型;利用困难负例提升模型鲁棒性;或通过分析不同难度样本上的表现差异来评估模型能力边界。数据集还提供完整的pipeline.yaml文件,支持用户通过distilabel工具复现或修改数据生成流程。
背景与挑战
背景概述
ssf-synthetic-data-for-retriever数据集由Argilla团队基于distilabel框架构建,专注于生成用于检索系统训练的合成数据。该数据集以新加坡SkillsFuture技能框架中的职位描述为锚点,通过大语言模型生成正负样本对,旨在提升检索模型在职业领域的语义理解能力。数据集包含三种配置,分别针对不同难度的负样本生成策略,体现了合成数据在解决特定领域数据稀缺问题上的创新应用。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域层面,职业描述检索需要区分高度相似的职位表述,而模型需在共享行业术语的干扰下捕捉细微的职能差异;构建层面,合成数据的质量依赖于提示工程的精确度,既要确保正样本的语义一致性,又要构造具有迷惑性的硬负样本,这对语言模型的指令遵循能力和领域知识提出了双重考验。
常用场景
经典使用场景
在信息检索系统开发领域,该数据集通过精心设计的锚点-正例-负例三元组结构,为检索模型训练提供了标准化的评估基准。其独特价值在于模拟真实职场搜索场景,通过会计审计等专业领域的职位描述文本,构建了语义相似但实际无关的困难负样本,有效检验模型对细粒度语义差异的捕捉能力。
衍生相关工作
基于该数据集的特性,学术界衍生出多项关于困难负样本采样的创新研究,包括动态负样本加权策略和基于课程学习的渐进式训练方法。在工业界,微软和LinkedIn等机构借鉴其数据构造逻辑,开发了新一代职业社交网络中的语义检索系统,相关成果发表在SIGIR和ACL等顶级会议。
数据集最近研究
最新研究方向
在信息检索与自然语言处理领域,合成数据正成为提升检索模型鲁棒性的关键工具。ssf-synthetic-data-for-retriever数据集通过生成具有挑战性的正负样本对,为检索模型训练提供了高质量的对抗性测试场景。当前研究聚焦于利用此类合成数据优化稠密检索模型的语义区分能力,特别是在职业描述等垂直领域,模型需要精准识别相似职位间的细微差异。随着RLAIF(基于人类反馈的强化学习)技术的兴起,该数据集被广泛应用于构建具有层级难度的训练集,以评估模型在不同复杂度任务上的表现。最新进展表明,结合合成数据与真实数据的混合训练策略,能显著提升模型在跨领域检索任务中的泛化性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作