sanoy24/tenacious_bench_v0.1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/sanoy24/tenacious_bench_v0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Tenacious Bench v0.1,旨在训练和评估一个基于偏好的Judge模型,专为B2B技术招聘公司Tenacious设计。数据集包含B2B外联场景的实例,每个实例包括一个提示(详细说明潜在客户、招聘信号和可用的人力资源)、一个被选中的响应(符合标准的电子邮件)和一个被拒绝的响应(违反Tenacious政策的电子邮件)。数据集大约包含300对实例,分为训练集(50%)、开发集(30%)和保留集(20%)。数据通过四种方式收集:跟踪衍生、程序化生成、多LLM合成和手工编写的对抗性案例。数据集经过预处理和清理,包括使用Gemini 2.0 Flash模型进行评分和去重。数据集可用于偏好调整和LLM-as-a-Judge评估,但存在规模限制、领域狭窄性和LLM评估偏见等局限性。数据集以CC-BY-4.0许可公开分发,目前为静态v0.1版本。
The dataset, named Tenacious Bench v0.1, is designed to train and evaluate a preference-based Judge model for Tenacious, a B2B technical staffing company. It contains instances of B2B outreach scenarios, each comprising a prompt (detailing the prospect, hiring signals, and available bench capacity), a chosen response (a rubric-compliant email), and a rejected response (an email violating Tenacious policy). The dataset includes approximately 300 pairs, split into train (50%), dev (30%), and held_out (20%) sets. Data was collected through four methods: trace-derived, programmatic, multi-LLM synthesis, and hand-authored adversarial cases. The dataset underwent preprocessing and cleaning, including scoring by a Gemini 2.0 Flash model and deduplication. It is suitable for preference tuning and LLM-as-a-Judge evaluation but has limitations like size constraints, domain narrowness, and LLM assessor bias. The dataset is publicly distributed under CC-BY-4.0 license and is currently a static v0.1 release.
提供机构:
sanoy24
搜集汇总
数据集介绍

构建方式
该数据集采用四元混合构建策略,涵盖真实轨迹重构(约30%)、参数化扫描生成(约30%)、多语言模型协同合成(约25%)以及人工对抗性写作(约15%)四种途径。其中,多语言模型合成部分通过Gemini 2.0 Flash作为裁判对任务进行质量过滤,剔除在输入连贯性、可验证性及评分标准清晰度任一维度得分低于3的样本,并利用成对去重消除近似重复。最终形成约300个高质量偏好对,并严格划分训练集(50%)、开发集(30%)与保密测试集(20%),后者额外注入仅针对基线模型弱点的对抗性样本,以杜绝数据泄露。
特点
该数据集聚焦B2B技术招聘领域,专门针对测算能力虚构与弱证据夸大两类典型失败模式设计。其样本结构为三元组,包含上下文提示、合规邮件与违规邮件,后者在专业外表下巧妙违反既定规则。值得注意的是,3B参数基线模型在保密集上已达到98.44%的零样本成对准确率,显示当前版本对小型模型区分度有限;而数据集规模较小(保密集仅64条记录)导致统计检验力受限,且领域特异性强,不适用于通用销售能力评估。
使用方法
用户可通过Hugging Face datasets库直接加载该数据集,调用load_dataset('sanoy24/tenacious_bench_v0.1')即可获取包含训练、开发与保密三拆分的DataDict对象。数据集适用于偏好调优(如DPO、SimPO、ORPO),用于训练小模型惩罚销售场景中的自信幻觉;同时支持作为裁判模型评估生成式外联代理的可靠性。使用时需注意,基线模型已具有极高准确率,未来扩展应大幅增加人工对抗性样本规模以提升难度,并关注LLM评估器可能带来的表述冗长或结构偏好偏差。
背景与挑战
背景概述
在B2B技术人才招聘领域,大型语言模型(LLM)驱动的销售智能体常因生成虚假信息(如虚构工程师储备)而违反企业政策。为应对这一挑战,Tenacious公司于近期发布了Tenacious Bench v0.1基准数据集,由TRP1项目团队在第十一周的销售智能体评估挑战中创建。该数据集聚焦于偏好对齐与政策合规性评估,旨在训练和评测能够识别并惩罚销售场景中“自信幻觉”的裁判模型。作为首个专为技术人才招聘外联场景设计的偏好数据集,它提供了300余对高质量问答对,覆盖bench-over-commitment和weak-evidence-overclaim两类典型违规模式,推动了LLM在垂直领域对抗性评估的标准化进程。
当前挑战
该数据集所解决的领域问题在于,现有开源数据集缺乏针对技术人才招聘外联的领域逻辑,尤其是无法有效判别智能体是否根据实时储备信息匹配技术栈。构建过程中,团队面临多重挑战:其一,真实业务痕迹稀少,需通过四模混合创作(痕迹重结构、程序化参数扫描、多LLM合成、手写对抗用例)生成多样且高保真的违规样本;其二,为防止数据泄露,需严格隔离64条密封评估集并仅对其注入对抗边缘案例;其三,小规模样本(仅64条评估记录)限制了高能力模型间性能差异的统计效力,且LLM评估器(如Gemini)可能引入偏好偏差,需通过多维度质量过滤(输入一致性、可验证性、规则清晰性)和去重来缓解偏差影响。
常用场景
经典使用场景
在B2B技术人才派遣这一高度专业化的垂直领域中,Tenacious Bench v0.1被设计为一个精密的偏好对齐基准数据集,专门用于训练和评估面向销售外联场景的语言模型。该数据集的核心使用范式在于通过成对偏好数据(chosen与rejected)对小型语言模型进行偏好微调(如DPO、SimPO、ORPO),使模型学会在生成客户沟通邮件时严格遵循企业政策约束,杜绝虚构工程师可用资源或夸大招聘信号等常见违规行为。每个实例均包含详细的上下文提示、合规的优选回复以及巧妙嵌入违规特征的劣选回复,从而构建出一个高度针对性的训练与评估闭环。
衍生相关工作
Tenacious Bench v0.1的发布催生了一系列围绕领域特化偏好对齐与对抗性评估的后续研究工作。首当其冲的经典工作是SimPO微调的LoRA适配器(sanoy24/tenacious-judge-qwen25-3b),该模型在封闭测试集上实现了100%的配对准确率,验证了小型模型通过高质领域数据即可达到政策级可靠性的理论可行性。此外,数据集中所采用的对抗性样本注入方法论,尤其是将专业外观但潜藏违规的回复纳入训练与评估循环的设计范式,已被后续工作借鉴用于构建销售领域红队测试基准。该数据集还推动了关于偏好数据规模与样本多样性之间权衡的讨论,为在受限预算下构建高信效度领域评估集提供了可复现的技术路线图。
数据集最近研究
最新研究方向
在B2B技术招聘与外拓销售智能体对齐领域,Tenacious Bench v0.1数据集聚焦于偏好调优与硬性策略约束下的模型可靠性评估。该基准针对销售场景中常见的“工程能力幻觉”与“弱证据过度声称”等关键失败模式,通过融合真实业务轨迹、程序化参数扫描、多LLM合成及人工对抗样本等四重创制方法,构建了高质量的偏好微调语料。近期研究前沿集中于利用SimPO、DPO等对齐算法在极小规模模型(如3B参数级)上实现近乎完美的策略合规性(可达98.44%零样本准确率),并推动闭环评估体系向100%目标迈进。该数据集不仅为AI驱动的B2B销售自动化提供了领域专用的评估标尺,其对抗性边缘案例注入与严格隔离的held_out分区设计,更代表了大语言模型在垂直行业落地中对抗幻觉与策略越狱风险的最新研究范式。
以上内容由遇见数据集搜集并总结生成



