Birkity/tenacious_bench_v0.1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Birkity/tenacious_bench_v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个用于评估B2B销售代理质量的机器可验证基准测试集。它包含257个任务,分为四种创作模式和三个密封分区。数据集通过五个维度(包括基础保真度、ICP推销对齐、信号方向性、语气合规性和格式合规性)来评估`(brief, email)`对的质量,这些维度完全不需要大型语言模型(LLM)即可机器验证。数据集结构包括开发集、合成开发集、训练集和开发集分区,其中held_out分区未公开。数据集还详细描述了任务模式、组成、分区、污染检查、SimPO Judge Adapter训练和消融结果等信息。
Tenacious-Bench v0.1 is a machine-verifiable evaluation benchmark for B2B sales-agent quality. It contains 257 tasks divided into four authoring modes and three sealed partitions. The dataset measures whether a `(brief, email)` pair satisfies five rubric dimensions (grounding_fidelity, icp_pitch_alignment, signal_directionality, tone_compliance, and format_compliance) that are fully machine-verifiable without an LLM. The dataset structure includes dev, dev_synthetic, train, and dev partitions, with the held_out partition not distributed. Detailed information about task schema, dataset composition, partitions, contamination checks, SimPO-trained judge adapter, and ablation results is provided.
提供机构:
Birkity
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1是一个针对B2B销售智能体质量评估的机器可验证基准数据集,包含257个任务,源自四种不同的构建模式:基于真实公司事件轨迹的trace_derived批次、通过确定性参数模板生成的programmatic批次、手工撰写的对抗性边缘用例adversarial_hand批次、以及由大语言模型生成的语义探测样本synthetic_semantic批次。数据集划分为训练、开发和密封保留三个分区,其中114个任务用于训练偏好对,78个任务作为公开评估集,65个任务以密封形式存在以防止数据泄露。所有任务均采用统一JSON结构,包含公司简介、邮件内容及五维评分量规,确保评估的标准化与可复现性。
特点
该数据集的核心特点在于其五维机器可验证评估体系,覆盖证据保真度、ICP定位对齐、信号方向性、语调合规性及格式合规性,所有维度均无需依赖大语言模型即可通过确定性规则完成判定。数据集通过三重污染检测验证了分区的独立性,包括8-gram重叠、嵌入余弦相似度和时间偏移检验,确保评估的公正性。此外,基于训练分区构建了228个偏好对,采用SimPO算法对Qwen2.5-3B-Instruct模型进行微调,生成的评判适配器在保留分区上将准确率从50.8%提升至59.4%,并完全消除了ICP对齐错误。
使用方法
使用该数据集时,用户可直接加载dev分区的JSONL文件作为标准评估输入,每个任务包含完整的brief和email字段,需依据rubric中的五维规则进行逐项判定。对于需要自动化评估的场景,可以从模型仓库加载预训练的tenacious_judge_adapter LoRA适配器,配合Qwen2.5-3B-Instruct基座模型,通过SimPO训练后的评判器对任务进行打分。数据集还提供了train分区的偏好对数据,支持研究者自行训练新的评判模型或进行对比实验。所有数据采用CC-BY-4.0许可,方便学术和商业场景中的二次使用。
背景与挑战
背景概述
在人工智能驱动商业自动化的浪潮中,B2B销售智能体(sales-agent)的质量评估长期依赖人工评审或大语言模型(LLM)的主观判断,缺乏标准化且可机器验证的基准。为此,Birkity Mekasha于2026年提出了Tenacious-Bench v0.1,这是一个专为B2B外联邮件智能体质量评估设计的可机器验证基准数据集。该数据集由257项任务构成,涵盖四种创作模式(trace-derived、programmatic、adversarial_hand、synthetic_semantic)和三个密封分区(train/dev/held_out),旨在通过五个完全无需LLM的规则维度(如事实忠实性、ICP对齐性、信号方向性等)对智能体输出进行客观评判。其核心创新在于利用SimPO算法训练专用的judge adapter,在封闭测试集上取得了8.6%的准确率提升,为销售智能体的自动化评测提供了新的范式,对B2B销售自动化和偏好学习领域具有重要推动作用。
当前挑战
该数据集所解决的领域挑战在于,B2B销售邮件智能体的质量评价长期受制于主观标准和LLM评估的不稳定性,缺乏一套可复现、可机器验证的量化基准。Tenacious-Bench通过定义五项规则性维度(如禁止短语检测、格式合规性等)实现了完全自动化的评估,消除了对LLM作为判官的依赖。在数据集构建过程中,挑战主要包括:确保任务多样性以覆盖真实销售场景,例如从公司事件痕迹中追溯衍生任务、通过参数模板生成程序化任务、手工构建对抗性边界案例以及利用LLM生成语义探测样本;设计防污染机制,通过n-gram重叠检查、嵌入余弦相似度分析和时间偏移验证确保密封分区的纯洁性;以及在高难度边界案例(adversarial_hand任务中82%为“hard”级别)中平衡数据分布,保证基准对智能体的区分度。
常用场景
经典使用场景
在B2B销售智能体评估领域,Tenacious-Bench v0.1作为首个完全机器可验证的基准数据集,聚焦于评估销售邮件与客户简报之间的多维契合度。该数据集涵盖257个精心设计的任务,通过溯源衍生、程序化生成、对抗性手工编纂及语义边缘案例四种构建模式,系统性检验智能体在事实忠实度、ICP对齐策略、信号方向性、语气合规性及格式规范性五个关键维度的表现。每条样本均附带明确可执行的规则化评分标准,无需依赖大语言模型参与评判,使得评估过程具备高度的可复现性与客观性,成为衡量B2B销售智能体输出质量的标准化测试平台。
衍生相关工作
围绕Tenacious-Bench v0.1衍生了一系列具有启发性的研究工作。最突出的成果是基于训练分区构建的Judge适配器,研究人员利用228个维度推理偏好对,通过SimPO算法在Qwen2.5-3B-Instruct骨干模型上训练出专用的评判模型,在开发集和密封测试集上分别带来了5.2%和8.6%的准确率提升,并彻底消除了ICB对齐维度上的所有错误。这一范式展示了从结构化规则到可学习评判器的知识蒸馏路径,为构建领域专用、低成本且高可靠的自动化评估系统提供了可行的技术参考,也启发了后续在跨场景迁移、少样本适应以及评估维度动态扩展等方向上的探索。
数据集最近研究
最新研究方向
Tenacious-Bench v0.1作为首个面向B2B外联销售场景的机器可验证评估基准,开辟了智能销售体质量评测的前沿方向。该基准巧妙构建了257项任务,覆盖履痕派生、程序化生成、对抗性手工及语义合成四种创作模式,并采用SimPO算法训练专用判据适配器,实现五个维度(基础事实忠实度、ICP对齐度、信号方向性、语气合规性、格式合规性)的精确可计算评估。特别值得注意的是,其密封分区设计与三元组污染检查机制显著提升了评估的可信度,为B2B智能销售体从训练到部署全生命周期提供了标准化的质量度量框架。该基准的提出有效解决了传统测评依赖大模型评估带来的成本高昂与结果不可复现困境,推动销售智能化领域朝向更加严谨、可重复的实证研究范式转型。
以上内容由遇见数据集搜集并总结生成



