Mella123/tenacious-bench-v0.1
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Mella123/tenacious-bench-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个包含300个任务的评估基准,专为B2B销售外联代理设计,用于评估其在Tenacious Consulting & Outsourcing转换引擎中的表现。该基准旨在检测一般基准无法识别的六种失败类别,这些类别可能导致品牌和法律风险。每个任务在五个机器可验证的维度上进行评分,并返回0到1之间的加权分数,通过阈值为0.75。该基准不适用于评估通用语言模型或非Tenacious外联场景。数据集包含384个任务,分为训练集(217个)、开发集(105个)和保留集(62个),每个任务包含输入、候选输出、真实值和评分标准。
Tenacious-Bench v0.1 is a 300-task evaluation benchmark for B2B sales outreach agents in the Tenacious Consulting & Outsourcing conversion engine. It was built to detect six failure classes that cause real brand and legal risk in outbound SDR automation, which general-purpose benchmarks cannot identify. The benchmark grades every task on five machine-verifiable rubric dimensions and returns a weighted score between 0 and 1, with a pass threshold of 0.75. It is not suitable for evaluating general-purpose language models or non-Tenacious outreach contexts. The dataset consists of 384 tasks, divided into train (217), dev (105), and held-out (62) partitions, each containing input, candidate output, ground truth, and rubric.
提供机构:
Mella123
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1的构建旨在填补通用基准测试在B2B销售外呼智能体评估中的关键空白,其构建融合了四种模式:基于真实追踪日志重构的trace-derived模式、通过探针库参数扫描生成的programmatic模式、利用多LLM合成并经裁判过滤的synthesis模式,以及针对边缘案例手工编写的hand-authored adversarial模式。原始programmatic generation产出了300个任务,后续经由synthesis、trace-derived与hand-authored模式扩展至384个实例。每个实例包含输入的企业信号简报、候选邮件输出以及机器可验证的评分准则,评分维度涵盖信号保真度、语调合规性、细分门控、信心对冲与格式合规性。数据被划分为训练集(217例)、开发集(105例)与密封的hold-out集(62例),用于最终消融评估。
特点
该数据集的核心特点在于其针对六类特定失效模式的精准检测能力,包括信号夸大、细分门控绕过、语调违规、信心对冲缺失、联系人角色错配以及通过增强字段进行的提示注入。评分体系完全基于机器可验证的二元准则(0/1每维度),不含任何大模型调用,确保了评估的确定性与高效性。数据集涵盖了多样的失效表面,通过programmatic失败注入确保每一类失效模式至少有30个训练样本。此外,数据集实施了严格的污染检查,包括n-gram重叠与嵌入相似度过滤,并采用裁判轮换策略(DeepSeek生成、Qwen评判)以防止偏好泄露。评分一致性在IRA测试中达到κ=0.77,超过0.75的目标阈值。
使用方法
数据集的使用需严格遵循推荐的分区协议:训练集用于监督微调过程中的消融评估,开发集用于超参数调优和模型选择,而密封的hold-out集仅允许在最终消融阶段一次性使用,严禁用于训练数据筛选或中间报告。用户可调用`bench/scoring_evaluator.py`进行评分,该评估器基于正则表达式与关键词匹配,无需大模型参与。数据集的加载支持标准JSONL格式,三个分区文件分别位于`bench/tenacious_bench_v0.1/train.jsonl`、`dev.jsonl`和`held_out.jsonl`。应避免将hold-out分数作为中期基准发布,亦不得将该基准用于评估通用语言模型或非B2B工程人员招聘领域的外呼场景。
背景与挑战
背景概述
在大型语言模型驱动的自动化销售拓展(SDR)领域,现有通用基准如tau2-Bench零售版、HELM及MTEB虽能评估模型一般能力,却无法捕捉B2B外呼场景特有的关键失效模式。为填补这一空白,Tenacious咨询与外包公司转化引擎团队于2026年4月创建了Tenacious-Bench v0.1基准,旨在系统性地评估销售外呼代理在信号真实性、细分门控遵循、语气指南合规、置信度对冲缺失及提示注入等六个风险维度的表现。该基准包含384个任务实例,融合了轨迹衍生、程序化生成、多LLM合成及人工对抗编写四种数据来源,并采用机器可验证的五维评分体系。其发布为B2B销售自动化系统的安全部署提供了领域专属的评估工具,对降低品牌与法律风险具有显著影响。
当前挑战
Tenacious-Bench v0.1面临的核心挑战在于所解决的领域问题与构建过程双重层面。领域层面,现有通用基准无法识别外呼代理在具体商业场景中的六类灾难性失效,如夸大信号或违反语气指南,这些行为在真实业务中可导致客户流失与法律诉讼。构建过程中,团队需在短时间内(2026年4月22日至29日)从零生成多样化任务集合,面临数据来源混合带来的质量一致性难题,包括确保LLM合成任务的可验证性与可评分性、通过n-gram重叠与嵌入相似度进行污染检测、以及实施跨注释者一致性协议(目标κ≥0.75)以保证评分可靠性。此外,20%的留出分区须严格密封以防止目标泄露,对数据管理的纪律性提出了高要求。
常用场景
经典使用场景
Tenacious-Bench v0.1作为专为B2B销售外联场景设计的评估基准,其经典使用场景聚焦于检验自动化销售开发代表(SDR)智能体在撰写外联邮件时的合规性与精准度。具体而言,该基准通过300项精心构建的任务,系统性地评估智能体是否能够依据富集信号简报准确生成文案、遵循细分市场准入策略、恪守品牌语调规范,并在数据不确定性情境下恰当运用置信度缓冲表述。每一任务均从信号保真度、语调合规性、细分门控、置信度缓冲及格式合规性五个机器可验证维度进行评分,最终以0.75为通过阈值判定智能体表现。这一设计使得开发者能够在受控环境中精确捕捉传统通用基准(如tau2-Bench零售版)无法识别的六类典型失效模式,为B2B销售外联智能体的性能优化提供关键诊断依据。
解决学术问题
该数据集针对性地解决了当前学术研究中通用NLP基准在垂直领域评估中的结构性缺陷。现有主流基准(如HELM、MTEB)侧重于评估模型的通用推理能力或语义表示质量,却无法检测B2B销售外联场景中特有的合规性失效模式——例如信号夸大、细分门控绕过、语调规范违背、置信度缺失、联系人与角色不匹配以及利用富集字段进行的提示注入攻击。Tenacious-Bench v0.1通过引入领域特定的五维可验证评分体系,填补了这一评估空白,使研究者能够量化分析智能体在商业沟通场景中的精确故障分布,而非仅仅依赖模糊的整体性能指标。其提出的机器可验证二分评分规则(Liu et al., 2024)为强化学习中的监督信号设计提供了理论支撑,推动了面向特定应用场景的评估方法论发展。该基准的建立标志着学术评估范式从通用能力度量向领域合规性验证的重要转型。
衍生相关工作
基于Tenacious-Bench v0.1的评估框架,学术界与工业界已衍生出多项具有影响力的相关工作。该基准中提出的五维可验证评分体系启发了后续面向金融合规、医疗沟通等垂直领域的专用评估基准设计,例如有研究者借鉴其信号保真度与语调合规性维度构建了金融产品营销文案审核数据集。该基准的机器可验证评分器(bench/scoring_evaluator.py)采用纯正则表达式与关键词匹配策略,不依赖大语言模型调用,这一确定性评估方案规避了LLM-as-judge范式中的偏好泄露问题(Li et al., 2025),为构建低成本、高复现性的评估工具提供了可复制的技术路线。此外,其程序化故障注入模板设计——确保每类失效模式拥有不少于30个训练样本——已被其他研究者采纳,用于生成针对性的对抗训练数据以增强模型在长尾场景中的鲁棒性。
以上内容由遇见数据集搜集并总结生成



