mamaru13/tenacious-bench-v0.1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mamaru13/tenacious-bench-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个专门用于评估B2B销售代理的领域特定基准测试数据集,测试通用基准(如τ²-Bench、AgentBench)未涵盖的故障模式。数据集包含218个任务,分为三个部分(训练集、开发集、保留集),覆盖10个特定故障类别。数据通过四种生成模式创建:跟踪衍生、程序化、多LLM合成和手工编写的对抗性任务。数据集采用CC-BY-4.0许可,旨在用于B2B销售代理的评估任务。
Tenacious-Bench v0.1 is a domain-specific evaluation benchmark for B2B sales agents, testing failure modes that general-purpose benchmarks (τ²-Bench, AgentBench) do not measure. The dataset consists of 218 tasks across 3 splits (train, dev, held_out), covering 10 Tenacious-specific failure categories. The data was generated via four authoring modes: trace-derived, programmatic, multi-LLM synthesis, and hand-authored adversarial. Licensed under CC-BY-4.0, the dataset is designed for evaluation tasks related to B2B sales agents.
提供机构:
mamaru13
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1是一个专为B2B销售智能体设计的领域特异性评估基准,旨在弥补通用基准如τ²-Bench和AgentBench在检测特定失败模式上的不足。该数据集共包含218个任务,通过四种互补的构建途径生成:程序化模板扩展(108个任务,占比49.5%),基于5个核心模板的参数扫描实现组合扩展;多LLM合成(55个任务,25.2%),以探针标识锚定种子规格,利用Qwen3-235B生成并由DeepSeek评判以防止偏好泄漏;痕迹衍生(35个任务,16.1%),从τ²-Bench的911条轨迹中映射失败案例至十种韧性特定失败类别;以及手工编写对抗性任务(20个任务,9.2%),聚焦三重信号冲突等极端边界情况。所有任务均通过启发式评判过滤器筛选,经过去重、污染检测及人工复核,最终按难度与来源模式分层划分为训练集(50%)、开发集(30%)和保留集(20%)。
特点
该数据集的核心特点在于其高度领域针对性与系统性失败模式覆盖。它严格聚焦B2B销售场景中通用基准无法测度的五大失败维度:ICP段优先级规则的正确应用、基于信号置信度的邮件断言力度对齐、多轮对话中语气一致性维护、交接边界遵循以及模糊数据上的合理弃权。数据集涵盖十种精心定义的失败类别,包括ICP误分类(55个任务)、信号过度断言(40个任务)、基准过度承诺(31个任务)等,各类别权重基于周十证据中的触发率分布。任务难度分布呈金字塔形——困难级占48.6%、中等43.1%、简单仅8.3%,确保了评估的区分度。此外,每个任务均配备机器可验证的评分细则,包含加权维度、通过阈值及禁止与必需短语,从而支持自动化和可复现的评估流程。
使用方法
使用Tenacious-Bench v0.1进行模型评估需遵循简洁的流程。首先,通过HuggingFace的datasets库加载数据集,例如`load_dataset("mamaru13/tenacious-bench-v0.1", split="dev")`即可获取开发集。每个任务实例包含完整的输入——潜在客户摘要、基准汇总、对话历史及场景描述,以及对应的地面真值——预期ICP分类、行为、信号框架、禁止与必需短语,加之附权重的可验证评分细则。评估环节需从配套仓库克隆评分评估器,执行`python eval/scoring_evaluator.py`即可自动化计算任务通过率。该评估器与细则结构紧密耦合,因此直接使用其提供的评估管道是获得标准化结果的唯一途径。数据集中的保留集在设计上被密封并Git忽略,旨在防止评估污染,确保榜单发布前的公正性。
背景与挑战
背景概述
Tenacious-Bench v0.1由研究者Mamaru Yirga于2026年创建,旨在弥补通用基准(如τ²-Bench、AgentBench)在评估B2B销售智能体时的领域特定失效模式检测能力的不足。该数据集聚焦于200余项任务,覆盖ICP分类错误、信号过度宣称、语气漂移等10个关键失败类别,其中约67%的生产故障由五大核心维度引发。通过程序化生成、多LLM合成、追踪派生及手动对抗编写四种数据源头,该基准不仅为B2B销售智能体的系统评测提供了规范化标尺,也为后续偏好微调与过程奖励模型研究奠定了数据基础。
当前挑战
该数据集所应对的领域挑战在于现行通用评测体系无法检测层级分类逻辑、信号置信度判定及跨轮对话语气一致性等B2B销售特有的智能体失效模式。在构建过程中,面临多重挑战:从τ²-Bench零售场景痕迹映射到Tenacious失效类别时存在启发式噪声;程序化模板任务的高相似度需透过0.97余弦阈值保留参量变异;LLM合成任务可能包含幻觉化的公司细节或非真实信号组合;手动对抗样本需保证复杂场景中的规则优先级判定。整体构建需在覆盖48个探测标识、平衡难度分层及防泄漏间取得谨慎权衡。
常用场景
经典使用场景
Tenacious-Bench v0.1 作为专为B2B销售智能体设计的领域特定评估基准,其最经典的使用场景在于系统性地检验销售智能体在处理层次化客户画像分类、信号置信度对齐、跨轮次语调一致性保持、任务边界遵守以及数据不确定性下的合理放弃策略等五类核心失能模式时的表现。该基准通过218个精心编排的任务,覆盖了十种源自真实生产环境的失败类别,为研究者提供了一个超越通用基准(如τ²-Bench、AgentBench)测量范畴的精细化评估工具。
解决学术问题
该数据集解决了学术界在评估领域特定智能体时面临的普遍性困境——通用基准无法触及垂直业务场景中的层次化分类逻辑、信号置信度层级判别以及多轮对话中的语调连贯性等细粒度失效模式。Tenacious-Bench通过构建基于生产轨迹、程序化模板、多模型合成和人工对抗性编写的四源任务生成管道,系统性地映射并量化了B2B销售场景中占比高达67%的典型故障,为智能体鲁棒性研究提供了可复现、可度量的标准化评估框架,推进了领域特定AI系统的可信评估方法论。
衍生相关工作
围绕Tenacious-Bench衍生了一系列有价值的研究工作,包括开发基于偏好优化的判决器(如DPO、SimPO、ORPO在Qwen3.5-0.8B上的LoRA微调),以及构建用于多轮销售对话的Process Reward Model。该基准还催生了针对信号置信度对齐的LLM智能体研究方向、跨线程语调一致性维持机制探索,以及B2B销售邮件生成的SFT组件训练范式。此外,其可复现的任务生成脚本和开放贡献机制,为社区后续扩展任务模板、增加对抗性样本、进行跨领域适配提供了基础设施支撑。
以上内容由遇见数据集搜集并总结生成



