rich6/tenacious-bench-v0.1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/rich6/tenacious-bench-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个包含200个任务的机器可验证基准数据集,专为B2B销售邮件代理设计,用于评估其在工程招聘领域的特定政策检查和语调标记。数据集分为训练集(97个任务)、开发集(60个任务)和保留集(43个任务),覆盖了7种失败维度和4种创作模式。每个任务代表一个B2B销售场景,包含输入、候选输出、真实标签和评分标准。数据集通过程序化生成、跟踪衍生、多LLM合成和手工编写四种方法创建,确保多样性和真实性。所有数据均为合成或经过匿名处理,不包含真实个人信息。
Tenacious-Bench v0.1 is a 200-task machine-verifiable benchmark for B2B sales email agents, graded on 6 deterministic policy checks and 5 LLM-scored tone markers derived from the Tenacious Consulting style guide. The dataset is partitioned into 97 train, 60 dev, and 43 held_out tasks, covering 7 failure dimensions and 4 authoring modes. Each task represents a B2B sales outreach scenario with input, candidate output, ground truth label, and scoring rubric. The dataset was created using four methods: programmatic generation, trace-derived adaptation, multi-LLM synthesis, and hand-authored adversarial examples. All data is synthetic or redacted, with no real prospect information included.
提供机构:
rich6
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1数据集通过四种精心设计的方式构建而成。其一是程序化生成,通过参数网格扫描,系统性地改变可用工程师人数、ICP细分领域和信号置信度等变量,构建出高度可验证的测试用例。其二是基于τ²-Bench真实运行日志的轨迹衍生,将实际交互记录中的公司名称、邮箱等个人信息通过正则替换进行脱敏处理,转化为标准任务格式。其三是多LLM协同合成,先由Claude Sonnet 4.6根据预设场景生成候选输出,再由Qwen3-Next-80B从输入连贯性、真实可验证性和评估规则清晰度三个维度进行质量评分,仅保留各项得分均不低于4分的任务。其四是人工编写,针对其他方法难以覆盖的边界情况和对抗性场景,由创建者richh-s逐一手工撰写,确保对特定失败模式的充分测试。
特点
该数据集的核心特色在于其开创性的多维评估体系。它摒弃了传统基准测试的二元通过/失败评判,转而采用六项确定性政策检查与五项LLM评分语气标记相结合的综合评分机制,能够精准识别出导致实际业务损失的各类失败模式。具体涵盖七种已定义的失败维度,包括超能力承诺、客户画像错误分类、信号夸大、语气违规等,每种维度均在训练集、开发集和保留集中按比例分布。数据集结构设计精妙,每个任务均包含完整的输入场景、待评估的候选输出、带有失败原因拆解的真实标签以及详细的评分规则。尤为独特的是,其采用AES-256加密封存的保留集,仅于排行榜发布时同步公开,有效防止了数据泄露导致的评估偏差。
使用方法
该数据集为B2B销售邮件智能体评估提供了标准化使用范式。研究人员可以将智能体生成的邮件草稿与数据集中提供的候选输出进行对比,依据预设的六项确定性规则(包括禁用短语检测、信号事实核对、人才匹配验证、字数限制、单一请求原则及关键词审查)进行自动化判定,若有任何一项未通过则综合得分为零。在此基础上,再利用LLM对语气标记进行打分,最终通过特定公式计算综合得分。数据集分区明确:97条任务用于构建偏好对和监督微调参考,60条用于开发迭代,43条保留集仅用于最终消融实验。使用者应遵循MIT许可协议,专注于B2B销售AI领域的评估研究,且需注意所有数据均为脱敏或合成内容,不可用于真实客户场景的测试。
背景与挑战
背景概述
Tenacious-Bench v0.1由10Academy TRP1项目的richh-s于2026年创建,旨在解决现有对话智能体评估基准τ²-Bench零售版在B2B工程人员派遣领域中的结构性缺陷。该基准包含200项任务,覆盖七大失败维度,通过编程生成、轨迹衍生、多LLM合成及手工对抗编写四种模式构建,弥补了现有系统在接地约束、岗位匹配门控、ICP路由正确性和多维度语气评分方面的空白,对评估和优化B2B销售邮件生成智能体具有重要价值。
当前挑战
该数据集所应对的领域挑战在于,现有评估框架无法捕捉导致实际收入损失的关键失败模式,例如智能体在邮件中虚构融资数据或承诺不存在的工程师资源。构建过程中面临的主要挑战包括:确保不同生成模式下的任务多样性与可验证性平衡,对轨迹衍生数据进行PII脱敏处理,以及通过多轮LLM质量筛选保证标注一致性。此外,手工编写的对抗样例集中分布于部分失败维度,限制了覆盖均匀性,且对非Tenacious销售风格的泛化能力尚未验证。
常用场景
经典使用场景
在对话式人工智能与垂直商业场景融合的浪潮中,Tenacious-Bench v0.1 数据集被广泛用于评估B2B销售邮件生成代理的合规性与有效性。其典型使用场景聚焦于检测代理在模拟的工程招聘外联流程中,是否严格遵循六项确定性策略检查(如信号真实性验证、人员匹配约束)以及五项由大语言模型评分的语气标记。研究人员通过向代理输入结构化的客户档案、招聘信号摘要与人员储备情况,要求其生成邮件草稿,并依据预设的评分规则衡量其表现,从而精准定位代理在实际部署中可能引发的营收风险行为。
实际应用
在实际工程部署中,Tenacious-Bench v0.1 成为工程人员企业优化销售AI系统的核心校验工具。企业可借助该数据集的开发集与训练集,对自有邮件生成代理进行Preference-Tuned Judge Critics训练(如基于SimPO算法微调Qwen 3.5 2B模型),系统性地抑制人员承诺虚高、客户细分误判等直接导致合同违约与收入损失的行为。该基准还被集成至持续集成管道中,作为每次模型迭代后的强制性回归测试套件,确保新版本在保持语气专业性的同时,不违反任何确定性业务策略。其密封的测试集则为公平的企业级模型竞标提供了可信的第三方评估标准。
衍生相关工作
Tenacious-Bench v0.1 的推出催生了一系列衍生研究工作,主要集中在B2B销售代理的偏好对齐与稳健性提升领域。基于该数据集的训练集,研究者构建了偏好对数据(preference_pairs.jsonl),用于训练更精准的批评模型,进而探索通过成对比较优化策略(如SimPO)来提升代理的规则遵循能力。此外,轨迹衍生任务的广泛使用激发了关于LLM代理不一致失败模式的研究,即相同规则在不同输入显式性条件下触发率的变异现象。该数据集所采用的四种混合数据生成方法论(程序化、轨迹衍生、多语言合成与人工对抗性撰写)也为后续构建领域特定基准提供了可复现的范式参考。
以上内容由遇见数据集搜集并总结生成



