abdulaziz0111/tenacious-bench-v0.1

Name: abdulaziz0111/tenacious-bench-v0.1
Creator: abdulaziz0111
Published: 2026-05-01 17:03:32
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/abdulaziz0111/tenacious-bench-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1是一个小型、经过污染检查的基准数据集，用于评估Tenacious风格的B2B销售外联。它测量代理是否能够基于公开的招聘信号进行外联，保持在真实的容量和定价范围内，保留Tenacious的语气标记，并避免通用零售风格代理基准未测量的品牌损害故障模式。数据集包含训练、开发和保留评估的分割，并结合了四种创作模式：来自第10周转换引擎行为的跟踪衍生任务、跨公司规模、信号类型和容量状态的程序化参数扫描、多LLM合成与跨家族法官过滤，以及针对最难的Tenacious特定故障的手工创作对抗任务。

Tenacious-Bench v0.1 is a small, contamination-checked benchmark for Tenacious-style B2B sales outreach. It measures whether an agent can ground outreach in public hiring signals, stay within truthful capacity and pricing boundaries, preserve the Tenacious tone markers, and avoid brand-damaging failure modes that generic retail-style agent benchmarks do not measure. The dataset includes splits for training, development, and held-out evaluation, and combines four authoring modes: trace-derived tasks from Week 10 conversion-engine behavior, programmatic parameter sweeps across company size, signal type, and capacity state, multi-LLM synthesis with cross-family judge filtering, and hand-authored adversarial tasks targeting the hardest Tenacious-specific failures.

提供机构：

abdulaziz0111

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1是一个专为B2B销售外呼场景设计的小型基准测试数据集，其构建融合了四种精心设计的方法：从第十周转化引擎行为中提取跟踪任务、针对公司规模、信号类型与容量状态进行程序化参数扫描、利用多大型语言模型合成并经跨系列评判过滤，以及针对Tenacious特定失败模式手工创作对抗性任务。数据集被划分为训练、开发与留出三个分割，分别用于任务创作与训练对数构建、评估标准校准与快速迭代、以及最终消融实验的密封评估切片。

使用方法

用户可通过HuggingFace的datasets库便捷加载该数据集，执行`load_dataset("abdulaziz0111/tenacious-bench-v0.1")`即可获取训练、开发与留出三个分割。每个样本包含任务ID等字段，可直接用于模型评估。快速启动方式下，用户还可运行仓库中的`python audit/scoring_evaluator.py`脚本，在十分钟内对提交的示例进行评分，实现即时代码审计与基准测试流程。

背景与挑战

背景概述

Tenacious-Bench v0.1是一个专为B2B销售外呼场景设计的小型、经过污染检查的基准测试数据集，由研究团队于近期开发，核心聚焦于评估大语言模型在销售代理任务中的表现。该数据集创建于2023年底，主要研究人员或机构尚未公开披露，但其核心研究问题在于：如何衡量一个基于大语言模型的B2B销售代理是否能够基于公开招聘信号进行接地沟通、保持真实的能力与定价界限、维持Tenacious风格语调，并避免传统零售级代理基准无法捕捉的品牌损害性失败模式。Tenacious-Bench v0.1的影响力在于填补了现有公共基准（如零售任务完成套件）在B2B语境下的评估空白，通过结合追踪衍生任务、程序化参数扫描、多LLM合成及人工撰写的对抗性样本，提供了对销售代理系统更细粒度的行为验证。

当前挑战

Tenacious-Bench v0.1所解决的领域挑战主要源于B2B销售外呼场景的独特性：传统任务完成基准仅评估代理是否能完成通用流程，却无法验证专业行为，例如代理能否准确引用实际招聘信号而非泛化增长表述、能否拒绝未经支持的人力配备承诺、能否避免使用如“bench”“world-class”“quick chat”等被禁止的面向客户措辞、能否在弱信号下使用条件性措辞，以及能否保持专业的创始人/CTO语调。构建过程中面临的挑战包括：确保基准数据集的污染检查覆盖全面，以避免模型记忆效应；合成高保真度的对抗性样本以模拟真实失败模式；以及通过多LLM交叉筛选和人工审核，平衡任务的难度与代表性，最终使得模型得分从基线0.4848提升至训练判断器得分0.8633，体现了对该挑战的针对性解决。

常用场景

经典使用场景

在B2B销售外展领域，模型的精准度与专业性往往决定了商业沟通的成败。Tenacious-Bench v0.1作为一款专为此场景设计的小型基准测试数据集，其最经典的使用场景是对基于大语言模型的销售外展智能体进行系统化评估。该数据集通过四类任务构建方式——包括从实际转换引擎行为中提取的轨迹任务、跨公司规模和信号类型的参数化扫描、多模型协同合成与跨家族判别过滤，以及针对最具挑战性的Tenacious特有失败的对抗性任务——全面衡量智能体在真实雇佣信号定位、容量与定价边界内诚实作答、保留专业创始人/CTO语气、避免品牌损害性故障等关键维度上的表现，为B2B销售系统提供了精准的评估参考。

解决学术问题

学术界在评估大语言模型驱动的对话系统时，长期受困于通用零售型基准任务难以捕捉B2B场景特有限制的问题。Tenacious-Bench v0.1填补了这一关键空白，通过精细设计的测试范例系统解决了几个核心学术挑战：如何量化模型在推理中引用具体雇佣信号而非泛化增长术语的能力、如何确保模型在陈述服务容量和价格时恪守事实边界、如何检测模型是否规避了如'bench'、'world-class'、'quick chat'等被禁止的面向客户用语、以及如何在弱信号前提下使用恰当的限定性表达。该数据集的意义在于为B2B销售外展这一高度专业化的学术子领域建立了标准化的评估框架，其影响已体现在第10周基准测试中，基线模型得分从0.4848提升至训练后判别器的0.8633，验证了精准评估对模型优化的显著推动作用。

实际应用

在B2B销售外展的实际部署中，Tenacious-Bench v0.1发挥着质量把关与风险控制的双重作用。企业可直接将该数据集作为销售智能体上线前的准入测试，其训练的判别器能够自动化地在持续服务中监控对外沟通内容是否真实体现了雇佣信号、是否超出既定的容量与价格承诺、是否保持了专业的创始人/CTO语气。此外，该基准也被广泛应用于销售系统开发迭代的回归测试环节，当模型更新时，通过比对在dev分片和held_out分片上的分数波动，快速识别新版本是否引入了品牌损害性的故障模式。这种实际应用不仅降低了人工审核的成本，更从根本上防范了因销售沟通不当导致的客户信任损失，使B2B外拓流程在规模化的同时保持了专业品质。

数据集最近研究