mistire37/tenacious-bench-v0.1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mistire37/tenacious-bench-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个专门用于评估B2B销售代理的领域特定数据集,适用于Tenacious Intelligence Corporation工作流程。该数据集测量了五个失败维度:信心校准措辞、ICP分类、工作台容量诚实度、语气遵守和数据完整性。这些维度是一般用途基准(包括τ²-Bench零售)无法评分的。数据集包含204个任务,分为训练集(102个任务)、开发集(61个任务)和保留集(41个任务)。任务通过多种方式生成,包括程序化生成(参数扫描)、对抗性手工编写、跟踪派生(探针库)和多LLM合成(Qwen3 + DeepSeek judge)。数据集还提供了详细的评估结果、交付物和快速入门指南。
Tenacious-Bench v0.1 is a domain-specific evaluation dataset for B2B sales agents operating within the Tenacious Intelligence Corporation workflow. It measures confidence-calibrated phrasing, ICP classification, bench capacity honesty, tone adherence, and data integrity — five failure dimensions that general-purpose benchmarks (including τ²-Bench retail) cannot grade. The dataset contains 204 tasks, divided into training set (102 tasks), development set (61 tasks), and held-out set (41 tasks). Tasks are generated through various methods, including programmatic (parameter sweep), adversarial hand-authored, trace-derived (probe library), and multi-LLM synthesis (Qwen3 + DeepSeek judge). The dataset also provides detailed evaluation results, deliverables, and a quickstart guide.
提供机构:
mistire37
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1是一个专为B2B销售智能体设计的领域特定评估基准,由204个任务构成,涵盖训练集、开发集和密封的留出集。数据集的构建融合了四种互补模式:通过组合参数扫描程序化生成的103个任务,跨F1至F5五个失败维度进行系统化覆盖;47个对抗性手工创作任务,由领域专家精心设计以测试边界案例;36个基于探针库的轨迹衍生任务,源自真实交互痕迹;以及18个多语言大模型合成任务,采用Qwen3生成与DeepSeek V3评判的模型轮换策略。所有任务均经过三重质量过滤(信息完整性、生成验证、推理一致性,每项得分≥4/5),并通过n-gram重叠检测(<8-gram)、词袋余弦相似度(<0.85)及时序偏移核查确保无污染。最终以50/30/20比例划分分区,并固定随机种子以保障可重复性。
特点
该数据集的核心特点在于聚焦五个传统通用基准(如τ²-Bench零售版)无法评估的失效维度:自信校准措辞(F1)、理想客户画像分类(F2)、资源承诺诚实度(F3)、语调一致性(F4)及线程与数据完整性(F5)。其任务来源多元化,程序化生成保证了系统性的维度覆盖,对抗性样例针对脆弱性精准打击,轨迹衍生反映了真实运营场景,而多模型合成则提升了任务难度与多样性。数据集采用双重重叠标注,Cohen's κ达到0.66,展示中等以上的一致性。评测结果表明,未经提示的基线模型(DeepSeek V3)通过率为14.6%,而经10条规则提示工程后跃升至48.8%,凸显了该基准对精细调优的区分能力。密封的留出集确保评估过程的客观性与长期有效性。
使用方法
使用Tenacious-Bench v0.1主要遵循两条路径:评估路径与训练路径。评估时,用户可直接运行评分评估器,支持离线模式(跳过LLM评判)与完整模式(需配置OpenRouter API密钥),通过硬约束正则表达式与子串匹配及软评判维度组合实现机器可验证评分。完整复现数据集需依次执行程序化生成脚本(无需API)、对抗性生成脚本,以及合成生成脚本(需API),最终由分区脚本合并并拆分。训练路径推荐采用Path B方案,即基于SimPO算法的偏好微调评判器/批评者,通过后生成拒绝采样层捕捉标准门控策略遗漏的一致性失败。所有生成脚本、污染检查工具及详细文档均包含于存储库,配合审计备忘录、数据表及预算日志,确保使用的透明性与可复现性。
背景与挑战
背景概述
Tenacious-Bench v0.1是由Mistire Daniel创建于近期的一个领域特定评估基准数据集,专注于衡量B2B销售智能代理在Tenacious Intelligence Corporation工作流中的表现。该数据集针对通用基准(如τ²-Bench retail)无法评估的五个关键失败维度——信心校准措辞、ICP分类、bench容量诚实性、语调一致性及数据完整性——设计了204项任务。研究团队通过程序化参数扫描、对抗性手工编写、轨迹推导及多LLM合成四种方式生成数据,并采用严格的污染控制(n-gram重叠小于8、余弦相似度低于0.85)确保评估可靠性。该数据集填补了B2B销售场景下代理行为评估的空白,为偏好学习和安全对齐研究提供了领域化的测试平台。
当前挑战
Tenacious-Bench v0.1所解决的核心领域挑战是通用基准无法评估销售代理在专业工作流中的细粒度行为失败,尤其是信心不自知措辞(F1)、bench过度承诺(F3)和语调漂移(F4)等对话一致性问题。构建过程中面临多重挑战:其一,生成高质量对抗性样本需要人工设计47个跨五类失败的手工案例,确保任务能暴露模型在压力下的真实缺陷;其二,合成数据需通过三维质量过滤器(IC、GV、RC不低于4/5)并采用模型轮换策略避免偏好泄露;其三,跨来源(程序化、轨迹、合成)数据的去污染和分割涉及复杂的n-gram、嵌入和时间偏移检查,以维护评估的公平性。
常用场景
经典使用场景
Tenacious-Bench v0.1是一个专门为B2B销售智能体设计的评估基准数据集,聚焦于真实商业场景中销售对话的五个关键失败维度:置信度校准措辞、理想客户画像分类、工单容量诚实性、语气一致性和数据完整性。该数据集通过程序化参数扫描、对抗性手工编写、轨迹探测库导出以及多LLM合成四种方式构建了204个任务,并提供了严格的污染控制与标注一致性验证(Cohen's κ=0.66)。经典使用场景涵盖销售智能体的鲁棒性压力测试、偏好学习算法的局部调优验证,以及作为领域专用评估工具弥补通用基准(如τ²-Bench)在B2B销售场景中的能力空白。
实际应用
在实际商业应用中,Tenacious-Bench主要服务于B2B销售自动化系统的质量保障与迭代优化。企业可以利用该基准对销售智能体进行上岗前评估,识别其在客户对话中是否过度自信承诺、是否准确匹配目标客户画像、以及能否保持专业语气。具体应用场景包括:销售对话系统上线前的鲁棒性测试、智能体行为审计、以及偏好学习训练数据的质量筛选。该数据集还支持离线评分模式(--skip-judge标志),使得在不依赖外部LLM评判的情况下进行低成本质量检查成为可能,降低了实际部署中的API开销与延迟风险。
衍生相关工作
围绕Tenacious-Bench已经衍生了一系列重要的研究工作与基础设施。数据集作者训练了基于Qwen2.5 0.5B的偏好学习适配器(CPO/SimPO),在保留集上取得了14.6%的通过率,并通过提示工程将DeepSeek V3的准确率提升至48.8%。代码仓库提供了完整的生成脚本、污染检测工具、评分评估器以及标注一致性分析报告,形成了从任务生成到模型评估的闭环工具链。相关引用工作包括Prometheus 2作为评判框架、SimPO作为偏好学习基线、以及关于合成数据最佳实践与LLM评判偏见的最新研究,共同构成了面向领域特定评估的学术生态雏形。
以上内容由遇见数据集搜集并总结生成



