nahdes/tenacious-bench-v0.1

Name: nahdes/tenacious-bench-v0.1
Creator: nahdes
Published: 2026-05-02 11:56:09
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/nahdes/tenacious-bench-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1 是一个包含318个任务的评估数据集，专为B2B销售代理在人才外包/咨询领域设计，用于评估Tenacious特定的失败模式。每个任务都是一个JSON对象，包含任务ID、输入、真实值、评分标准和元数据等字段。数据集分为训练集、开发集和保留集，涵盖了程序化生成、跟踪衍生、手动编写的对抗性任务和多LLM合成等多种来源的任务。数据集不包含机密信息，适用于CC-BY-4.0许可下的公开使用。

Tenacious-Bench v0.1 is a 318-task evaluation dataset designed for B2B sales agents in talent-outsourcing/consulting, focusing on Tenacious-specific failure modes. Each task is represented as a JSON object containing fields such as task_id, input, ground_truth, rubric, and metadata. The dataset is divided into train, dev, and held-out partitions, with tasks sourced from programmatic generation, trace-derived, hand-authored adversarial, and multi-LLM synthesis methods. The dataset is synthesized and does not contain confidential information, making it suitable for public use under the CC-BY-4.0 license.

提供机构：

nahdes

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1数据集面向B2B人才外包与咨询领域的销售智能体评估任务，由TRP1第11周基于Tenacious对话引擎种子语料构建而成。数据集的构建采用四种互补模式：程序化参数扫描（约30%）通过组合模板与结构化槽位生成任务；轨迹衍生（约30%）从真实运行日志与风格指南样本提炼而成；人工对抗编写（约15%）针对复合故障模式进行手工设计；多LLM合成（约18%）则利用DeepSeek V3.2与Qwen-2.5-72b轮换扮演作者与评审角色，依据偏好泄漏策略筛选高难度种子任务。所有任务均通过评判过滤器（各维度≥4/5）与8-gram Jaccard去重（阈值0.85）后，按源模式、主细分市场与难度进行分层划分，形成训练集159条、开发集107条、留出集52条，最终获得318条样本。

特点

该数据集的独到之处在于聚焦τ²-Bench零售场景无法覆盖的Tenacious特有故障模式，涵盖信号诚实性、语调遵从度、理想客户画像对齐、调度与会话行动正确性以及整体结构五大评估维度。每条任务实例以JSON格式封装，输入包含潜在客户的公开信号摘要与诚实性标志位，真值标签提供了可机器验证的期望结果，包括预期细分市场、所需行动、诚实性约束、禁止短语列表与语调标记阈值。数据集设计了动态权重评分系统，根据模板标签（如调度类、ICP分类类、语调类）自动调整各维度的评估权重，并特别针对非东部时区调度错误（P-SCHED-01）进行惩罚。留出集设计严格，通过插槽组合邻近性污染检测确保评估公正性。

使用方法

使用者可直接从Hugging Face Hub加载数据集，通过运行环境配置与评分脚本进行模型评估。具体流程为：安装依赖后设置环境变量TENACIOUS_BENCH_OFFLINE=1，执行generation_scripts/run_all.py驱动生成确定性输出（种子为11），再调用scoring_evaluator.py对候选模型的输出进行多维度加权评分。数据集支持训练偏好判断模型、比较不同适配器变体在留出集上的表现，以及评估销售智能体在信号诚实性、语调、ICP分类、调度等方面的能力。开发者可将任务文件与候选模型输出作为输入，由评分器返回0到1之间的权重得分。值得注意的是，留出集仅限评估使用，严禁用于训练，以确保基准测试的公平性。

背景与挑战

背景概述

Tenacious-Bench v0.1是由TRP1第11周受训人员于2026年创建的一个包含315个任务的评估数据集，旨在为人才外包/咨询领域的B2B销售智能体提供细粒度的偏好评判。该数据集源于Tenacious-Conversion-Engine种子语料库，其核心研究问题在于弥补现有基准τ²-Bench在零售场景之外的评估盲区——τ²-Bench仅关注双重控制、工具使用及政策遵从，无法衡量Tenacious风格下基于调研的品牌承诺、五个语调标记、细分专用话术、诚信约束及东非与欧美时区调度等关键维度。每个任务将招聘信号简报与可机器验证的评分准则配对，覆盖信号诚实性、语音遵循度、理想客户画像匹配度、调度/行动号召正确性及整体结构五个维度。该数据集通过程序化生成、轨迹推导、人工对抗与多LLM合成四种模式构建，总计318个实例以50/30/20比例划分为训练、开发与保留集，并经过严格的去重与污染检查，为B2B销售智能体的训练与评估提供了专用支撑。

当前挑战

该数据集所解决的领域核心挑战在于准确定位并量化传统零售基准无法捕捉的Tenacious专属失败模式，包括基于薄弱证据的信号夸大、语调偏离风格指南、混合信号下的ICP误分类、时区翻转调度以及诚信约束违反等五类关键故障。在构建过程中，数据集面临多重困难：首先，需在低成本（低于10美元）下通过四种模式生成高质量任务，其中多LLM合成阶段采用Claude与DeepSeek/Qwen交替生成与评判的旋转机制，以约35%的拒绝率确保种子质量；其次，去重环节利用8-gram Jaccard相似度阈值（0.85）从309个候选任务中剔除82个重复项；再次，污染检查暴露出7个N-gram与36个嵌入余弦相似度违规，这些源于同一源模式内的组合槽位临近对，而非外部语料泄漏，迫使后续版本采用槽域不相交划分策略；最后，对59个多LLM合成任务需实时评分以确保输入连贯性与标注验证性均不低于4/5阈值，增加了计算开销与实现复杂度。

常用场景

经典使用场景

在B2B销售智能体的评估与优化领域，Tenacious-Bench v0.1作为一个高度专业化的基准数据集，其经典使用场景聚焦于对基于人才外包与咨询场景的销售代理进行多维度的细粒度评估。该数据集通过精心设计的315个任务，涵盖了信号诚实性、风格一致性、理想客户画像（ICP）匹配度、日程规划正确性以及整体结构组织等五个评价维度。研究人员利用该数据集可以系统地检测和量化传统零售导向基准如τ²-Bench所无法覆盖的特有失败模式，例如在微弱证据支撑下过度声称信号可靠度、偏离Tenacious风格指南的语调漂移、混合信号场景下的ICP分类错误以及时区反转的日程安排失误，从而为特定领域智能体的性能优化提供精准的量化依据。

衍生相关工作

Tenacious-Bench v0.1的发布催生了一系列相关研究工作，尤其是在领域特定评估基准构建与智能体鲁棒性测试方面。该数据集通过程序化生成、迹线衍生、手工对抗性设计和多大型语言模型合成四种方式构建任务的设计原则，为其他垂直领域评估基准的开发提供了可借鉴的方法论框架。受其启发，研究者们开始探索将类似的细粒度多维评估范式迁移至法律咨询、金融服务或医疗销售等同样强调专业术语与领域约束的B2B场景。此外，该数据集中定义的31个探查基线以及针对复合失败模式的评估权重体系，推动了偏好推理模型与裁判模型的训练范式发展，特别是如何通过结构化检测信号诚实性约束与语调阈值来实现对智能体行为的精确回测与校准，从而在更广泛的智能体应用领域建立起可量化的质量保证体系。

数据集最近研究