kirutew17654321/tenacious-bench-v0.1

Name: kirutew17654321/tenacious-bench-v0.1
Creator: kirutew17654321
Published: 2026-05-02 10:13:35
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kirutew17654321/tenacious-bench-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1是一个包含260个任务的机器可验证评估基准，专为Tenacious Conversion Engine AI外呼销售代理设计。其目的是测量τ²-Bench无法评估的故障模式，如信心校准的措辞、陈旧性披露、放弃路由和线程隔离。数据集分为训练集（143个任务，用于LoRA微调）、开发集（55个任务，用于验证/提示迭代）和保留集（62个任务，用于独立Delta B验证）。每个记录包含任务ID、类别、来源模式、输入（潜在客户上下文和代理提示）、预期输出和评分标准。

Tenacious-Bench v0.1 is a 260-task, machine-verifiable evaluation benchmark for the Tenacious Conversion Engine AI outbound sales agent. Purpose-built to measure the failure modes that τ²-Bench cannot grade: confidence-calibrated phrasing, staleness disclosure, abstention routing, and thread isolation. The dataset is divided into train (143 tasks, for LoRA fine-tuning), dev (55 tasks, for validation/prompt iteration), and held_out (62 tasks, for independent Delta B verification). Each record contains task_id, category, source_mode, input (prospect_context and agent_prompt), expected output, and scoring criteria.

提供机构：

kirutew17654321

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1是一个专为评估AI外呼销售代理设计的260项任务、可机器验证的基准测试数据集。其构建源于对现有评测体系（如τ²-Bench）无法覆盖的关键失效模式的补充，聚焦于置信度校准表述、信息陈旧性披露、拒绝路由以及线程隔离等核心维度。数据集划分为三个子集：训练集包含143项任务并经过21倍数据增强形成3003个有监督微调对；开发集包含55项任务用于验证与提示迭代；留出集包含62项任务，在训练完成后发布以供独立的增量验证。每条记录包含任务唯一标识、失效模式类别、数据来源方式（轨迹派生、程序生成、合成或对抗生成）、输入上下文与智能体提示、预期输出以及加权评分维度与通过阈值。

使用方法

使用该数据集需首先通过Python运行评分评估器脚本进行环境验证，随后针对具体任务文件执行推理并输出结果。评估流程支持通过命令行参数指定任务路径，便于集成至自动化评测管线。训练集可应用于基于LoRA的参数高效微调，利用其3003个有监督微调对提升模型在置信度校准等关键维度的表现。开发集适合用于模型验证与提示工程迭代优化，而留出集则作为最终独立评估的标准。完整代码与资源托管于GitHub仓库，LoRA适配器权重可从HuggingFace模型库下载，便于复现研究与进一步开发。数据集采用CC-BY-4.0许可协议，支持广泛的学术与商业使用。

背景与挑战

背景概述

近年来，随着大语言模型在任务导向型对话系统中的应用日益深入，AI销售代理在自动化客户交互中的角色愈发关键。然而，现有评估基准如τ²-Bench在衡量模型对置信度校准、信息时效性披露以及任务路由等细粒度行为上存在明显盲区。在此背景下，由Kirubel Tewodros等人于2026年创建的Tenacious-Bench v0.1应运而生。该基准包含260项机器可验证任务，专为评估AI外呼销售代理的故障模式设计，覆盖信号过度宣称、过期信息泄露、拒接路由以及线程隔离等核心问题。通过训练集、开发集和留出集的精心划分，并结合LoRA微调适配器，该数据集为销售代理行为的量化评估提供了标准化工具，对提升人机对话系统的可靠性与透明性具有重要推动作用。

当前挑战

Tenacious-Bench v0.1所应对的领域挑战在于，现有对话评估指标无法有效捕捉AI销售代理在置信度校准和语境适当性方面的细微缺陷，例如模型可能在缺乏充分证据时仍过度自信地表述，或未能主动披露信号时效性问题，导致用户信任受损。数据集构建过程中面临的挑战包括：（1）从真实交互痕迹、程序化生成、综合合成与对抗样本等多源模式中，系统性地提取和定义260种细粒度故障类别；（2）为每个任务设计带权重维度的评分标准，并设定合理通过阈值，确保评估的客观性与可复现性；（3）对训练样本进行21倍增强以生成3003对SFT数据，同时保证留出集的密封性与独立验证效力，避免数据泄露影响评估公正性。

常用场景

经典使用场景

十项韧性基准测试（Tenacious-Bench v0.1）作为一项包含260个任务的机器可验证评估基准，其核心使用场景聚焦于AI外呼销售智能体的行为校准能力评测。该基准专门针对现有评估体系（如τ²-Bench）无法有效考核的四种关键失效模式：置信度校准的措辞表达、信息时效性披露、拒绝服务路由以及线程隔离能力。数据集通过轨迹衍生、程序化生成、合成构造和对抗性创建四种来源模式构建任务，每个任务都包含完整的客户背景信号、智能体指令以及基于措辞层级、人工转接决策和时效性披露的标准化期望输出，为系统性评估销售智能体的交互质量提供了具有高度分辨力的测试工具。

解决学术问题

在人工智能对齐与可信赖AI研究领域，该数据集巧妙解决了外呼销售场景中智能体置信度表达失真的评估难题。传统评估基准往往侧重任务完成率而忽视交互过程中的信号误传风险，Tenacious-Bench通过引入多维评分机制（涵盖措辞置信度层级、信息时效性标识和人工干预网关），将智能体的不当行为量化分解为可操作的研究单元。该基准的建立使得研究者能够精确度量语言模型在商业沟通中是否存在过度宣称、信息过时或不当回避等学术问题，其核心意义在于将对话AI的安全性评估从粗粒度的流水线测试提升至细粒度的行为维度解剖，为构建更可靠的商业对话系统奠定了评估方法论基础。

实际应用

在真实商业落地环境中，该数据集的应用场景主要体现为销售智能体产品的质量控制与迭代优化。企业可通过该基准对候选模型进行标准的盲测评估，识别其在自信措辞、信息时效性管理、客户问题转接以及多会话隔离等方面的薄弱环节。数据集内置的LoRA微调语料支持对中小规模模型（如Qwen2.5-0.5B）进行轻量化对齐训练，训练后的Delta B指标可提升约0.10（p值=0.018），这在资源受限的部署环境中具有重要意义。此外，held_out子集作为独立的验证集，确保第三方模型提供商能够进行公正的横向对比，从而推动外呼销售智能体行业形成统一的可信度评估标准。

数据集最近研究