eyorata/tenacious_bench_v0.1

Name: eyorata/tenacious_bench_v0.1
Creator: eyorata
Published: 2026-05-01 13:27:46
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/eyorata/tenacious_bench_v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1是一个用于B2B销售外联代理的评估基准，基于Tenacious（B2B工程外包）工作流程。包含266个任务，其中训练集和开发集共191个任务，保留集75个任务。数据集涵盖10个失败维度和5个来源模式，采用机械评分标准（无需人工参与）。来源模式包括程序化生成、跟踪衍生、多LLM合成、手工编写的对抗性样本和风格指南对。失败维度包括过度承诺、ICP错误分类、信号过度声称、信号信心对齐、调度边缘案例、多线程泄漏、双重控制协调、语气漂移、差距过度声称和成本病理学。

Tenacious-Bench v0.1 is a 266-task evaluation benchmark for B2B sales-outreach agents, grounded in the Tenacious (B2B engineering-outsourcing) workflow. It includes 191 tasks for training and development, and 75 held-out tasks. The benchmark covers 10 failure dimensions and 5 authoring source modes, using a mechanically-gradable rubric (no human in the loop). Source modes include programmatic, trace_derived, multi_llm_synthesis, hand_authored_adversarial, and style_guide_pair. Failure dimensions include bench_over_commitment, icp_misclassification, signal_over_claiming, signal_confidence_alignment, scheduling_edge_cases, multi_thread_leakage, dual_control_coordination, tone_drift, gap_over_claiming, and cost_pathology.

提供机构：

eyorata

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1 是一个专为评估B2B销售外联智能体性能而设计的基准数据集，基于Tenacious（B2B工程外包）工作流构建。该数据集共包含266个任务，通过五种源模式生成，包括程序化生成（80个）、跟踪衍生（80个）、多大型语言模型合成（64个）、手工编写的对抗性案例（30个）以及风格指南配对（12个）。这种复合构建方式确保了任务在难度和多样性上的广泛覆盖。数据集的评分体系采用机械化可评估的评分标准，无需人工介入，实现了完全自动化的评估流程。

特点

该数据集的核心特点在于其细粒度的故障维度划分，覆盖了10个常见错误类型，如过度承诺、理想客户画像错误分类、信号夸大、调度边缘情况、多线程泄漏等，每个维度包含2至35个不等的任务。这种精细化设计使得评估不仅能反映智能体的整体成功率，还能深入揭示其在特定环节的脆弱点。此外，数据集设置了保留分区（75个任务），用于防止评估过程中的过拟合或信息泄露，确保了基准测试的公正性和可靠性。

使用方法

用户可通过HuggingFace Datasets库快速加载数据集，例如使用`load_dataset("eyorata/tenacious_bench_v0.1", split="train")`获取训练和开发集。评估流程需结合配套的评分评估器，通过克隆GitHub仓库并运行`python scoring_evaluator.py --self-test`即可执行自动化评分。数据集还提供了预训练的SimPO法官模型（tenacious-judge-simpo-qwen25-3b），用于替代人工评判，进一步提升了评估效率。完整的使用说明、复现代码与数据表详情可在项目的GitHub仓库中获取。

背景与挑战

背景概述

Tenacious-Bench v0.1 是由 Eyoel Yorat 与 10Academy TRP1 团队于2026年发布的面向 B2B 销售外联智能体的评估基准，旨在填补自动化销售代理评估领域的空白。该数据集基于 Tenacious 工作流（B2B 工程外包场景），涵盖266项任务，涉及5种生成来源（如程序化生成、多 LLM 合成及手工编写）和10个失效维度（如过度承诺、ICP 误分类及语调漂移）。其核心研究问题在于如何构建可自动评分、无需人工介入的机械性评估标准，从而系统性地衡量销售外联智能体在复杂商业交互中的表现，对智能体评估与自动化销售领域具有重要奠基意义。

当前挑战

该数据集面临的挑战可从领域问题和构建过程两方面阐释。在领域层面，B2B 销售外联智能体需处理仿人沟通中隐含的模糊性（如时机微妙信号或多线程信息泄露），这对传统自然语言理解与决策模型构成严峻考验。在构建过程中，挑战包括：确保任务覆盖10个失效维度的平衡性（如成本病理维度仅含2项任务，存在样本稀疏风险），设计5种来源模式以保证数据多样性，以及建立无人工参与的可靠自动评分机制，避免人工标注偏差并确保评估的可扩展性与可复现性。

常用场景

经典使用场景

Tenacious-Bench v0.1 是一个专为 B2B 销售外展智能体设计的评估基准，涵盖了 266 个任务，基于 Tenacious 工程外包工作流构建。数据集的经典使用场景在于通过 10 个故障维度（如过度承诺、ICP 误分类、信号夸大、日程边缘情况等）和 5 种来源模式（程序化生成、轨迹衍生、多 LLM 合成、手工对抗编写、风格指南配对）来系统评估销售智能体的表现。研究者可利用这些结构化任务，对智能体在复杂 B2B 沟通中的鲁棒性、对齐性和边界处理能力进行量化测试，从而推动销售自动化系统的可靠发展。

衍生相关工作

围绕 Tenacious-Bench，衍生了一系列重要的学术与工程工作。例如，基于该基准训练了专用评估模型 tenacious-judge-simpo-qwen25-3b，利用 SimPO 方法实现针对 B2B 销售场景的精细评判。配套的开源代码库 sales_evaluation_bench 提供了完整的评估管道，支持可复现实验。此外，数据集的设计理念催生了关于多维度故障注入与机械评分规则的进一步研究，为构建更通用的对话智能体鲁棒性基准提供了范式参考。其详尽的数据表（datasheet）也为后续数据集治理与伦理审查提供了模板。

数据集最近研究