yakobd/tenacious-bench
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/yakobd/tenacious-bench
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个用于测试AI销售代理在Tenacious Intelligence Corporation风格的B2B外联中的领域特定评估数据集。数据集包含293个任务,每个任务都是机器可验证的:一个脚本读取任务和代理输出,并返回一个无需人工干预的数值分数。数据集的结构包括任务ID、来源模式、难度、是否通过、输入、候选输出、真实值和评分标准等。
Tenacious-Bench v0.1 is a 293-task evaluation dataset for testing AI sales agents on Tenacious Intelligence Corporation-style B2B outreach. Every task is machine-verifiable: a script reads a task plus an agent output and returns a numerical score with no human in the loop. The dataset structure includes task_id, source_mode, difficulty, is_passing, input, candidate_output, ground_truth, and rubric.
提供机构:
yakobd
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1是一个专为B2B销售外联智能体设计的领域特定评估基准,旨在填补现有零售基准无法评分的失败模式空白。该数据集包含293个任务,构建方式融合了四种模式:约27%的任务源自真实智能体轨迹的追踪衍生,约32%通过模板与参数扫描的程序化生成,约31%借助多LLM合成并经评判过滤,约10%由人类专家进行对抗性手写创作。所有任务均设计为机器可验证,通过脚本读取任务与智能体输出,返回数值分数,无需人工介入。数据集划分为训练集(178个)、开发集(58个)与留出集(57个),涵盖4个ICP细分市场,评分者间一致性高达93%。
特点
该数据集的核心特色在于其高度聚焦的领域性与严格的机器可验证评估机制。每个任务均包含唯一标识符、来源模式、难度等级及预设通过标志,输入层覆盖招聘信号简报、基准摘要、指令及历史线程,输出层则记录外联邮件的主题与正文。地面真值明确标注所需信号、禁止短语及行动号召要求,配合包含5个机器可验证检查点的评分细则,确保评估的客观性与可重复性。此外,数据集通过n-gram重叠、嵌入相似度及时间偏移验证三项污染检测,确保数据纯净,为智能体能力评估提供可靠基准。
使用方法
使用者可通过HuggingFace Hub轻松加载与评估该数据集。首先利用hf_hub_download函数从指定仓库下载开发任务JSON文件,例如TB-P039.json,解析后可获取任务标识、输入详情及候选输出等关键字段。为进行完整评分,需克隆数据集仓库并运行scoring_evaluator.py脚本,执行演示模式即可获取智能体输出的机器评分。该基准已提供基线智能体(pass@1为0.491)与微调适配器(pass@1提升至0.754)的性能对比,使用者可在此基础上测试自有销售智能体,并引用相关论文以支持学术与工业应用研究。
背景与挑战
背景概述
在大型语言模型(LLM)驱动的智能体日益渗透商业自动化的浪潮中,B2B销售外联场景因其高度的策略性、个性化与合规要求,成为评估AI系统实用性的关键试金石。由研究者Yakob Dereje于2026年创建的Tenacious-Bench v0.1,是一个专为B2B销售外联智能体设计的领域特定评估基准,旨在填补现有通用基准(如τ²-Bench零售场景)无法评分的失败模式空白。该数据集包含293项人工精心构造与机器可验证的任务,覆盖四个理想客户画像(ICP)细分领域,并通过四种生成模式(真实轨迹衍生、程序化生成、多LLM合成与手写对抗样本)确保评估的全面性。基线与微调后适配器模型的性能对比(从0.491提升至0.754)表明,该基准能有效量化销售智能体的进展,对推动B2B自动化智能体研究具有里程碑意义。
当前挑战
Tenacious-Bench面临的核心领域挑战在于B2B销售外联的复杂性:智能体需同时满足个性化沟通、信号捕捉(如采购意向)、合规遵循(如禁止短语)与行动召唤(CTA)等多元要求,而现有通用基准难以覆盖此类规则细密且风险敏感的任务。在构建过程中,挑战集中于数据真实性、可扩展性与去污染性的平衡:源自真实代理的轨迹仅占27%,如何通过程序化模板(32%)与多LLM合成(31%)生成等价高质量任务,并确保人机一致性达93%;同时,需防范测试集污染,通过n-gram重叠、嵌入相似性与时间偏移三重严苛检验实现零污染,以维持基准的公正性与鲁棒性。
常用场景
经典使用场景
Tenacious-Bench v0.1 专为评估面向B2B销售外展场景的AI智能体而设计,其核心挑战在于模拟真实商业沟通中复杂的销售信号捕捉与回应能力。涵盖追踪衍生、程序化生成、多智能体合成及人工撰写四种任务构建模式,共计293项细粒度测试,为评估模型在销售情境下的执行力、合规性和策略性提供标准化度量。
解决学术问题
该数据集填补了现有零售导向基准(如τ²-Bench)无法覆盖的B2B销售外展评估空白,解决了AI智能体在结构化商业沟通中‘失败模式’难以量化的问题。通过引入机器可验证的评分机制与93%的评分者间一致性,推动了领域特定性能评估的可重复性与可解释性,为销售场景下的语言模型行为分析提供了可靠实验平台。
衍生相关工作
围绕该数据集衍生的代表性工作包括基于Week 10智能体基线的性能分析与调优方案,以及专用适配器模型的训练与开源(如tenacious-bench-adapter)。此外,其任务构建模式与评估框架为后续研究提供了可复用的方法论,催生了更广泛领域中关于销售智能体鲁棒性、可控性及人机协作验证范式的深入探索。
以上内容由遇见数据集搜集并总结生成



