eyorg/tenacious_bench_v0.1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/eyorg/tenacious_bench_v0.1
下载链接
链接失效反馈官方服务:
资源简介:
TenaciousBench v0.1是一个包含220个任务的评估基准,专门用于评估基于LLM的B2B外展销售代理。它涵盖了10个失败维度,包括ICP目标精度、信心感知措辞、信号基础保真度、音调安全性、避免幻觉、CTA行为、竞争对手差距推理、定价纪律、多轮异议处理和线程延续连贯性。数据集分为训练集(110个任务)、开发集(66个任务)和保留集(44个任务)。每个任务都是一个JSON对象,包含任务ID、元数据、输入、真实值和评分标准等信息。数据集的主要用途是评估LLM-based B2B外展销售代理,次要用途是通过DPO/ORPO训练评判/批评模型,以及作为B2B外展质量标准的少样本提示示例。
TenaciousBench v0.1 is a 220-task evaluation benchmark designed to assess LLM-based B2B outbound sales agents across ten failure dimensions: ICP targeting precision, confidence-aware phrasing, signal grounding fidelity, tone safety, hallucination avoidance, CTA behavior, competitor gap reasoning, pricing discipline, multi-turn objection handling, and thread continuation coherence. The dataset is split into training (110 tasks), development (66 tasks), and held-out (44 tasks) sets. Each task is structured as a JSON object containing task ID, metadata, input, ground truth, and scoring rubric. Primary use cases include evaluating LLM-based B2B outbound sales agents, with secondary applications in training judge/critic models via DPO/ORPO and providing few-shot prompting examples for B2B outreach quality rubrics.
提供机构:
eyorg
搜集汇总
数据集介绍

构建方式
TenaciousBench v0.1 是一个专为评估基于大语言模型的B2B外呼销售代理而设计的基准测试集,包含220个任务。其构建方式融合了领域专家知识与真实业务场景,围绕B2B销售中关键的十类失败维度(如ICP定位精度、置信度感知措辞、信号真实性锚定、语气安全性、幻觉规避、CTA行为、竞争对手差距推理、定价纪律、多轮异议处理及线程延续连贯性)系统性地设计了评估任务。每个任务均以JSON格式呈现,涵盖公司背景、信号简报、任务指令、理想输出、禁用短语、必需信号及评分标准等字段,确保评估的科学性与可复现性。数据集划分为训练集(110个任务)、开发集(66个任务)和留出集(44个任务),为模型训练、验证和最终测试提供了清晰的分层结构。
特点
该数据集的核心特点在于其高针对性与细粒度评估能力。不同于现有基准测试聚焦零售或知识检索场景,TenaciousBench v0.1 精准刻画了B2B外呼销售代理特有的失败模式,如ICP弃权准确性、置信度模糊措辞、过期信号检测、同意门控渠道路由及法律护栏合规性。每个任务均附带多维度评分规则(如禁用短语违规、信号使用率等),并通过加权聚合计算总分,以0.7为通过阈值,实现定量化的性能衡量。此外,数据集提供了偏好对数据,支持DPO/ORPO等训练范式,可扩展用于训练裁判或批评模型,进一步强化其在模型优化中的实用价值。
使用方法
使用TenaciousBench v0.1时,用户可调用内置的评分评估器对候选输出进行打分。具体流程为:首先将模型生成的回复(包括外呼文本、CTA存在标志及置信度前缀)填入任务的‘candidate_output’字段,随后执行score_task函数,即可获得总分与通过状态。数据集主要应用于评估基于LLM的B2B外呼销售代理的性能,其次可作为训练裁判模型的偏好数据来源,或作为少样本提示示例用于制定B2B外呼质量准则。用户需注意其局限性,如留出集样本量较小(n=44)可能导致置信区间较宽,且裁判模型依赖GPT-4o-mini,更换模型需重新校准。
背景与挑战
背景概述
在大型语言模型(LLM)应用不断拓展的浪潮中,B2B外向销售自动化成为极具潜力的方向,但现有评测基准如τ²-Bench、GAIA、HELM多聚焦于零售场景的指令遵循或知识检索,未能覆盖B2B销售特有的失败模式。为此,Eyor Getachew于2026年发布了TenaciousBench v0.1,这是一个包含220项任务的评测基准,由训练集(110项)、开发集(66项)和留出集(44项)组成,旨在系统评估基于LLM的B2B外联系统。该基准围绕十个关键失效维度设计,包括ICP目标精准性、自信措辞、信号接地保真度、语气安全性、幻觉避免、CTA行为、竞争对手差距推理、定价纪律、多轮异议处理和线程连续一致性,为商业销售AI的可靠性和专业性提供了首个专用评测框架。
当前挑战
TenaciousBench所解决的领域核心挑战在于,现有评测体系无法衡量B2B外向销售中至关重要的失败模式,例如ICP弃权准确性、置信度对冲措辞、过期信号检测、基于同意的渠道路由以及法律护栏下的语气合规性,这些直接关系到销售AI在实际商业场景中的可信度与合规性。在构建过程中,挑战包括:数据仅校准自9家金融科技/健康科技公司的种子数据,对制造业、物流、政府等垂直行业代表性不足;评测器依赖GPT-4o-mini进行语气标记维度的评分,更换评测器需重新校准;留出集仅44项任务,置信区间宽达±7.5个百分点,统计功效不足以致无法在p<0.05水平下确认显著性差异,限制了基准的泛化性与结论稳健性。
常用场景
经典使用场景
TenaciousBench v0.1 专为评估基于大语言模型(LLM)的B2B外拓销售代理而设计,其经典使用场景聚焦于衡量AI系统在十大关键失效维度的表现,包括目标客户画像(ICP)精准度、置信感知措辞、信号来源可信度、语气安全性、幻觉规避、行动号召(CTA)行为、竞争对手差距推理、定价纪律、多轮异议处理以及线程连贯性。该基准通过220个精心设计的任务,模拟真实B2B销售情境,为研发人员提供标准化的测试框架,以系统性地诊断和改进销售代理的弱点。
解决学术问题
该基准解决了现有LLM评估基准(如τ²-Bench、GAIA、HELM)在B2B外拓销售领域中缺乏针对性的问题。它填补了学术研究中对销售场景特有失效模式评估的空白,尤其是ICP拒绝准确性、置信规避措辞、过时信号检测、合规章程路由及语气合规性等维度。通过系统化定义和量化这些失效模式,TenaciousBench为研究者提供了一种严谨的方法论,用于衡量模型在风险敏感、多约束的商业沟通中的表现,从而推动了LLM在现实商业场景中安全性与有效性的理论探索。
衍生相关工作
TenaciousBench v0.1 的部署催生了系列相关工作,包括利用其评分机制训练裁判/批评模型(critic models)的DPO/ORPO方法,以及基于其任务格式衍生出的B2B外拓质量评估框架。研究团队展示了通过ORPO训练Qwen2.5-7B模型(Delta A)在留出集上达到90.9%的pass@1率,这激发了后续对偏好优化算法在销售场景中应用的深入探索。同时,该基准的10个失效维度定义也为其他领域(如客户服务或合规沟通)的LLM评估提供了可借鉴的模板,推动了结构化商业语境下AI对齐技术的发展。
以上内容由遇见数据集搜集并总结生成



