eyorg/tenacious_bench_v0.1

Name: eyorg/tenacious_bench_v0.1
Creator: eyorg
Published: 2026-05-02 06:48:11
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/eyorg/tenacious_bench_v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

TenaciousBench v0.1是一个包含220个任务的评估基准，专门用于评估基于LLM的B2B外展销售代理。它涵盖了10个失败维度，包括ICP目标精度、信心感知措辞、信号基础保真度、音调安全性、避免幻觉、CTA行为、竞争对手差距推理、定价纪律、多轮异议处理和线程延续连贯性。数据集分为训练集（110个任务）、开发集（66个任务）和保留集（44个任务）。每个任务都是一个JSON对象，包含任务ID、元数据、输入、真实值和评分标准等信息。数据集的主要用途是评估LLM-based B2B外展销售代理，次要用途是通过DPO/ORPO训练评判/批评模型，以及作为B2B外展质量标准的少样本提示示例。

TenaciousBench v0.1 is a 220-task evaluation benchmark designed to assess LLM-based B2B outbound sales agents across ten failure dimensions: ICP targeting precision, confidence-aware phrasing, signal grounding fidelity, tone safety, hallucination avoidance, CTA behavior, competitor gap reasoning, pricing discipline, multi-turn objection handling, and thread continuation coherence. The dataset is split into training (110 tasks), development (66 tasks), and held-out (44 tasks) sets. Each task is structured as a JSON object containing task ID, metadata, input, ground truth, and scoring rubric. Primary use cases include evaluating LLM-based B2B outbound sales agents, with secondary applications in training judge/critic models via DPO/ORPO and providing few-shot prompting examples for B2B outreach quality rubrics.

提供机构：

eyorg

搜集汇总

数据集介绍

构建方式

TenaciousBench v0.1 是一个专为评估基于大语言模型的B2B外呼销售代理而设计的基准测试集，包含220个任务。其构建方式融合了领域专家知识与真实业务场景，围绕B2B销售中关键的十类失败维度（如ICP定位精度、置信度感知措辞、信号真实性锚定、语气安全性、幻觉规避、CTA行为、竞争对手差距推理、定价纪律、多轮异议处理及线程延续连贯性）系统性地设计了评估任务。每个任务均以JSON格式呈现，涵盖公司背景、信号简报、任务指令、理想输出、禁用短语、必需信号及评分标准等字段，确保评估的科学性与可复现性。数据集划分为训练集（110个任务）、开发集（66个任务）和留出集（44个任务），为模型训练、验证和最终测试提供了清晰的分层结构。

特点

该数据集的核心特点在于其高针对性与细粒度评估能力。不同于现有基准测试聚焦零售或知识检索场景，TenaciousBench v0.1 精准刻画了B2B外呼销售代理特有的失败模式，如ICP弃权准确性、置信度模糊措辞、过期信号检测、同意门控渠道路由及法律护栏合规性。每个任务均附带多维度评分规则（如禁用短语违规、信号使用率等），并通过加权聚合计算总分，以0.7为通过阈值，实现定量化的性能衡量。此外，数据集提供了偏好对数据，支持DPO/ORPO等训练范式，可扩展用于训练裁判或批评模型，进一步强化其在模型优化中的实用价值。

使用方法

使用TenaciousBench v0.1时，用户可调用内置的评分评估器对候选输出进行打分。具体流程为：首先将模型生成的回复（包括外呼文本、CTA存在标志及置信度前缀）填入任务的‘candidate_output’字段，随后执行score_task函数，即可获得总分与通过状态。数据集主要应用于评估基于LLM的B2B外呼销售代理的性能，其次可作为训练裁判模型的偏好数据来源，或作为少样本提示示例用于制定B2B外呼质量准则。用户需注意其局限性，如留出集样本量较小（n=44）可能导致置信区间较宽，且裁判模型依赖GPT-4o-mini，更换模型需重新校准。

背景与挑战

背景概述

在大型语言模型（LLM）应用不断拓展的浪潮中，B2B外向销售自动化成为极具潜力的方向，但现有评测基准如τ²-Bench、GAIA、HELM多聚焦于零售场景的指令遵循或知识检索，未能覆盖B2B销售特有的失败模式。为此，Eyor Getachew于2026年发布了TenaciousBench v0.1，这是一个包含220项任务的评测基准，由训练集（110项）、开发集（66项）和留出集（44项）组成，旨在系统评估基于LLM的B2B外联系统。该基准围绕十个关键失效维度设计，包括ICP目标精准性、自信措辞、信号接地保真度、语气安全性、幻觉避免、CTA行为、竞争对手差距推理、定价纪律、多轮异议处理和线程连续一致性，为商业销售AI的可靠性和专业性提供了首个专用评测框架。

当前挑战

TenaciousBench所解决的领域核心挑战在于，现有评测体系无法衡量B2B外向销售中至关重要的失败模式，例如ICP弃权准确性、置信度对冲措辞、过期信号检测、基于同意的渠道路由以及法律护栏下的语气合规性，这些直接关系到销售AI在实际商业场景中的可信度与合规性。在构建过程中，挑战包括：数据仅校准自9家金融科技/健康科技公司的种子数据，对制造业、物流、政府等垂直行业代表性不足；评测器依赖GPT-4o-mini进行语气标记维度的评分，更换评测器需重新校准；留出集仅44项任务，置信区间宽达±7.5个百分点，统计功效不足以致无法在p<0.05水平下确认显著性差异，限制了基准的泛化性与结论稳健性。

常用场景

经典使用场景

TenaciousBench v0.1 专为评估基于大语言模型（LLM）的B2B外拓销售代理而设计，其经典使用场景聚焦于衡量AI系统在十大关键失效维度的表现，包括目标客户画像（ICP）精准度、置信感知措辞、信号来源可信度、语气安全性、幻觉规避、行动号召（CTA）行为、竞争对手差距推理、定价纪律、多轮异议处理以及线程连贯性。该基准通过220个精心设计的任务，模拟真实B2B销售情境，为研发人员提供标准化的测试框架，以系统性地诊断和改进销售代理的弱点。

解决学术问题

该基准解决了现有LLM评估基准（如τ²-Bench、GAIA、HELM）在B2B外拓销售领域中缺乏针对性的问题。它填补了学术研究中对销售场景特有失效模式评估的空白，尤其是ICP拒绝准确性、置信规避措辞、过时信号检测、合规章程路由及语气合规性等维度。通过系统化定义和量化这些失效模式，TenaciousBench为研究者提供了一种严谨的方法论，用于衡量模型在风险敏感、多约束的商业沟通中的表现，从而推动了LLM在现实商业场景中安全性与有效性的理论探索。

衍生相关工作

TenaciousBench v0.1 的部署催生了系列相关工作，包括利用其评分机制训练裁判/批评模型（critic models）的DPO/ORPO方法，以及基于其任务格式衍生出的B2B外拓质量评估框架。研究团队展示了通过ORPO训练Qwen2.5-7B模型（Delta A）在留出集上达到90.9%的pass@1率，这激发了后续对偏好优化算法在销售场景中应用的深入探索。同时，该基准的10个失效维度定义也为其他领域（如客户服务或合规沟通）的LLM评估提供了可借鉴的模板，推动了结构化商业语境下AI对齐技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集