rafiakedir/tenacious-bench-v0.1
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/rafiakedir/tenacious-bench-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious-Bench v0.1是一个专门用于评估B2B外呼销售代理的领域特定基准。它包含300个任务,覆盖5个评估维度(信号基础保真度、竞争对手差距诚实度、ICP细分适当性、语气保持、工作台承诺诚实度)和4种来源模式(跟踪衍生30%、程序化30%、对抗性手工编写15%、LLM合成25%)。数据集分为训练集(152个任务)、开发集(89个任务)和保留集(59个任务),用于偏好对构建、公共开发和密封评估。每个任务是一个JSON对象,包含任务ID、评估维度、难度、来源模式、输入、候选输出、真实值和评分函数等字段。
Tenacious-Bench v0.1 is a domain-specific evaluation benchmark for B2B outbound sales agents. It includes 300 tasks across 5 rubric dimensions (signal grounding fidelity, competitor gap honesty, ICP segment appropriateness, tone preservation, bench commitment honesty) and 4 source modes (trace-derived 30%, programmatic 30%, adversarial hand-authored 15%, LLM-synthetic 25%). The dataset is partitioned into train (152 tasks), dev (89 tasks), and held_out (59 tasks) sets for preference pair construction, public development, and sealed evaluation. Each task is a JSON object containing fields such as task_id, dimension, difficulty, source_mode, input, candidate_output, ground_truth, and scoring_function.
提供机构:
rafiakedir
搜集汇总
数据集介绍

构建方式
Tenacious-Bench v0.1专为B2B外呼销售场景设计,旨在弥补现有基准(如τ²-Bench retail)在评估销售智能体关键失效模式上的不足。该数据集包含300个任务,通过四种来源构建:30%源于真实销售对话的痕迹提取,30%基于规则自动生成,25%由大语言模型合成,15%由领域专家手工对抗创作。任务覆盖五个评估维度,包括信号接地忠诚度、竞争对手差距诚实性、理想客户群体适配性、语气保持以及承诺诚实性,每个维度均配有精细的评分函数和评估标准。数据集划分为训练集(152任务)、开发集(89任务)和保密测试集(59任务),并经过TF-IDF余弦相似度(<0.85)与8-gram重叠检查双重去污染,确保分区之间无数据泄露。
使用方法
用户可通过克隆GitHub仓库并运行评分评估器来使用本数据集。具体流程为执行`git clone https://github.com/rafiakedir/tenacious-bench`,安装依赖后使用`python scoring_evaluator.py --partition dev`对开发集进行评分。任务以JSON格式存储,包含task_id、维度、难度、来源模式、输入字段、候选输出及评分函数等完整字段。开发者亦可利用训练集中的偏好对(位于`training_data/preference_pairs.jsonl`)进行ORPO微调,或直接加载预训练的Qwen2.5-1.5B LoRA适配器进行评估。所有生成决策记录于`generation_log.jsonl`中,且生成器(DeepSeek V3.2)与判决器(Claude/评分评估器)来自不同模型家族,有效防止偏好泄露。基准采用CC-BY-4.0许可证,所有数据均为合成生成,不含真实客户信息。
背景与挑战
背景概述
Tenacious-Bench v0.1是由Rafia Kedir于2026年创建的一个面向B2B外呼销售代理的领域特定评估基准。该数据集聚焦于标准基准(如τ²-Bench retail)无法衡量的五个关键失败模式,包括信号接地忠实度、竞争对手差距诚实度、ICP细分适当性、语气保持及承诺诚实度。其核心研究问题在于如何系统性地评估和提升大语言模型在复杂B2B销售场景中的表现,尤其在涉及高商业风险的交互中。该基准的发布为偏好调优(如ORPO训练)提供了300个任务、5个评分维度及4种生成模式的数据支撑,对推动销售智能体的鲁棒性和可信度研究具有重要影响力。
当前挑战
Tenacious-Bench v0.1着力解决的领域挑战在于B2B外呼销售场景中智能体输出存在的高风险失败模式,例如信号接地忠实度在week 10探针中触发率达35%,竞争对手差距诚实度达45%且可能导致不可逆的品牌损害。这些失败模式在现有零售基准中未被覆盖,亟需针对性评估。构建过程中的挑战包括:1)数据来源多样性管理——30%源自真实对话痕迹、30%程序化生成、15%对抗性人工手写及25%大模型合成,需确保不同模态的数据质量与一致性;2)去污染措施——通过TF-IDF余弦相似度<0.85及8-gram重叠检查确保训练、开发与保密分片间的清洁度;3)偏好泄漏防范——生成器(DeepSeek V3.2)与评估器家族(Claude/scoring_evaluator)严格分离,避免评估偏误。
常用场景
经典使用场景
在B2B外呼销售智能体评估领域,Tenacious-Bench v0.1定位为一项兼具诊断性与防御性的专用基准测试集。其核心使用场景在于度量对话智能体在高度复杂的商务洽谈中,能否严格依循客户信号(如招聘需求简报)进行事实陈述,并忠实反映自身交付能力。通过300条精心设计的任务与五维评分体系(信号保真度、竞品差距诚实性、目标客户匹配度、语气保持及人员承诺诚实度),该基准能在超出传统零售评测范畴的失败模式上,对模型输出进行细粒度归因。典型地,研究者可借助其训练/验证/留出三分布局,在偏好对齐或直接评分两个路径上评估模型行为。该基准强调对35%至45%高频触发失败维度的检测,为销售AI的安全性评估提供了可复现的方法论框架。
解决学术问题
该数据集直面当前对话系统评测标准在专业商业场景中的盲区。传统基准如τ²-Bench主要检验零售场景下礼貌性的政策响应,其评价维度无法触及B2B销售中高风险的承诺夸大、竞品误导与资源失配等专业失信问题。Tenacious-Bench通过构建五个具商业权重赋值的打分维度,量化了诸如信号接地保真度、竞品缺口诚实性等学术界长期忽略的伦理与效能交叉议题。这一问题框架的提出,使得研究人员能够系统性地探索语言模型在多轮商务对话中,面对客户压力与竞争环境时,语义事实性的保持与边界自省能力。该基准同时回应了学术界对‘大模型幻觉在非开放域情境下具体影响度量’的迫切需求,为后续偏好学习、奖励建模及安全对齐研究提供了高信效度的评测标杆。
实际应用
在实际业务落地层面,Tenacious-Bench可嵌入至B2B销售赋能平台的全生命周期之中。当企业内部部署智能外呼助手时,该基准能够用于每周例行的行为扰动探针测试,通过自动化评分监测模型在五个关键维度的退化曲线。举例而言,若在某次自动化巡检中,智能体在‘竞品差距诚实性’维度触发率超过预设阈值(如45%),团队可立即回溯对话日志与算法权重,定位产生误导性竞品格差异声明的根因,从而避免品牌声誉的不可逆损伤。此外,该基准的性能覆盖了高达约48万美元年均合同价值的错误分类风险维度,支撑起销售团队在高客单价场景下对AI助手进行风险评估与合规审计。企业也可依据留出集上的评测结果,在模型正式上线部署前获取‘是否可投产’的量化决策依据。
数据集最近研究
最新研究方向
当前,以大型语言模型为驱动的B2B销售代理在现实商业场景中面临比传统零售智能体更复杂的对话挑战。Tenacious-Bench v0.1作为首个专门评估B2B外呼销售代理的领域基准,开创性地将评估焦点从泛化对话能力转向五项高商业风险的失败模式,包括信号接地保真度、竞争差距诚实性、理想客户画像段适配性、语气保持以及团队承诺诚实性。这些维度精准对应了CTO信任度丧失、不可逆品牌损害、单次错误高达48万美元的年合同价值损失等真实商业痛点。该数据集不仅提供了300项精心设计的评估任务,还创新性地整合了轨迹导出、程序化生成、对抗性人工构建和LLM合成四种创作模式,并建立了ORPO偏好对训练管线和去污染机制,为B2B销售领域的大模型对齐与安全评估提供了可复现的量化基准,填补了从学术实验到高价值商业部署之间的关键评估空白。
以上内容由遇见数据集搜集并总结生成



