rafiakedir/tenacious-bench-v0.1

Name: rafiakedir/tenacious-bench-v0.1
Creator: rafiakedir
Published: 2026-05-01 21:54:45
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/rafiakedir/tenacious-bench-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1是一个专门用于评估B2B外呼销售代理的领域特定基准。它包含300个任务，覆盖5个评估维度（信号基础保真度、竞争对手差距诚实度、ICP细分适当性、语气保持、工作台承诺诚实度）和4种来源模式（跟踪衍生30%、程序化30%、对抗性手工编写15%、LLM合成25%）。数据集分为训练集（152个任务）、开发集（89个任务）和保留集（59个任务），用于偏好对构建、公共开发和密封评估。每个任务是一个JSON对象，包含任务ID、评估维度、难度、来源模式、输入、候选输出、真实值和评分函数等字段。

Tenacious-Bench v0.1 is a domain-specific evaluation benchmark for B2B outbound sales agents. It includes 300 tasks across 5 rubric dimensions (signal grounding fidelity, competitor gap honesty, ICP segment appropriateness, tone preservation, bench commitment honesty) and 4 source modes (trace-derived 30%, programmatic 30%, adversarial hand-authored 15%, LLM-synthetic 25%). The dataset is partitioned into train (152 tasks), dev (89 tasks), and held_out (59 tasks) sets for preference pair construction, public development, and sealed evaluation. Each task is a JSON object containing fields such as task_id, dimension, difficulty, source_mode, input, candidate_output, ground_truth, and scoring_function.

提供机构：

rafiakedir

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1专为B2B外呼销售场景设计，旨在弥补现有基准（如τ²-Bench retail）在评估销售智能体关键失效模式上的不足。该数据集包含300个任务，通过四种来源构建：30%源于真实销售对话的痕迹提取，30%基于规则自动生成，25%由大语言模型合成，15%由领域专家手工对抗创作。任务覆盖五个评估维度，包括信号接地忠诚度、竞争对手差距诚实性、理想客户群体适配性、语气保持以及承诺诚实性，每个维度均配有精细的评分函数和评估标准。数据集划分为训练集（152任务）、开发集（89任务）和保密测试集（59任务），并经过TF-IDF余弦相似度（<0.85）与8-gram重叠检查双重去污染，确保分区之间无数据泄露。

使用方法

用户可通过克隆GitHub仓库并运行评分评估器来使用本数据集。具体流程为执行`git clone https://github.com/rafiakedir/tenacious-bench`，安装依赖后使用`python scoring_evaluator.py --partition dev`对开发集进行评分。任务以JSON格式存储，包含task_id、维度、难度、来源模式、输入字段、候选输出及评分函数等完整字段。开发者亦可利用训练集中的偏好对（位于`training_data/preference_pairs.jsonl`）进行ORPO微调，或直接加载预训练的Qwen2.5-1.5B LoRA适配器进行评估。所有生成决策记录于`generation_log.jsonl`中，且生成器（DeepSeek V3.2）与判决器（Claude/评分评估器）来自不同模型家族，有效防止偏好泄露。基准采用CC-BY-4.0许可证，所有数据均为合成生成，不含真实客户信息。

背景与挑战

背景概述

Tenacious-Bench v0.1是由Rafia Kedir于2026年创建的一个面向B2B外呼销售代理的领域特定评估基准。该数据集聚焦于标准基准（如τ²-Bench retail）无法衡量的五个关键失败模式，包括信号接地忠实度、竞争对手差距诚实度、ICP细分适当性、语气保持及承诺诚实度。其核心研究问题在于如何系统性地评估和提升大语言模型在复杂B2B销售场景中的表现，尤其在涉及高商业风险的交互中。该基准的发布为偏好调优（如ORPO训练）提供了300个任务、5个评分维度及4种生成模式的数据支撑，对推动销售智能体的鲁棒性和可信度研究具有重要影响力。

当前挑战

Tenacious-Bench v0.1着力解决的领域挑战在于B2B外呼销售场景中智能体输出存在的高风险失败模式，例如信号接地忠实度在week 10探针中触发率达35%，竞争对手差距诚实度达45%且可能导致不可逆的品牌损害。这些失败模式在现有零售基准中未被覆盖，亟需针对性评估。构建过程中的挑战包括：1）数据来源多样性管理——30%源自真实对话痕迹、30%程序化生成、15%对抗性人工手写及25%大模型合成，需确保不同模态的数据质量与一致性；2）去污染措施——通过TF-IDF余弦相似度<0.85及8-gram重叠检查确保训练、开发与保密分片间的清洁度；3）偏好泄漏防范——生成器（DeepSeek V3.2）与评估器家族（Claude/scoring_evaluator）严格分离，避免评估偏误。

常用场景

经典使用场景

在B2B外呼销售智能体评估领域，Tenacious-Bench v0.1定位为一项兼具诊断性与防御性的专用基准测试集。其核心使用场景在于度量对话智能体在高度复杂的商务洽谈中，能否严格依循客户信号（如招聘需求简报）进行事实陈述，并忠实反映自身交付能力。通过300条精心设计的任务与五维评分体系（信号保真度、竞品差距诚实性、目标客户匹配度、语气保持及人员承诺诚实度），该基准能在超出传统零售评测范畴的失败模式上，对模型输出进行细粒度归因。典型地，研究者可借助其训练/验证/留出三分布局，在偏好对齐或直接评分两个路径上评估模型行为。该基准强调对35%至45%高频触发失败维度的检测，为销售AI的安全性评估提供了可复现的方法论框架。

解决学术问题

该数据集直面当前对话系统评测标准在专业商业场景中的盲区。传统基准如τ²-Bench主要检验零售场景下礼貌性的政策响应，其评价维度无法触及B2B销售中高风险的承诺夸大、竞品误导与资源失配等专业失信问题。Tenacious-Bench通过构建五个具商业权重赋值的打分维度，量化了诸如信号接地保真度、竞品缺口诚实性等学术界长期忽略的伦理与效能交叉议题。这一问题框架的提出，使得研究人员能够系统性地探索语言模型在多轮商务对话中，面对客户压力与竞争环境时，语义事实性的保持与边界自省能力。该基准同时回应了学术界对‘大模型幻觉在非开放域情境下具体影响度量’的迫切需求，为后续偏好学习、奖励建模及安全对齐研究提供了高信效度的评测标杆。

实际应用

在实际业务落地层面，Tenacious-Bench可嵌入至B2B销售赋能平台的全生命周期之中。当企业内部部署智能外呼助手时，该基准能够用于每周例行的行为扰动探针测试，通过自动化评分监测模型在五个关键维度的退化曲线。举例而言，若在某次自动化巡检中，智能体在‘竞品差距诚实性’维度触发率超过预设阈值（如45%），团队可立即回溯对话日志与算法权重，定位产生误导性竞品格差异声明的根因，从而避免品牌声誉的不可逆损伤。此外，该基准的性能覆盖了高达约48万美元年均合同价值的错误分类风险维度，支撑起销售团队在高客单价场景下对AI助手进行风险评估与合规审计。企业也可依据留出集上的评测结果，在模型正式上线部署前获取‘是否可投产’的量化决策依据。

数据集最近研究