gashawbekele/tenacious-bench-v0.1

Name: gashawbekele/tenacious-bench-v0.1
Creator: gashawbekele
Published: 2026-05-01 05:16:17
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/gashawbekele/tenacious-bench-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1是一个用于B2B销售AI代理的风格合规性评估基准。它评估了公共基准（如τ²-Bench、AgentBench）未涵盖的故障模式，包括音调保持、招聘信号基础、工作台承诺准确性和B2B工程人员配置领域中的发现呼叫预订。数据集包含250个任务，涵盖8个故障维度、4种创作模式和3个分区。每个任务行包含任务ID、来源模式、难度、维度、输入、候选输出、真实值、评分标准和元数据等字段。评分方法包括五种检查类型：不包含、包含、正则表达式、字数和LLM评分。数据集还提供了基线结果，并计划在Qwen2.5-1.5B上发布v0.2版本。数据集采用CC-BY-4.0许可证。

Tenacious-Bench v0.1 is a style-compliance evaluation benchmark for B2B sales AI agents. It evaluates AI sales agents on failure modes that public benchmarks (τ²-Bench, AgentBench) miss, such as tone preservation, hiring-signal grounding, bench commitment accuracy, and discovery-call booking in the B2B engineering staffing domain. The dataset contains 250 tasks across 8 failure dimensions, 4 authoring modes, and 3 partitions. Each row in the dataset includes fields like task_id, source_mode, difficulty, dimension, input, candidate_output, ground_truth, rubric, and metadata. The scoring method involves five check types: not_contains, contains, regex, word_count, and llm_score. Baseline results are provided for a LoRA adapter, and a v0.2 version on Qwen2.5-1.5B is planned. The dataset is licensed under CC-BY-4.0.

提供机构：

gashawbekele

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1 是一个专为评估 B2B 销售 AI 智能体风格合规性而设计的基准数据集，由 Gashaw Bekele 构建。数据集包含 250 项任务，覆盖 8 个失败维度（如信号接地、潜在客户资格认定、异议处理等），并通过四种创作模式生成：追踪衍生、程序化生成、多 LLM 合成及人工编写。数据分为训练集（233 项）、开发集（14 项）和用于排行榜评估的保密测试集（3 项）。每条记录包含任务标识、输入信号（如招聘简报、储备摘要）、候选输出、真实标注（如禁用短语和必需元素）以及带有权重和检查类型的评分标准。

特点

该数据集的核心特色在于聚焦公共基准（如 τ²-Bench）忽略的失败模式，强调风格合规性与 B2B 工程人员招聘领域的细粒度评估。8 个维度分别针对信号引用的证据锚定、储备承诺准确性、语调保持（基于 28 条风格指南的禁用短语检查）、约会预约有效性、成本准确性及多轮对话连贯性等关键场景。难度分级涵盖简单、中等、困难与对抗性样本，评分机制融合五类检查（禁止短语、必需元素、正则表达式、字数限制及 LLM 法官评分），以 1–5 量表评估语调标记，平均分≥4.0 视为通过，确保评估的全面性与严谨性。

使用方法

使用 Tenacious-Bench 时，用户需通过提供的 scoring_evaluator.py 脚本对智能体输出进行评分。该脚本支持五种检查类型：not_contains 检测禁用短语、contains 验证必需引用、regex 检查结构要求（如日历链接格式）、word_count 约束简洁性以及 llm_score 利用 LLM 法官对照五个语调标记打分。运行 python scoring_evaluator.py --demo 可启动演示。基线实验采用 LoRA 适配器（gashawbekele/tenacious-bench-lora-path-a）进行 SFT 微调，结果显示输出长度减少 18%，但分数差异为测量伪影；计划在 v0.2 版本中基于 Qwen2.5-1.5B 进行改进。

背景与挑战

背景概述

Tenacious-Bench v0.1是由Gashaw Bekele于2026年为10 Academy的TRP1项目第11周构建的风格合规性评估基准，旨在填补现有基准（如τ²-Bench和AgentBench）在B2B工程人员配置领域AI销售代理评估中的空白。该基准专注于检测代理在语气保持、招聘信号接地、席位承诺准确性和发现电话预订等关键失败模式上的表现，覆盖250个任务，涵盖8个失败维度，并分为训练集、开发集和保留集。其提出推动了对话AI在专业销售场景下的细粒度评估研究，为验证模型在严格风格导向和领域特定任务中的能力提供了标准化工具。

当前挑战

该数据集所解决的领域挑战是B2B销售AI代理在真实业务交互中难以同时满足风格合规性与任务准确性，现有公开基准未能覆盖语气限制、信号引用锚定等细微失败模式，导致模型在部署时产生不可预期的违规行为。构建过程中挑战显著：任务生成依赖四种模式（轨迹派生、程序化、多LLM合成和手工编写），需确保语境真实性与覆盖广度；评分体系涉及五种检查类型，其中LLM评分器需稳定对齐五维语气标记，且人工标注的禁止短语列表（28条）和评分权重需反复校准以避免主观偏差；同时，标注难度差异大，对抗性样本的设计耗费大量专家知识来模拟复杂多变的销售对抗场景。

常用场景

经典使用场景

Tenacious-Bench v0.1 是一个专注于 B2B 销售场景下 AI 智能体风格合规性评估的专业基准测试集。在工程人才招聘这一垂直领域中，该数据集被设计用于检验销售 AI 在语气保持、招聘信号引用、团队承诺准确性以及发现式通话预约等关键任务上的表现。其经典使用方式是通过 250 个精心设计的任务，覆盖信号接地、客户资格认定、异议处理等八个潜在的失败维度，对模型输出的邮件或对话内容进行多维度打分，从而系统性地评估智能体在真实销售沟通中的专业性和可靠性。

衍生相关工作

围绕 Tenacious-Bench，衍生出了多项重要的研究工作。首先是基于路径 A 的 LoRA 微调适配器（tenacious-bench-lora-path-a），该工作展示了在有监督微调下模型输出长度缩减 18% 而保持得分不变的能力，为资源受限场景下的高效部署提供了范例。此外，数据集的四类创作模式——包含轨迹衍生、程序化生成、多模型合成及手工创作——为后续自动构建领域化评估集的方法论研究奠定了基础。计划中的 v0.2 版本将基于 Qwen2.5-1.5B 模型进一步探索轻量化风格合规智能体的训练路径，持续推动该方向技术的迭代与创新。

数据集最近研究