Birkity/tenacious_bench_v0.1

Name: Birkity/tenacious_bench_v0.1
Creator: Birkity
Published: 2026-05-02 10:23:15
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Birkity/tenacious_bench_v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious-Bench v0.1是一个用于评估B2B销售代理质量的机器可验证基准测试集。它包含257个任务，分为四种创作模式和三个密封分区。数据集通过五个维度（包括基础保真度、ICP推销对齐、信号方向性、语气合规性和格式合规性）来评估`(brief, email)`对的质量，这些维度完全不需要大型语言模型（LLM）即可机器验证。数据集结构包括开发集、合成开发集、训练集和开发集分区，其中held_out分区未公开。数据集还详细描述了任务模式、组成、分区、污染检查、SimPO Judge Adapter训练和消融结果等信息。

Tenacious-Bench v0.1 is a machine-verifiable evaluation benchmark for B2B sales-agent quality. It contains 257 tasks divided into four authoring modes and three sealed partitions. The dataset measures whether a `(brief, email)` pair satisfies five rubric dimensions (grounding_fidelity, icp_pitch_alignment, signal_directionality, tone_compliance, and format_compliance) that are fully machine-verifiable without an LLM. The dataset structure includes dev, dev_synthetic, train, and dev partitions, with the held_out partition not distributed. Detailed information about task schema, dataset composition, partitions, contamination checks, SimPO-trained judge adapter, and ablation results is provided.

提供机构：

Birkity

搜集汇总

数据集介绍

构建方式

Tenacious-Bench v0.1是一个针对B2B销售智能体质量评估的机器可验证基准数据集，包含257个任务，源自四种不同的构建模式：基于真实公司事件轨迹的trace_derived批次、通过确定性参数模板生成的programmatic批次、手工撰写的对抗性边缘用例adversarial_hand批次、以及由大语言模型生成的语义探测样本synthetic_semantic批次。数据集划分为训练、开发和密封保留三个分区，其中114个任务用于训练偏好对，78个任务作为公开评估集，65个任务以密封形式存在以防止数据泄露。所有任务均采用统一JSON结构，包含公司简介、邮件内容及五维评分量规，确保评估的标准化与可复现性。

特点

该数据集的核心特点在于其五维机器可验证评估体系，覆盖证据保真度、ICP定位对齐、信号方向性、语调合规性及格式合规性，所有维度均无需依赖大语言模型即可通过确定性规则完成判定。数据集通过三重污染检测验证了分区的独立性，包括8-gram重叠、嵌入余弦相似度和时间偏移检验，确保评估的公正性。此外，基于训练分区构建了228个偏好对，采用SimPO算法对Qwen2.5-3B-Instruct模型进行微调，生成的评判适配器在保留分区上将准确率从50.8%提升至59.4%，并完全消除了ICP对齐错误。

使用方法

使用该数据集时，用户可直接加载dev分区的JSONL文件作为标准评估输入，每个任务包含完整的brief和email字段，需依据rubric中的五维规则进行逐项判定。对于需要自动化评估的场景，可以从模型仓库加载预训练的tenacious_judge_adapter LoRA适配器，配合Qwen2.5-3B-Instruct基座模型，通过SimPO训练后的评判器对任务进行打分。数据集还提供了train分区的偏好对数据，支持研究者自行训练新的评判模型或进行对比实验。所有数据采用CC-BY-4.0许可，方便学术和商业场景中的二次使用。

背景与挑战

背景概述

在人工智能驱动商业自动化的浪潮中，B2B销售智能体（sales-agent）的质量评估长期依赖人工评审或大语言模型（LLM）的主观判断，缺乏标准化且可机器验证的基准。为此，Birkity Mekasha于2026年提出了Tenacious-Bench v0.1，这是一个专为B2B外联邮件智能体质量评估设计的可机器验证基准数据集。该数据集由257项任务构成，涵盖四种创作模式（trace-derived、programmatic、adversarial_hand、synthetic_semantic）和三个密封分区（train/dev/held_out），旨在通过五个完全无需LLM的规则维度（如事实忠实性、ICP对齐性、信号方向性等）对智能体输出进行客观评判。其核心创新在于利用SimPO算法训练专用的judge adapter，在封闭测试集上取得了8.6%的准确率提升，为销售智能体的自动化评测提供了新的范式，对B2B销售自动化和偏好学习领域具有重要推动作用。

当前挑战

该数据集所解决的领域挑战在于，B2B销售邮件智能体的质量评价长期受制于主观标准和LLM评估的不稳定性，缺乏一套可复现、可机器验证的量化基准。Tenacious-Bench通过定义五项规则性维度（如禁止短语检测、格式合规性等）实现了完全自动化的评估，消除了对LLM作为判官的依赖。在数据集构建过程中，挑战主要包括：确保任务多样性以覆盖真实销售场景，例如从公司事件痕迹中追溯衍生任务、通过参数模板生成程序化任务、手工构建对抗性边界案例以及利用LLM生成语义探测样本；设计防污染机制，通过n-gram重叠检查、嵌入余弦相似度分析和时间偏移验证确保密封分区的纯洁性；以及在高难度边界案例（adversarial_hand任务中82%为“hard”级别）中平衡数据分布，保证基准对智能体的区分度。

常用场景

经典使用场景

在B2B销售智能体评估领域，Tenacious-Bench v0.1作为首个完全机器可验证的基准数据集，聚焦于评估销售邮件与客户简报之间的多维契合度。该数据集涵盖257个精心设计的任务，通过溯源衍生、程序化生成、对抗性手工编纂及语义边缘案例四种构建模式，系统性检验智能体在事实忠实度、ICP对齐策略、信号方向性、语气合规性及格式规范性五个关键维度的表现。每条样本均附带明确可执行的规则化评分标准，无需依赖大语言模型参与评判，使得评估过程具备高度的可复现性与客观性，成为衡量B2B销售智能体输出质量的标准化测试平台。

衍生相关工作

围绕Tenacious-Bench v0.1衍生了一系列具有启发性的研究工作。最突出的成果是基于训练分区构建的Judge适配器，研究人员利用228个维度推理偏好对，通过SimPO算法在Qwen2.5-3B-Instruct骨干模型上训练出专用的评判模型，在开发集和密封测试集上分别带来了5.2%和8.6%的准确率提升，并彻底消除了ICB对齐维度上的所有错误。这一范式展示了从结构化规则到可学习评判器的知识蒸馏路径，为构建领域专用、低成本且高可靠的自动化评估系统提供了可行的技术参考，也启发了后续在跨场景迁移、少样本适应以及评估维度动态扩展等方向上的探索。

数据集最近研究