five

bonneyjr/tenacious-bench

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/bonneyjr/tenacious-bench
下载链接
链接失效反馈
官方服务:
资源简介:
Tenacious-Bench v0.1是一个专门用于评估B2B销售代理输出质量的基准测试数据集。该数据集针对11种特定的失败维度设计,包括信号过度承诺、工作台过度承诺、语气标记遵守等。数据集包含44个任务,分为训练集、开发集和密封的保留集。每个任务都有详细的JSON格式描述,包括任务ID、维度、输入、评分标准等。数据集主要用于评估销售代理生成器在Tenacious特定失败模式上的表现。

Tenacious-Bench v0.1 is a specialized evaluation benchmark for assessing the output quality of B2B sales agents. It targets 11 specific failure dimensions including signal overclaiming, bench overcommitment, and tone marker adherence. The dataset comprises 44 tasks divided into training, development, and sealed held-out sets. Each task is described in detailed JSON format, including task ID, dimension, input, rubric, etc. The dataset is primarily used to evaluate sales-agent generators on Tenacious-specific failure modes.
提供机构:
bonneyjr
搜集汇总
数据集介绍
main_image_url
构建方式
Tenacious-Bench v0.1 的构建融合了多渠道数据来源与精细化的合成技术。其输入源自真实销售追踪日志(trace_derived)、基于 Crunchbase 数据的程序化参数扫描(programmatic_sweep)、多轮大语言模型合成(multi_llm_synthesis)以及手工编写的对抗性样本(hand_authored_adversarial),四类模式分别占据约 25% 至 27% 的比例,共同覆盖 11 个关键失败维度。每项任务以 JSONL 格式存储,包含任务标识、评估维度、难度、输入上下文、评分细则、参考答案及元数据。数据集经过三层质量控制——Jaccard 8-gram 去重(阈值 <0.20)、嵌入余弦相似度检查(<0.85)以及时间戳过滤,确保样本间低重复性与时效性。最终划分为训练集(24 例)、开发集(12 例)及密封的保留集(8 例),后者仅发布哈希值以供未来验证。
特点
本基准测试的核心特点在于其高度专业化与精细化的评估维度设计。不同于通用零售销售评测,Tenacious-Bench 精准聚焦于 B2B 外呼邮件中特有的 11 类失败模式,如信号过度宣称(signal_overclaiming)、承诺越界(bench_overcommitment)、语调违规(tone_marker_adherence)及线索陈旧性(signal_staleness)等,这些维度在现有评测体系中常被忽视。每项任务配备结构化的评分细则(rubric),涵盖禁用短语、证据引用要求、语调标记与结构约束,且各维度配有明确权重(如 grounding 占 35%)。评估结果统计显著(Delta A +0.2188, p<0.0001),并附有完整的污染检测报告,保障评测的可信度与可复现性。
使用方法
使用 Tenacious-Bench 时,研究者需通过命令行调用内置的评分评估器(scoring_evaluator.py),指定开发集或训练集中的单个任务 ID 与候选输出文本。评估器会依据该任务对应的评分细则,计算 banned_phrases、grounding、tone 与 structural 四个分项得分,并输出总分与详细分解结果。该基准兼容离线与在线判别器,并提供了配套的 LoRA 适配器模型(tenacious-judge-lora-v0.1)以提升评估一致性。建议用户优先在开发集上调试模型,在完成充分消融后,将最终结果提交至后续发布的排行榜,由密封的保留集进行盲测。所有代码与复现脚本均可在 GitHub 仓库中获取。
背景与挑战
背景概述
在B2B销售自动化领域,通用销售代理评估基准(如τ²-Bench retail)虽能衡量代理的一般表现,却难以捕获特定品牌语境下的细粒度行为失败模式。为填补这一空白,由TRP1研究员Oliyad Milkessa(Atnabon)主导,于2026年创建了Tenacious-Bench v0.1,这是一个专为评估B2B外展邮件代理在Tenacious品牌风格下的输出质量而设计的基准。该数据集聚焦于11个关键失效维度,包括信号过度宣称、基准承诺违规、语调标记遵循等,旨在测试代理是否具备品牌特有的抗僵化能力。其前身实验表明,经过训练的评估器能在拿地测试集上实现+0.2188的显著提升(p<0.0001),证明该基准对推动销售代理的领域专业化评估具有重要价值。
当前挑战
Tenacious-Bench所解决的领域挑战在于,通用基准无法衡量销售代理在具体品牌规则和失效模式下的表现,例如代理可能混淆低置信信号与事实,或违反禁止承诺未列于基准摘要中的条款。该基准通过设计11个专属维度,强制系统识别并避免这些陷阱。在构建过程中,团队面临两大挑战:一是数据稀缺,仅有44个任务(含24个训练样本),迫使采用四类创作模式(痕迹衍生、程序化扫描、多LLM合成及手工对抗生成)来扩充样本多样性;二是任务设计的严谨性,必须确保无信息泄漏(如通过8-gram Jaccard去重和嵌入余弦相似度阈值控制),并设置密封的拿地测试集以保障评估公正性。此外,判别器需在有限数据上实现品牌特定的评分一致性,这对评估器的鲁棒性提出了极高要求。
常用场景
经典使用场景
Tenacious-Bench v0.1是一个专为B2B外呼销售情境下智能体输出质量评估而设计的精细化基准数据集。其经典使用场景聚焦于检验基于大型语言模型的销售智能体在面对特定企业品牌风格(Tenacious)时,是否能够在信号诚实性、承诺边界、语气遵循等多个维度上规避失败模式。该基准通过精心构造的44项任务,覆盖信号过度声称、基准过度承诺、语气标记遵循等11个关键失效维度,要求智能体在起草外呼邮件时严格遵循预设的评分规则,从而对模型的生成行为进行精准诊断与量化打分。
解决学术问题
该数据集针对性地解决了现有通用销售智能体评估基准(如τ²-Bench retail)无法测量特定企业级语境下细粒度行为合规性的学术问题。它聚焦于那些通用基准所忽略的关键维度,例如智能体是否将低置信度的招聘信号当作事实陈述、是否承诺超出基准摘要文件范围的结果、是否在缺乏证据的情况下对潜在客户的缺口做出自信断言,以及是否在创始人离职等敏感场景中错误发送草稿而非触发人工审核流程。Tenacious-Bench的提出为销售智能体领域提供了首个可复现、可量化的风格合规性评估框架,其重要性在于揭示了仅依赖通用基准进行模型优化可能导致严重的企业风险,从而推动了该领域向更加安全、可靠和情境化评估范式的演进。
衍生相关工作
围绕Tenacious-Bench数据集已衍生出若干关键工作。首先,其配套的评估模型适配器(tenacious-judge-lora-v0.1)是一个基于Qwen2.5-1.5B主干网络微调的LoRA模型,专门用于自动化评估销售智能体输出质量。其次,评测过程中发现的Delta B消融结果(即经过训练的门控模型与基于相同主干网络的精心提示工程模型在质量上统计无显著差异)是一项重要的null result,揭示了在特定任务规模下提示工程的高效性。此外,该数据集的工作还涉及精细化的数据污染检查机制,包括8-gram Jaccard相似度、嵌入余弦相似度以及时间偏移检查,为后续基准构建中的质量控制提供了技术参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作