ephorata/tenacious-bench-path-b-preference

Name: ephorata/tenacious-bench-path-b-preference
Creator: ephorata
Published: 2026-05-02 15:17:43
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ephorata/tenacious-bench-path-b-preference

下载链接

链接失效反馈

官方服务：

资源简介：

Tenacious Bench Path B Preference数据集旨在评估在B2B外展工作中特定失败模式的偏好对。数据集包含训练集、开发集和保留集，其中保留集仅作为元数据公开。数据集的构建基于四种来源模式（trace-derived、programmatic、multi-llm-synthesis、hand-authored），并通过生成控制变体创建偏好对。数据集适用于训练偏好模型或进行ORPO、DPO、SimPO等实验，但不建议用作广泛的指令遵循基准或直接针对保留集进行调优。

The Tenacious Bench Path B Preference dataset is designed to evaluate preference pairs for specific failure modes in B2B outbound work. The dataset includes training, development, and held-out sets, with the held-out set only available as metadata. The dataset is constructed from four source modes (trace-derived, programmatic, multi-llm-synthesis, hand-authored) and creates preference pairs by generating controlled worse variants. It is suitable for training preference models or conducting experiments like ORPO, DPO, and SimPO, but not recommended as a broad instruction-following benchmark or for direct tuning against the held-out partition.

提供机构：

ephorata

搜集汇总

数据集介绍

构建方式

Tenacious Bench Path B Preference数据集的构建源于对Tenacious风格B2B外呼工作中关键失败模式的量化需求。其偏好对通过四种源模式生成：trace-derived、programmatic、multi-llm-synthesis和hand-authored。构建过程中，首先将基准任务批准的输出作为chosen样本，随后针对性地生成受控的次优变体作为rejected样本。对于邮件类任务，次优变体引入如更差的主题前缀、移除不确定性标记或使用违禁销售用语等问题；对于结构化任务，则通过翻转字段来模拟更差的资格判定或渠道决策，从而形成高质量偏好对。

特点

该数据集聚焦于六大核心商业行为维度：接地语言、弱信心处理、避免过度宣称、定价交接安全、资格判定正确性及渠道路由行为。其独特之处在于包含三个分割：训练集（62条）、开发集（113条）和持有集（50条仅元数据形式）。持有集以密封元数据形式呈现，确保最终评估的不可见性。每条记录均包含prompt、chosen、rejected等字段，并提供结构化与渲染两种形式，同时保留sft_text字段以支持可选的预热监督微调，为偏好学习实验提供了丰富的维度。

使用方法

推荐使用本数据集进行小型偏好模型或评论模型的训练，以及ORPO、DPO或SimPO等偏好对齐实验，也可用于销售领域的安全性与接地行为回归测试。数据以JSON Lines格式提供，train和dev分割可直接加载用于模型训练与验证。注意不应将其视为广泛的指令遵循基准，避免直接针对密封持有集进行调优，亦不可将其解释为真实世界转化性能的度量。数据集采用CC-BY-4.0许可协议，是Tenacious Bench基准的公开偏好训练子集。

背景与挑战

背景概述

在商业对商业（B2B）外拓销售场景中，通用大语言模型基准测试难以可靠衡量特定领域的失败模式，尤其当任务涉及不确定性下的业务行为时，如定价交接、资格认定与渠道选择等。为此，Tenacious Bench Path B Preference数据集应运而生，由SignalForge团队于2024年创建，旨在通过偏好对训练来优化模型在销售领域的表现。该数据集聚焦于落地语言、弱信心处理、过度声称规避等核心商业维度，并提供训练、验证与密封的保留子集，以支持ORPO、DPO等偏好优化实验。其发布基于CC-BY-4.0许可，为小样本偏好模型训练提供了高质量领域专属资源，对提升AI在商业场景中的可靠性与安全性具有重要参考价值。

当前挑战

该数据集面临的核心领域挑战在于，通用基准无法捕捉B2B外拓工作中的关键失败模式，例如模型在定价讨论中过度承诺、忽略不确定性信号或做出不准确的资格判断。这些行为在真实商业交互中可能直接导致客户信任丧失或违规风险。在构建过程中，偏好对的生成需依赖多种来源（如追踪衍生、程序化生成、多模型合成与人工创作），并确保被拒变体引入特定缺陷（如邮件主题前缀不当、删除不确定性标记或使用禁止销售用语），同时保持与基准输出的一致性。此外，密封保留子集的设计增加了避免数据污染的技术复杂性，需通过嵌入代理与n-gram过滤器进行重叠检测，进一步提升了数据清洗与验证的难度。

常用场景

经典使用场景

在商业对公销售场景中，AI助手的语言行为需要具备高度的严谨性与可靠性，尤其是在信息不确定、报价交涉或渠道分配等风险环节。Tenacious Bench Path B Preference数据集专为评估和优化此类场景中的大语言模型行为而设计，其经典使用场景聚焦于偏好对齐训练。研究者可借助该数据集中的偏好对——即由基准通过输出作为“优选”，并构造含有典型错误的“劣选”变体——开展ORPO、DPO或SimPO等偏好学习实验，从而系统性地提升模型在商业对话中避免过度承诺、处理不确定性、执行准确定价交接以及确保资格验证正确性的能力。

解决学术问题

该数据集精准回应了通用助手评测无法有效覆盖专业商业销售领域失败模式的学术困境。学术界长期面临两类问题：一是缺乏针对“接地气语言”、“弱信心处理”、“不宣称不确定”等具体商业交流维度的标准化基准，二是偏好对齐方法的有效性常被模型在开放域任务上的整体表现所掩盖。Tenacious Bench Path B Preference通过提供包含62条训练对与113条验证对的精炼偏好数据，使研究人员得以聚焦于那些在真实B2B外呼工作中具有关键影响但被主流评测忽视的行为缺陷。该数据集的公开打破了对消费者级对话质量的单一依赖，推动了面向专业领域安全性、合规性和鲁棒性的偏好学习方法研究，对构建可信赖的企业级AI助手具有深远意义。

衍生相关工作

该数据集的出现催生了一系列具有启发性的相关研究方向。其一，研究者可基于该偏好对构建面向商业销售领域的奖励模型，从而为强化学习从人类反馈策略提供更精准的信号。其二，数据集中的任务来源模式——包括“轨迹推导”、“程序生成”、“多模型综合”及“人工编写”——为混合数据生成方法论带来了范例，后续工作可借鉴该范式在财务合规、医疗问诊等高风险领域定制类似的专业偏好数据集。此外，该数据集的密封保留集设计理念为评估协议的公平性与泄露检测给出了可行方案，激励了更多关于评测数据隔离与污染监控方法的学术探索。这些衍生活动共同丰富了偏好对齐研究在实际应用中的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集