tenacious-bench-path-b-preference
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/ephorata/tenacious-bench-path-b-preference
下载链接
链接失效反馈官方服务:
资源简介:
Tenacious Bench Path B Preference 数据集旨在评估B2B外联工作中特定业务行为的表现,特别是在不确定性下的表现。该数据集不关注广泛的对话质量,而是专注于实际业务场景中的关键失败模式,如基于事实的语言、低置信度处理、避免过度承诺、定价交接安全性、资格正确性和渠道路由行为等。数据集包含偏好对,分为训练集(62条)、开发集(113条)和保留集(50条,仅元数据)。每条记录包含任务ID、分割、维度、任务类型、来源模式、提示、选择与拒绝的响应(包括结构化和非结构化形式)、监督微调文本和元数据等字段。数据来源于四种模式:跟踪衍生、程序化生成、多LLM合成和手工编写。数据集经过预处理,转换为一致的偏好训练模式,并保留来源和任务元数据。推荐用于训练小型偏好模型或进行ORPO、DPO等实验,但不建议用作广泛的指令遵循基准或直接针对保留集进行调优。数据集采用CC-BY-4.0许可公开分发。
The Tenacious Bench Path B Preference dataset is designed to evaluate the performance of specific business behaviors in B2B outreach work, particularly under uncertainty. The dataset does not focus on broad conversational quality but instead targets key failure modes in real business scenarios, such as fact-based language, low-confidence handling, avoiding overcommitment, pricing handover security, qualification correctness, and channel routing behavior. The dataset contains preference pairs divided into a training set (62 entries), a development set (113 entries), and a holdout set (50 entries, metadata only). Each record includes fields such as task ID, split, dimension, task type, source mode, prompt, chosen and rejected responses (both structured and unstructured forms), supervised fine-tuning text, and metadata. The data originates from four modes: tracking-derived, programmatically generated, multi-LLM synthesized, and manually written. The dataset has been preprocessed to convert it into a consistent preference training format while retaining source and task metadata. It is recommended for training small preference models or conducting experiments like ORPO and DPO but is not advised for use as a broad instruction-following benchmark or for direct tuning against the holdout set. The dataset is publicly distributed under the CC-BY-4.0 license.
创建时间:
2026-05-01
原始信息汇总
Tenacious Bench Path B Preference 数据集概述
基本信息
- 数据集名称: Tenacious Bench Path B Preference
- 许可证: CC-BY-4.0
- 任务类别: 文本生成、文本分类
- 语言: 英语
- 数据规模: 小于1K条样本
数据集构成
该数据集包含以下文件:
preferences_train.jsonl— 训练集preferences_dev.jsonl— 开发集preferences_held_out_metadata.json— 保留集元数据manifest.json— 顶层分割索引
样本数量分布
| 分割 | 数量 |
|---|---|
| train | 62 |
| dev | 113 |
| held_out | 50(仅以元数据形式记录) |
每条样本包含的字段
task_id— 任务IDsplit— 分割标识dimension— 维度task_type— 任务类型source_mode— 来源模式prompt— 提示文本prompt_messages— 提示消息chosen— 优选输出rejected— 拒选输出chosen_structured— 结构化优选rejected_structured— 结构化拒选sft_text— 可选的有监督微调文本chosen_chatml— ChatML格式优选rejected_chatml— ChatML格式拒选metadata— 元数据
数据收集过程
任务来源模式(四种)
- trace-derived — 从轨迹推导
- programmatic — 程序化生成
- multi-llm-synthesis — 多语言模型合成
- hand-authored — 人工编写
偏好对创建方法
- 将基准测试批准的输出作为
chosen(优选) - 生成一个可控的较差变体作为
rejected(拒选)
- 对于邮件任务:引入更差的主题前缀、删除不确定性标记或使用被禁止的销售措辞
- 对于结构化任务:将字段翻转至更差的资格判断或渠道决策
数据预处理与标注
- 将基准测试行标准化为一致的偏好训练模式
- 将提示转换为训练友好的纯字符串格式
- 保留
chosen和rejected的渲染形式与结构化形式 - 导出
sft_text用于可选的有监督微调冷启动 - 保留
source_mode和任务元数据以追溯来源
污染检测
仓库中包含相应的污染报告,通过8-gram过滤器(考虑模板)和本地嵌入代理,检查保留集与训练集和开发集的重叠情况。
推荐用途
- 训练小型偏好模型或评判模型
- 运行ORPO、DPO或SimPO风格的实验
- 回归测试销售领域的安全性和基于事实的行为
不推荐用途
- 将其视为广泛的指令遵循基准
- 直接针对密封的保留集进行调优
- 将该数据集解释为真实转化性能的衡量标准
维护优先级
- 保持基准测试与偏好导出数量与基准事实源一致
- 完成仓库工单中理想的24小时评估者重现运行
- 在密封评估协议冻结后,发布更完整的面向基准测试的Hugging Face工件
关键聚焦维度
偏好对重点关注以下业务行为:
- 基于事实的语言使用
- 弱信心处理
- 避免过度承诺
- 定价交接安全性
- 资格判断正确性
- 渠道路由行为
搜集汇总
数据集介绍

构建方式
Tenacious Bench Path B Preference 数据集聚焦于 B2B 外呼业务场景下的行为建模,旨在衡量智能助手在不确定性环境中的落地表现。该数据集基于 Tenacious-Bench 基准构建,从 trace-derived、programmatic、multi-llm-synthesis 和 hand-authored 四种来源模式中抽取任务,通过将基准认可的输出作为 chosen,并生成引入特定缺陷的变体作为 rejected 来构建偏好对。对于邮件类任务,rejected 变体包含更差的主题前缀、缺失不确定性标记或违规销售用语;对于结构化任务,则翻转字段以呈现较差的资格判定或渠道决策。所有数据经过归一化处理,形成一致的偏好训练模式。
特点
该数据集包含 225 条偏好对,划分为训练集(62 条)、开发集(113 条)和保留集(50 条元数据),其中保留集仅以密封元数据形式呈现,确保最终评估的不可穿透性。每条记录涵盖 task_id、dimenson、prompt、chosen、rejected 等丰富字段,并额外提供结构化、ChatML 格式及 SFT 文本等多种表示形式,便于多样化训练需求。数据集精心聚焦于接地语言、弱信心处理、过度声称回避、定价交接安全、资格判定正确性和渠道路由行为等关键维度,精准刻画销售领域智能体在不确定性下的核心失败模式。
使用方法
该数据集适用于小规模偏好模型或评判模型的训练,可支持 ORPO、DPO 或 SimPO 等偏好优化方法的实验,也可用于回归测试销售领域的安全性和接地行为。建议利用 sft_text 字段进行可选的预热监督微调,以提升初始性能。开发集提供 113 条偏好对用于模型验证,而保留集作为密封评估层,仅用于最终测试。不推荐将该数据集视为通用指令遵循基准,或直接针对密封保留分区进行调参,亦不应将其解读为真实世界转化性能的度量标准。
背景与挑战
背景概述
在商业对商业(B2B)外呼销售领域,通用助手基准测试往往无法精准衡量现实业务场景中的关键失败模式。Tenacious Bench Path B Preference数据集由SignalForge团队于近期创建,聚焦于Tenacious风格的B2B外呼工作,旨在评估模型在不确定性下的务实商业行为。该数据集核心研究问题在于如何通过偏好学习提升模型在接地语言、弱自信处理、过度主张规避、定价交接安全、资格确认正确性及渠道路由行为等方面的表现。其公共版本包含了62条训练样本和113条开发样本,并设计了密封的保留集以确保评估的公正性,为偏好训练和领域安全验证提供了宝贵资源。
当前挑战
该数据集面临的挑战主要分为两个方面。在领域问题层面,通用基准测试难以有效检测B2B外呼场景中的特定失败模式,例如模型在不确定情境下容易过度承诺或使用不当销售话术,这些问题直接关系到实际业务转化率与客户关系管理,传统基准无法覆盖。在构建过程中,团队需从跟踪推导、程序生成、多语言模型合成及手工撰写等四种来源模式中整合任务,并精心构造偏好对,确保被拒绝变体在邮件任务中引入有问题的主题前缀或移除不确定性标记,在结构化任务中翻转字段以模拟更差的资格判断或渠道决策,这一过程对数据质量、领域专业知识及标注一致性提出了极高要求。
常用场景
经典使用场景
该数据集最经典的使用场景在于训练面向B2B外呼业务场景下的小型偏好模型或批评模型。它专门针对销售领域中语言表达是否基于事实、能否妥善处理不确定性、避免过度承诺、定价交接安全性、资格判定正确性以及渠道路由行为等核心维度构建偏好对,从而为研究人员提供一个高度聚焦、领域特定的人机交互行为调优工具。与通用对话质量评测不同,此数据集致力于在不确定性的商业环境中塑造稳健且合规的模型行为。
解决学术问题
该数据集有效填补了现有通用助手评测基准在专业B2B销售场景中测量失效模式的空白。它解决了如何量化与纠正大型语言模型在业务对话中表现出的过度自信、虚报信息、定价流程错误以及资格误判等学术难题。推动研究者关注语言模型在结构化任务中的安全性、可控性,而非仅仅是对话流畅度,促使学术界从面向消费者的通用模型评估向面向企业的风险敏感型行为评估范式转变,具有重要的方法论意义。
衍生相关工作
该数据集衍生了诸多相关经典工作,如基于ORPO、DPO、SimPO等偏好对齐算法的实验研究,为验证这些算法在商业模式下的偏好学习效果提供了标准化测试基准。同时,它还催生了对销售领域安全性与接地性行为的回归测试方法论,推动了诸如污染报告分析、跨训练集保留集重叠检测等模型保密评测工具的开发,为后续在关键业务领域中构建可信、可审计的语言模型奠定了基础。
以上内容由遇见数据集搜集并总结生成



