project-themis/Themis-GeneralPreference
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/project-themis/Themis-GeneralPreference
下载链接
链接失效反馈官方服务:
资源简介:
Themis-GeneralPreference是一个包含11万多个样本的数据集,混合了自然语言和代码偏好,这些偏好来自现有的流行偏好和检索数据集。它作为Themis-RM套件中偏好模型预训练(PT)阶段的训练数据集,旨在在代码专门化偏好建模阶段之前,灌输常见的人类启发的偏好评估概念,如相关性、帮助性和无害性。该数据集包括来自CodeR-Pile、Skywork-Preference、Tulu-IF、H4-Stackexchange、Arena-HumanPreference、Prometheus-Preference、HelpSteer3、Argilla-DPO和Truthy-DPO等子数据集的数据。数据集经过严格的过滤和去污过程,包括最大令牌长度、代码语法过滤、语言过滤、困惑度过滤、近去重和基准去污。训练使用Bradley-Terry目标,带有辅助条件语言建模损失和奖励幅度正则化。数据集发布在Apache 2.0许可证下。
Themis-GeneralPreference is a 110k+ sample mix of natural language and code preferences curated from popular existing preference and retrieval datasets. It serves as the training dataset for the preference model pre-training (PT) stage of the Themis-RM suite, designed to instill common human-inspired notions of preference evaluation such as relevance, helpfulness, and harmlessness before the code-specialized preference modeling stage. The dataset includes data from sub-datasets like CodeR-Pile, Skywork-Preference, Tulu-IF, H4-Stackexchange, Arena-HumanPreference, Prometheus-Preference, HelpSteer3, Argilla-DPO, and Truthy-DPO. The dataset undergoes thorough cleaning and decontamination, including max token length, code syntax filtering, language filtering, perplexity filtering, near-deduplication, and benchmark decontamination. Training uses the Bradley-Terry objective with auxiliary conditional language modeling loss and reward magnitude regularization. The dataset is released under the Apache 2.0 License.
提供机构:
project-themis
搜集汇总
数据集介绍

构建方式
Themis-GeneralPreference数据集构建于对现有自然语言与代码偏好数据集的系统性整合与精炼之上。其数据源涵盖CodeR-Pile、Skywork-Preference等九个高质量子集,分别针对代码检索、指令遵循、技术论坛问答等场景的偏好对进行筛选。在构建流程中,研究团队实施了严密的过滤流水线,包括基于2,560词元的最大长度截断、代码语法树的深度检测、非英语提示的GlotLID分类器剔除、KenLM模型驱动的困惑度过滤(阈值1,200)、MinHash近似去重(相似度0.75),以及针对多个基准测试集的13-gram重叠去污染步骤,最终形成逾11万条高质量偏好样本。
特点
该数据集最显著的特点在于其跨领域与多准则的偏好标注体系。样本覆盖JavaScript、Python、Ruby等八种编程语言及自然语言,并围绕可读性与可维护性、运行时效率、安全性、功能正确性、内存效率、有益性及无害性七个核心维度进行偏好标注。这种设计使模型在预训练阶段便能习得通用的人类偏好评估直觉,为后续代码专用偏好建模奠定基础。此外,数据集还收录了来自CodeR-Pile的硬负样本、Argilla-DPO中基于语义等价性的风格偏好对等创新性构建策略,有效提升了偏好信号的区分度与鲁棒性。
使用方法
Themis-GeneralPreference专为Themis-RM奖励模型的预训练阶段设计,作为两阶段训练流程的首环节。使用时推荐采用随机系统提示策略:15%的样本不使用系统提示,60%采用方面特定提示(包含有益性、无害性与目标准则),25%则赋予完整的多准则提示(涵盖全部五个代码准则)。训练过程基于Bradley-Terry目标函数,辅以条件语言建模损失与奖励幅度正则化,在2,560序列长度、1,024全局批次大小的配置下,使用AdamW优化器及余弦学习率调度器进行两轮迭代。用户可通过HuggingFace datasets库直接加载该数据集,获取包含system、input、chosen、rejected及语言、方面等字段的样本数据。
背景与挑战
背景概述
在大型语言模型(LLM)的对齐优化进程中,奖励模型作为人类偏好与模型行为之间的关键桥梁,其质量直接决定了强化学习微调的上限。然而,现有奖励模型多聚焦于单一领域或语言,缺乏对多语言、多准则代码偏好建模的系统性支撑。Themis-GeneralPreference数据集由Project Themis团队于2025年发布,核心研究人员来自达姆施塔特工业大学等机构。该数据集融合了来自9个高质量子数据集的11万+自然语言与代码偏好对,旨在为Themis-RM奖励模型提供预训练阶段的通用偏好基础。通过引入代码可读性、运行效率、安全性等细粒度准则,该数据集突破了传统奖励模型仅关注有用性、无害性的局限,为多准则、多语言代码奖励模型的发展奠定了坚实的数据基础。
当前挑战
该数据集所应对的核心领域挑战在于:现有奖励模型在代码场景下缺乏对多维质量准则(如功能正确性、内存效率、安全硬度)的细粒度建模能力,且多语言代码数据中偏好标注的噪声与不一致性严重制约了模型泛化性能。在数据集构建过程中,团队面临三重挑战:其一,来自不同来源的子数据集具有异质的标注准则与质量标准,需设计统一的清洗流水线(包括语言过滤、困惑度筛查、语法深度过滤等步骤)以消除噪声;其二,代码偏好数据中“正向文档”与“硬负样本”的合理选取需借助Zipf采样与检索相关性差异来保证偏好判据的有效性;其三,为避免基准测试污染,团队采用了13-gram重叠检测与MinHash近去重机制,确保训练数据与评估集的隔离完整。
常用场景
经典使用场景
Themis-GeneralPreference数据集的核心经典用途在于为奖励模型(Reward Model)的预训练阶段提供多样化的偏好数据,旨在赋予模型初步的通用人类偏好评估能力。该数据集涵盖了自然语言与代码两类文本的偏好对,涉及帮助性(Helpfulness)、无害性(Harmlessness)及代码可读性、运行效率、安全性、功能正确性、内存效率等多个评价维度。通过整合来自Skywork、Tulu、Arena等知名偏好数据集的逾11万条样本,该数据集成为构建多维度、多语言奖励模型的基石,广泛应用于需要从多个角度区分响应优劣的偏好学习任务中。
实际应用
在实际应用中,Themis-GeneralPreference数据集主要用于训练和优化大规模语言模型的奖励与偏好模块,进而提升模型在多种下游场景中的表现。例如,在代码生成领域,基于该数据集训练的奖励模型能够辅助代码质量评估工具,从可读性、效率与安全等多个维度自动筛选更优的代码片段;在对话系统中,它有助于增强模型对有用且无害回复的识别能力,从而改善智能助手的交互质量。此外,该数据集也可直接用于强化学习人类反馈(RLHF)流水线,为模型对齐提供高质量的偏好信号。
衍生相关工作
Themis-GeneralPreference数据集的衍生相关工作主要围绕奖励模型的范式和评价体系展开。基于该数据集,研究者开发了Themis-RM系列模型,这些模型在预训练阶段后通过Themis-CodePreference数据集进一步领域特化,形成了用于多准则代码评分的完整框架。此外,该数据集也催生了对偏好融合策略的探索,如针对自然语言与代码偏好的一致性与冲突性分析,以及对不同评价维度(如帮助性与安全性)间的权衡研究。这些工作不仅拓展了多领域偏好学习的方法论,也为构建更具鲁棒性和解释性的奖励模型提供了数据驱动的参考依据。
以上内容由遇见数据集搜集并总结生成



