Xuhui/sim-posttrain

Name: Xuhui/sim-posttrain
Creator: Xuhui
Published: 2026-04-30 11:57:34
License: 暂无描述

Hugging Face2026-04-30 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/Xuhui/sim-posttrain

下载链接

链接失效反馈

官方服务：

资源简介：

HUMANUAL后训练数据是一个用于用户模拟任务的数据集，包含多种配置，涵盖了新闻、政治、观点、书评、聊天和电子邮件回复等多个领域。数据集还包括专门的评估集，如UserLM评估、错误评估、Social-R1评估、SocSci210和HumanLLM项目选择，每个评估集都有特定的用例和评估标准。数据集的结构详细，每个配置的字段和用途都有明确说明。该数据集旨在用于Harmony中的RL后训练和评估，并提供了如何为不同任务计算奖励的具体指导。

The HUMANUAL Posttraining Data dataset is designed for user simulation tasks, featuring multiple configurations across various domains such as news, politics, opinion, book reviews, chat, and email responses. It also includes specialized evaluation sets like UserLM Eval, Mistakes Eval, Social-R1 Eval, SocSci210, and HumanLLM Item Selection, each with specific use cases and evaluation metrics. The datasets schema is detailed, with clear explanations of each fields structure and purpose. It is intended for use in RL posttraining and evaluation within Harmony, providing specific instructions on reward computation for different tasks.

提供机构：

Xuhui

搜集汇总

数据集介绍

构建方式

在用户模拟与后训练（posttraining）的研究范式下，sim-posttrain数据集的构建旨在为强化学习提供高质量的模拟用户交互数据。该数据集源自斯坦福大学提出的HUMANUAL基准，其构建过程遵循系统化的数据衍生策略：核心部分从HUMANUAL的训练集拆分中提取，覆盖新闻评论、政治讨论、观点争鸣、书籍评价、日常闲聊及邮件回复六大真实社交场景，共计约19.5万条样本。同时，数据集整合了多个专业评估子集，例如从PRISM、NaturalQuestions及CommonsenseQA等公开资源中提炼的UserLM Eval数据，以及从Eedi数学误解竞赛和Social-R1社会推理任务中转换的评测样本。此外，超过240万条的社会科学实验数据（SocSci210）也被纳入，使得数据集在规模与多样性上形成了有机统一。

使用方法

sim-posttrain数据集的使用方法与强化学习后训练管线高度契合，其数据格式与Jerry999/user-sim-eval评估数据集完全一致，故可直接接入Harmony智能体循环进行奖励计算。以humanllm-item-selection配置为例，模型需从20个候选项中精确选择用户实际购买的物品，奖励值为1当且仅当模型输出与标准答案索引完全匹配，且解析器接受逐字候选文本、字母标签及候选编号三种严格格式。对于社会推理任务（social_r1），系统则通过多人对话封装结构进行单轮评估。而socsci210配置更为复杂，既支持逐样本准确率计算，也允许按研究条件分组计算Wasserstein距离来对比模型与人类的响应分布。研究者在加载时需根据任务选择对应config名称，例如使用'humanllm-item-selection'或'socsci210'，并利用其内置的train/test拆分进行模型训练与泛化能力验证。

背景与挑战

背景概述

在用户模拟（User Simulation）与后训练（Posttraining）这一前沿领域，精准复现人类在多样化场景下的语言行为是提升大语言模型交互能力的关键。由斯坦福大学研究团队主导创建的sim-posttrain数据集于近期发布，其核心源自HUMANUAL基准测试，旨在为强化学习后训练提供结构化的人类行为模拟数据。该数据集融合了新闻评论、政治讨论、书籍评价等六大类日常对话文本，共计逾19.5万条样本，并整合了来自PRISM、NaturalQuestions等权威资源的多维度评估数据，构建了涵盖意图分解、角色遵循与社交推理等复杂维度的评测体系。其独特的跨源异构数据架构与精细化的多轮对话标注，为模拟真实用户交互行为提供了前所未有的数据基础，对推动人机协同智能化进程具有深远影响。

当前挑战

该数据集面临的挑战多维且深刻。在领域问题层面，它致力于解决大语言模型在开放域人机交互中普遍存在的用户行为建模不精准问题，特别是如何令模型准确识别并复现用户在不同社交情境下的意图切换与角色保持能力，这涉及对长尾分布与隐式意图的深度理解。在构建过程中，挑战则集中于多源异构数据的标准化融合：需将来自不同平台（如Reddit、邮件、学术问卷）且格式迥异的对话记录，统一转化为包含persona描述与turn_id的规范结构，同时确保跨文化、跨任务场景下标签语义的一致性。此外，针对HumanLLM中的20选1物品选择任务，设计精确无歧义的奖励信号以防止模糊匹配造成的伪反馈，亦是维持强化学习训练纯净性的关键难点。

常用场景

经典使用场景

在对话系统与人机交互的研究疆域中，sim-posttrain数据集作为用户模拟领域的标杆性资源，其经典使用场景聚焦于强化学习后训练阶段对对话智能体的微调与评估。研究者可借助该数据集涵盖的新闻评论、政治讨论、书籍反馈、电子邮件回复等多样化的社交对话场景，构建能够精确模拟真实人类行为轨迹的语言模型。尤为重要的是，该数据集的提议机制与补全结构天然适配于强化学习框架，使得基于人类偏好对齐的对话策略优化成为可能，从而显著提升模型在开放域多轮交互中的角色一致性、意图遵循度与行为可信度。

解决学术问题

该数据集精准回应了自然语言处理领域中长期悬而未决的核心学术挑战：如何系统性地衡量与提升语言模型在模拟人类用户时的行为保真度。通过整合PRISM对齐评估、常识推理测试、自然问答遵循度检测以及数学误解识别等多维评价指标，sim-posttrain为研究者提供了从意图分解、角色坚守到分布级响应一致性验证的完整评估体系。其在社会科学实验数据（SocSci210）上的延伸应用，更开创性地将行为预测准确性与Wasserstein距离等统计度量引入对话系统评估，从而架起了计算语言学与行为科学之间的方法论桥梁。

实际应用

从应用落地视角审视，sim-posttrain数据集为各类商业级智能助手与社交机器人的研发提供了不可多得的仿真测试环境。电商客服机器人可借助其中的物品选择子集（HumanLLM Item Selection）训练理解用户偏好与历史行为的能力；教育辅导系统则能利用数学误解数据（Mistakes）精准诊断学习者的认知盲区；而社交平台的内容审核机制亦可依托评论模拟数据预判用户可能做出的不当回应。这些实践场景的共同底色在于，数据所蕴含的人格化特征与上下文依赖性，使得模拟出的用户行为高度趋近于真实交互中的认知光谱。

数据集最近研究