OmniBehavior
收藏OmniBehavior 数据集概述
数据集简介
OmniBehavior 是一个旨在模拟真实世界人类行为的数据集,专注于对大型语言模型在长周期、跨场景、异构行为轨迹上的基准测试。
关键时间节点
- 预计发布日期:完整数据集和评估代码预计于 2026年5月 左右,在完成正式数据审计后发布。
- 论文发布:相关研究论文已于 2026年4月10日 发布。
数据场景覆盖
数据集捕捉了用户在快手平台多个交互场景中的真实行为,具体包括:
- 视频浏览:与浏览和观看短视频相关的行为。
- 直播:在直播房间内的互动(如观看时长、评论、点赞、送礼)。
- 电子商务:购物活动,如浏览商品、管理购物车和购买。
- 广告:用户与推荐广告的互动(浏览、点击、转化)。
- 客户服务:与电子商务客服代理的聊天记录和互动。
- 搜索行为:应用内的所有搜索活动,包括但不限于视频和商城查询。
演示数据说明
data/demo.json 文件提供了本项目使用的数据格式示例。
- 数据性质:该文件包含单个用户的部分数据子集,仅用于演示和测试目的。
- 完整数据:完整数据集将在正式数据审计后公开提供。
演示数据亮点
演示数据集展示了一个快手用户的案例研究,具有以下特点:
- 长期观察:数据时间跨度达 90天(从
2025-09-01到2025-11-30),为观察用户兴趣演变和习惯模式提供了充足的时间线。 - 真实互动:数据集包含大量真实行为,记录了用户互动的一致且详细的轨迹。
- 全面场景覆盖:其模式支持捕捉主流短视频平台场景中的行为。
案例研究价值
尽管 demo.json 仅展示单个用户,但其深度使其成为有价值的研究资源:
- 长期兴趣建模:3个月的时间跨度允许具体追踪兴趣随时间的转移和稳定性。
- 跨领域行为分析:通过覆盖多样化场景,支持研究一个领域(如观看主播)的行为如何与另一个领域(如购买商品或点击广告)的行动相关联。
- 用户行为模拟:这种详细的轨迹为构建用户模拟器提供了真实依据,可用于评估智能体在复杂环境中模拟真实、长期人类行为模式的能力。
数据结构
数据按用户ID组织。每个用户条目包含一个文本描述的用户档案和一个按时间顺序排列的行为历史记录。 基本结构如下所示: json { "user_ID": { "user_profile": "用户描述(如人口统计特征、教育背景等)...", "action_history": [ { "type": "场景类型", "timestamp": "YYYY-MM-DD HH:MM:SS", "context": { "field_name": "value", ... }, "action": [ { "type": "specific_behavior", "attribute": "value" } ... ] }, ... ] } }
使用许可
该数据集严格禁止用于商业用途,仅用于学术研究目的。
引用
若您的研究认为本工作有用,请考虑引用我们的论文: bibtex @misc{chen2026omnibehavior, title={Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces}, author={Jiawei Chen and Ruoxi Xu and Boxi Cao and Ruotong Pan and Yunfei Zhang and Yifei Hu and Yong Du and Tingting Gao and Yaojie Lu and Yingfei Sun and Xianpei Han and Le Sun and Xiangyu Wu and Hongyu Lin}, year={2026}, eprint={2604.XXXXX}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.XXXXX}, }




