five

OmniBehavior

收藏
arXiv2026-04-09 更新2026-04-11 收录
下载链接:
https://OmniBehavior.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
OmniBehavior是由快手科技与中国科学院合作构建的首个基于真实用户行为数据的综合性基准测试集,旨在评估大型语言模型在长周期、跨场景和异质行为轨迹上的模拟能力。该数据集包含200名用户在三个月内的完整交互轨迹,覆盖视频浏览、直播、广告、电商和搜索五大场景,平均每条序列包含8,143个动作,总计22种异构行为类型。数据通过严格的匿名化、噪声过滤和聚类采样流程处理,保留了真实用户决策中的跨场景因果链和长尾分布特征,为社交科学、推荐系统和行为经济学等领域提供了高保真的研究基础。

OmniBehavior is the first comprehensive benchmark dataset constructed on real user behavioral data, developed through collaboration between Kuaishou Technology and the Chinese Academy of Sciences. It is designed to evaluate the simulation capabilities of large language models (LLMs) on long-period, cross-scenario, and heterogeneous behavioral trajectories. This dataset contains complete interaction trajectories of 200 users over a three-month span, covering five core scenarios: video browsing, live streaming, advertising, e-commerce, and search. Each sequence includes an average of 8,143 actions, with a total of 22 heterogeneous behavior types. The data has been processed via strict anonymization, noise filtering, and cluster sampling workflows, retaining the cross-scenario causal chains and long-tail distribution characteristics inherent in real user decision-making. It provides a high-fidelity research foundation for disciplines including social science, recommendation systems, and behavioral economics.
提供机构:
中国科学院·软件研究所中文信息处理实验室; 中国科学院大学; 快手科技
创建时间:
2026-04-09
原始信息汇总

OmniBehavior 数据集概述

数据集基本信息

  • 数据集名称: OmniBehavior
  • 核心定位: 首个完全基于真实世界数据构建的用户模拟基准,旨在评估基于大语言模型(LLM)的用户模拟器。
  • 核心目标: 同时捕捉长周期、跨场景、异构的行为模式,以弥补现有基准在评估LLM能力方面的系统性不足。
  • 数据来源: 快手平台。
  • 数据时间跨度: 三个月。
  • 覆盖场景: 5个多样化场景(包括视频、直播、广告、电商及电商场景内的客服对话)。

数据集构建与特点

  • 构建阶段
    1. 数据收集: 从快手平台聚合五个主要场景的真实世界日志。
    2. 数据处理: 进行多模态融合、两级清洗、代表性采样和匿名化。
    3. 基准构建: 生成的数据集捕获长周期、跨场景的行为轨迹,为在真实工业环境中评估LLM用户模拟器提供高保真测试平台。
  • 核心特点
    • 长周期与跨场景: 包含用户在多个场景下的完整交互轨迹,强调决策源于长期、跨场景的积累。
    • 异构行为: 涵盖二元行为(如点击)、连续行为(如时长)和文本行为(如对话)。
    • 真实世界基础: 完全基于真实用户交互数据,旨在反映人类行为的整体性和互联性。

基准评估与实验结果

  • 评估框架: 要求智能体基于特定场景上下文预测多样化行为,作为高保真用户模拟的综合测试平台。
  • 评估模型: 涵盖闭源和开源的最先进大语言模型,包括Claude系列、GPT系列、Gemini、GLM、DeepSeek、Kimi、Qwen等。
  • 关键性能结果
    • 表现最佳的LLM(Claude-4.5-Opus)总体得分仅为44.55。
    • 大多数模型在二元行为预测上的F1分数未超过40%。
    • 实验结果表明,当前LLM难以准确模拟复杂、长周期的用户行为轨迹。

研究发现:LLM模拟器的结构性偏差

研究揭示了当前LLM模拟器存在根本性的“积极与平均”表征的结构性偏差,具体表现为:

  • 乌托邦倾向
    • 情感表达: LLM生成的语句情感集中于中性和积极,而真实用户在电商场景中频繁表达强烈的负面情绪。
    • 语言风格: LLM生成的语句表现出更高的礼貌标记、模糊语和保全面子策略,语言过于礼貌且非对抗性,无法捕捉真实世界表达的多样性和强度。
  • 人格同质化: LLM生成的用户其内部差异与用户间差异分布高度重叠,难以在长周期交互中保持 distinct 的用户身份,导致行为多样性降低。
  • 过度活跃偏差: 所有被评估的LLM模拟器均表现出过度活跃偏差,其预测的积极互动率远高于真实用户(真实用户低于10%,而某些模型高估了40–60%),无法捕捉隐性的拒绝行为。
搜集汇总
数据集介绍
main_image_url
构建方式
在用户行为模拟领域,现有基准多局限于单一场景或合成数据,难以捕捉真实人类行为的全景特征。OmniBehavior的构建基于快手平台2025年9月至11月的真实用户日志,覆盖视频浏览、直播、广告、电商和搜索五大场景,共22种异构行为。通过多阶段流水线处理,包括行为级与文本级双重清洗、基于聚类的代表性用户采样以及严格匿名化,最终整合了200名用户连续三个月的完整交互轨迹,平均序列长度达8,143个动作,形成了首个完全基于真实数据的长视野、跨场景、异构行为模拟基准。
特点
OmniBehavior的核心特征体现在其真实性与复杂性上。数据集完全源自快手平台的真实用户交互日志,摒弃了合成数据的偏差,确保了行为模式的生态效度。它突破了传统基准的孤立场景限制,将跨场景依赖与长视野因果链纳入统一框架,例如用户决策常跨越数日并涉及多个场景,超过80%的转化路径具有跨场景特性。此外,数据集涵盖了从被动浏览到主动交互的异构行为,并保留了用户兴趣的动态演化与长尾分布,为评估大语言模型在复杂真实环境中的模拟能力提供了高保真测试平台。
使用方法
OmniBehavior主要用于评估大语言模型作为用户模拟器的性能。研究团队定义了一个用户条件预测任务:给定用户画像、历史行为序列及特定场景上下文,要求模型预测用户在该场景下的所有可能行为,包括二元互动(如点赞)、连续行为(如观看时长)及文本反馈(如客服对话)。评估涵盖6,000个预测任务,采用F1分数、归一化平均绝对误差及基于大语言模型的评判指标进行多维度度量。该基准揭示了现有模型在模拟长视野跨场景行为时的显著局限,并系统性地暴露了模型的结构性偏差,如过度活跃、人格同质化与乌托邦倾向,为未来高保真模拟研究指明了关键方向。
背景与挑战
背景概述
OmniBehavior数据集由中国科学院软件研究所中文信息处理实验室与快手技术团队于2026年联合构建,旨在为大型语言模型(LLMs)在用户行为仿真领域提供首个完全基于真实世界数据的基准测试。该数据集聚焦于模拟用户在数字平台中的长时程、跨场景、异构行为轨迹,核心研究问题在于如何准确捕捉真实人类决策中的复杂因果链与个性化模式,从而推动交互式人工智能、推荐系统及行为经济学等领域的高保真仿真研究。其基于快手平台超过4亿日活用户的三个月交互日志,涵盖视频浏览、直播、广告、电商及搜索五大场景中的22种行为,为评估LLMs在真实工业环境中的行为建模能力确立了严谨标准。
当前挑战
OmniBehavior所针对的核心领域挑战在于突破传统用户仿真基准的局限,这些基准往往局限于单一场景、狭窄动作空间或合成数据,无法捕捉真实人类行为中跨场景的长期因果依赖与异构模式。构建过程中的主要挑战包括:从大规模工业日志中聚合长时程用户轨迹时,需处理超高维度序列(平均超8000步)并保持时序完整性;进行多层次数据清洗以消除噪声,如异常交互与文本语义错误;实施严格匿名化以符合伦理规范,同时保留行为语义;以及通过聚类采样确保200名代表性用户的多样性覆盖。这些挑战共同凸显了在真实数据基础上构建高保真行为仿真基准的复杂性与必要性。
常用场景
经典使用场景
在用户行为模拟与智能交互系统研究领域,OmniBehavior数据集被广泛用于评估大型语言模型在真实世界场景下的行为预测能力。该数据集通过整合快手平台长达三个月的用户交互日志,构建了覆盖视频浏览、直播、广告、电商及搜索五大场景的异构行为序列,为研究者提供了模拟长时域、跨场景用户决策过程的标准化测试平台。经典应用场景包括用户行为轨迹预测、个性化偏好建模以及多模态交互仿真,尤其在评估模型对复杂因果链的推理能力方面展现出独特价值。
实际应用
在工业实践中,OmniBehavior为个性化推荐系统、智能客服对话生成及广告投放策略优化提供了关键验证环境。基于该数据集的用户模拟器能够预测用户在电商场景中的购买意向、在直播间的互动行为以及在视频流中的停留时长,助力平台实现精准触达与资源分配。例如,通过分析用户从技术视频观看、商品搜索到最终购买的跨场景因果链,企业可优化营销漏斗设计。该数据集还揭示了当前LLM模拟器普遍存在的“积极平均化”偏差,警示了在社交科学建模中直接应用AI可能产生的系统性失真风险。
衍生相关工作
OmniBehavior的发布催生了一系列针对长时域行为建模的延伸研究。在基准构建方面,其多场景融合方法论启发了如SimBench等通用仿真评估框架的演进;在模型优化层面,针对数据集揭示的“超活跃度偏差”与“人格同质化”问题,研究者提出了基于对抗训练的长尾行为增强技术。相关工作还包括结合记忆管理机制(如RAG与摘要压缩)的序列建模改进,以及探索因果感知的检索架构以提升跨场景推理能力。这些衍生工作共同推动了高保真用户模拟向更细粒度、更具解释性的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作