five

长期短期意图预测数据集

收藏
arXiv2025-04-10 更新2025-04-15 收录
下载链接:
http://arxiv.org/abs/2504.07597v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“长期短期意图预测数据集”,由北京通用人工智能研究院构建,旨在支持长期短期意图预测任务。数据集通过大型语言模型生成的数据与虚拟仿真记录的数据相结合,支持模型训练和测试,为解决所提出的意图预测任务提供了基础数据。数据集记录了人类长期行为模式,关注个体行为模式而非社区中的普遍模式,对于理解人类意图和提供合理的辅助服务具有重要意义。

This dataset is named "Long-Short Term Intent Prediction Dataset" and constructed by the Beijing General Artificial Intelligence Research Institute. It is designed to support long-short term intent prediction tasks, combining data generated by large language models (LLMs) and data collected through virtual simulations to enable model training and testing, thus providing foundational data for addressing the proposed intent prediction task. The dataset captures human long-term behavioral patterns, focusing on individual behavioral patterns rather than universal community-wide patterns, which is of great significance for understanding human intent and delivering appropriate auxiliary services.
提供机构:
北京通用人工智能研究院
创建时间:
2025-04-10
搜集汇总
数据集介绍
main_image_url
构建方式
长期短期意图预测数据集的构建采用了两种互补的方法:基于大型语言模型(LLM)的数据合成和虚拟仿真环境下的真实人类行为记录。研究团队首先利用ChatGPT生成模拟人类行为数据,通过设定不同人格特征和行为约束条件,确保数据的多样性和逻辑连贯性。同时,开发了基于Unity3D的虚拟公寓系统,包含6个房间和206个可交互对象,邀请参与者以第一人称视角模拟日常生活行为,并记录动作、意图、时间戳及环境状态变化。两种数据源均采用标准化JSON格式存储,并通过自动化校验机制确保数据质量,最终形成包含19种人格特征的异构行为数据集。
特点
该数据集的核心特征体现在其多层次意图标注体系和长周期行为轨迹记录。不同于传统动作识别数据集,它同时标注了反映即时行为的短期意图(如‘煮咖啡’)和体现价值观的长期意图(如‘保持健康作息’),并建立了二者的一致性检测标签。数据集覆盖连续两周以上的个体行为记录,包含26类动作、206种可交互对象状态以及时空上下文信息,能够捕捉人类行为中‘短期决策与长期目标冲突’的关键场景。此外,通过融合LLM生成数据与真实人类行为数据,既保证了数据规模,又保留了人类行为的自然随机性。
使用方法
使用该数据集时需采用分层建模框架:首先通过Transformer网络对序列化行为特征(动作、时长、对象状态等)进行编码;随后分别训练短期意图预测模块(L2层)和长期意图推理模块(L3层),其中L3层需结合时间注意力机制分析跨天行为模式;最终通过余弦相似度计算短期意图与长期意图列表的匹配度,实现冲突检测。实验表明,最佳实践是先用70%的合成数据预训练模型获取通用行为知识,再用个体专属数据微调以实现个性化适配。数据使用时需注意保持动作符号体系与环境状态编码的一致性,且建议采用top-5准确率评估意图预测性能。
背景与挑战
背景概述
长期短期意图预测数据集由北京通用人工智能研究院(BIGAI)等机构的研究团队于2025年提出,旨在解决家庭服务机器人领域的关键认知难题。该数据集聚焦人类行为中价值导向的长期意图与动作驱动的短期意图的复杂关联,通过结合语言模型生成数据与虚拟环境采集数据,构建了包含19种人格特征、206种可交互对象的连续行为记录。其创新性体现在首次系统性地建模了人类意图的时序分层特性,为机器人理解人类行为模式提供了数据基础,推动了人机共生范式下价值对齐问题的研究进展。
当前挑战
该数据集面临三重核心挑战:在领域问题层面,需解决短期动作意图与长期价值意图的非一致性检测难题,这对传统单一时序预测方法提出新要求;在数据构建过程中,长期行为观测的数据稀疏性问题突出,单个受试者需持续两周以上的密集数据采集;此外,多模态异构数据(动作序列、环境状态、时空特征)的融合表示与意图编码的语义鸿沟,增加了模型设计的复杂度。虚拟仿真数据与真实行为数据间的分布差异,进一步加剧了模型泛化难度。
常用场景
经典使用场景
长期短期意图预测数据集在智能家居机器人领域具有重要应用价值,主要用于训练机器人理解和预测人类行为的长期和短期意图。通过分析人类日常行为模式,该数据集帮助机器人识别短期行为是否与长期价值观一致,从而提供更合理的服务。例如,当人类因专注于烹饪而忘记重要约会时,机器人能及时提醒,确保行为与长期目标一致。
衍生相关工作
围绕该数据集衍生的经典工作包括基于Transformer的多智能体意图预测框架和冲突检测机制。相关研究进一步探索了大型语言模型与长期意图建模的结合,如利用ChatGPT生成模拟行为数据。此外,部分工作扩展了数据集在任务规划领域的应用,提出了分层规划方法以协调短期行动与长期目标。
数据集最近研究
最新研究方向
在自主家庭机器人领域,长期短期意图预测数据集的研究正聚焦于如何让机器人更精准地理解人类行为的复杂意图。前沿探索包括结合大语言模型(LLMs)的数据合成技术与虚拟仿真环境,以构建更全面的行为模式库。热点方向涉及多模态感知与认知架构的融合,如将Transformer模型应用于意图分层预测(L1动作层、L2短期意图层、L3长期价值层),并引入冲突检测机制以识别短期行为与长期价值观的偏差。该数据集的意义在于突破了传统意图预测的瞬时性局限,为机器人提供人类行为的长周期模式分析能力,推动人机协作向价值对齐的智能化阶段发展。
相关研究论文
  • 1
    Learning Long Short-Term Intention within Human Daily Behaviors北京通用人工智能研究院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作