five

PLAICraft

收藏
arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://blog.plaicraft.ai/2025/05/11/download-user-data/
下载链接
链接失效反馈
官方服务:
资源简介:
PLAICraft是一个大规模的时间对齐的多模态数据集,旨在支持具身人工智能的研究。该数据集捕捉了多人Minecraft互动中的视频、游戏输出音频、麦克风输入音频、鼠标和键盘动作等五种时间对齐模态。数据集由超过10,000名全球参与者提供,总时长超过10,000小时。PLAICraft通过毫秒级时间精度记录每个模态,使得同步的具身行为研究成为可能。数据集还包括一个评估套件,用于基准测试模型在物体识别、空间感知、语言接地和长期记忆方面的能力。PLAICraft为训练和评估在实时中流畅、有目的地行动的智能体开辟了道路,为真正具身的人工智能铺平了道路。

PLAICraft is a large-scale temporally aligned multimodal dataset designed to support embodied artificial intelligence research. This dataset captures five temporally aligned modalities from multiplayer Minecraft interactions, including video, in-game audio output, microphone input audio, mouse and keyboard actions, and other relevant modalities. It is contributed by over 10,000 global participants, with a total duration exceeding 10,000 hours. PLAICraft records each modality with millisecond-level temporal precision, enabling research on synchronized embodied behaviors. The dataset also includes an evaluation suite for benchmarking model capabilities in object recognition, spatial perception, language grounding, and long-term memory. PLAICraft opens up new avenues for training and evaluating agents that act fluently and purposefully in real time, laying the foundation for truly embodied artificial intelligence.
提供机构:
不列颠哥伦比亚大学
创建时间:
2025-05-19
搜集汇总
数据集介绍
main_image_url
构建方式
PLAICraft数据集通过精心设计的多人Minecraft游戏平台构建,捕获了五种时间对齐的多模态数据:屏幕视频、游戏输出音频、麦克风输入音频、鼠标和键盘动作。所有数据均以毫秒级时间精度记录,确保模态间的严格同步。数据采集平台基于AWS EC2 Ubuntu实例,利用Open Broadcaster Software (OBS) 进行视频和音频录制,同时通过定制开发的Forge模组精确捕获输入事件。数据集包含来自全球10,000多名参与者的超过10,000小时的游戏记录,涵盖了从基础操作到复杂社交互动的广泛行为。
使用方法
PLAICraft数据集适用于训练和评估实时操作的具身智能体。研究者可利用其多模态特性开发跨模态学习模型,通过时间对齐的输入输出研究感知-动作的因果关系。数据集附带的评估套件支持对物体识别、空间意识、语言基础和长期记忆等能力的基准测试。使用时建议首先探索200小时的初始发布子集,重点关注社交互动密集的片段。数据加载器设计为以200毫秒为基本处理单元,方便研究者按需提取特定时间窗口的多模态数据。
背景与挑战
背景概述
PLAICraft是由英属哥伦比亚大学的研究团队于2025年发布的大规模多模态数据集,旨在推动具身人工智能(Embodied AI)领域的发展。该数据集通过多人联机游戏《我的世界》(Minecraft)捕获了超过10,000小时的游戏数据,涵盖了视频、游戏音频、麦克风输入音频、鼠标和键盘动作五种时间对齐的模态数据,时间精度达到毫秒级。PLAICraft的核心研究问题是解决现有数据集在实时性、多模态交互和社会性情境方面的不足,为训练能够在复杂自然环境中流畅交互的智能体提供了重要资源。该数据集在具身学习、多模态感知和社交推理等领域具有广泛影响力,为研究者提供了一个开放、动态且社会化的虚拟实验平台。
当前挑战
PLAICraft面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集旨在解决具身智能体在实时多模态交互中的复杂问题,包括如何整合视觉、听觉和动作信号以实现自然的社会互动,以及如何在开放世界中实现长期记忆和规划。这些挑战对模型的跨模态对齐、时间同步和社会认知能力提出了极高要求。在构建过程中,研究团队需要克服大规模数据采集的技术难题,包括确保五种模态的毫秒级时间同步、处理超过10,000名全球玩家的隐私保护问题,以及设计能够支持持续演化的持久性游戏世界。此外,数据标注和编码也面临挑战,需要开发专门的自动标注系统和高效的神经网络编码器来处理海量异构数据。
常用场景
经典使用场景
PLAICraft数据集在具身智能研究中扮演了关键角色,尤其适用于多模态时间对齐的行为分析。该数据集通过捕捉《我的世界》多人游戏中的视频、音频输入输出及键鼠操作,为研究者提供了研究实时感知-动作循环的绝佳平台。其毫秒级时间对齐特性使得分析玩家在复杂社交环境中的决策过程成为可能,例如研究语音指令与游戏动作的因果关系,或探索多玩家协作时的行为模式。
解决学术问题
该数据集有效解决了具身智能领域三大核心问题:一是填补了现有数据集中社交互动与时间对齐模态的空白,使得研究真实场景下的多智能体协作成为可能;二是通过持续演化的开放世界设定,为长期记忆与适应性学习研究提供了天然实验场;三是其包含的语音-动作绑定数据为符号接地问题研究提供了丰富素材。这些突破显著推进了智能体在动态环境中实时决策的理论框架构建。
实际应用
在实际应用层面,PLAICraft已成功支撑了多个前沿方向:游戏AI开发人员利用其训练具有自然对话能力的NPC助手;教育科技团队基于该数据集开发了虚拟协作教学系统;在机器人领域,研究者将其作为模拟器训练机械臂的视听觉-动作协调能力。特别值得注意的是,数据集中真实的玩家社交互动模式为构建拟人化数字助手提供了宝贵的行为模板。
数据集最近研究
最新研究方向
PLAICraft数据集作为多模态时间对齐的大规模数据集,为具身智能(Embodied AI)研究开辟了新的前沿方向。其核心价值在于突破了传统数据集在社交互动、实时性和模态对齐上的局限,通过《我的世界》开放沙盒环境捕捉了超过10,000小时玩家在语音、视觉、动作等多维度的同步交互数据。当前研究热点聚焦于三大方向:一是基于毫秒级时间对齐特性探索感知-动作闭环的神经建模,如Yoo等人利用该数据集训练视频扩散模型实现连续学习;二是构建具有社会推理能力的多智能体系统,通过分析玩家协作、竞争等复杂社交行为数据推进机器对人类意图的理解;三是开发新型评估框架,借鉴CHC认知能力理论设计涵盖空间推理、长期记忆等维度的测试任务。该数据集对推动自动驾驶模拟训练、数字助手开发等跨领域应用具有显著意义,其持续演化的世界状态更为研究开放环境下的终身学习提供了独特实验场。
相关研究论文
  • 1
    PLAICraft: Large-Scale Time-Aligned Vision-Speech-Action Dataset for Embodied AI不列颠哥伦比亚大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作