five

AGENT

收藏
arXiv2021-07-26 更新2024-06-21 收录
下载链接:
https://www.tshu.io/AGENT
下载链接
链接失效反馈
官方服务:
资源简介:
AGENT是一个大规模的3D动画数据集,由麻省理工学院创建,旨在评估机器代理的核心心理学推理能力。数据集围绕四个核心场景构建,包括目标偏好、行动效率、未观察到的约束和成本-奖励权衡,这些场景旨在探究人类直觉心理学的关键概念。AGENT数据集通过程序生成的3D动画,模拟了代理在各种物理约束和对象交互中的移动,旨在测试机器学习模型对这些关键情境的理解。该数据集的应用领域包括评估和改进机器代理在理解人类心理状态和行为方面的能力,特别是在社交互动和协作任务中。

AGENT is a large-scale 3D animation dataset developed by the Massachusetts Institute of Technology (MIT) for evaluating the core psychological reasoning capabilities of machine agents. The dataset is built upon four core scenarios: goal preference, action efficiency, unobserved constraints, and cost-reward trade-offs, which target the exploration of key concepts in human intuitive psychology. The AGENT dataset employs procedurally generated 3D animations to simulate agents' movements amid diverse physical constraints and object interactions, with the objective of testing machine learning models' comprehension of these critical scenarios. Potential applications of this dataset involve evaluating and improving the capacity of machine agents to comprehend human mental states and behaviors, especially within social interaction and collaborative task settings.
提供机构:
麻省理工学院
创建时间:
2021-02-24
搜集汇总
数据集介绍
main_image_url
构建方式
在认知发展研究的启发下,AGENT数据集通过程序化生成方法构建了大规模三维动画序列,旨在评估机器代理对核心心理推理能力的掌握。该数据集围绕四个关键场景展开,包括目标偏好、行动效率、未观察约束以及成本-收益权衡,每个场景均基于婴幼儿心理学实验设计。数据生成过程首先采样满足特定约束的物理场景图,随后在三维仿真环境中实例化,并通过预设的运动启发式方法模拟代理在多样化物理环境中的行为轨迹。最终,数据集包含8400段视频,总计3360个试验,分为训练、验证和测试子集,确保结构的系统性与可扩展性。
特点
AGENT数据集的核心特点在于其紧密融合了发展心理学的理论框架与机器学习的评估需求。数据集通过精心设计的四个场景,系统性地探究了代理对目标偏好、行动效率、隐藏约束及成本-收益权衡的推理能力,这些场景均源自婴幼儿认知研究,具有高度的生态效度。此外,数据集强调泛化能力的评估,不仅包含基础试验类型,还引入了多样化的物理配置变体,以挑战模型在新颖情境下的适应能力。所有试验均经过大规模人类评分验证,确保了任务设计的合理性与挑战性,为机器心理理论的研究提供了严谨且可靠的基准。
使用方法
AGENT数据集的使用旨在评估模型对核心心理推理能力的掌握程度,尤其侧重于泛化性能的考察。研究建议,模型需通过内置归纳偏置或额外数据训练来获取必要的背景知识,例如对三维动态场景的解析以及对代理属性的表征。典型的使用范式包括模块化训练,即在其他数据集上预训练感知或规划等组件后,在AGENT的训练试验上进行微调。评估时,模型需根据熟悉阶段视频推断代理的心理状态,并对测试阶段视频中代理行为的意外程度进行评分,最终通过配对试验的评分排序准确率来衡量性能。数据集中提供的RGB-D帧、实例分割图及三维边界框等丰富标注,支持从感知到推理的多层次模型开发与验证。
背景与挑战
背景概述
AGENT数据集于2021年由麻省理工学院、MIT-IBM沃森人工智能实验室及哈佛大学的研究团队联合创建,旨在为机器智能体提供核心心理推理能力的基准测试。该数据集受认知发展研究中直觉心理学实验的启发,通过程序化生成的大规模三维动画,模拟了人类在婴幼儿阶段即具备的推理能力,如目标偏好、行动效率、未观察约束及成本-收益权衡等核心心理概念。其构建不仅推动了机器在理解人类心智状态方面的研究,也为人工智能在社交感知与交互领域的发展奠定了重要基础,促进了模型在通用心理推理能力上的评估与优化。
当前挑战
AGENT数据集致力于解决机器智能体在核心心理推理领域的挑战,即如何让机器像人类一样从可观察行为中推断隐藏的心理变量,如目标、偏好与约束。这一领域问题的复杂性在于,模型需整合效用计算、物体表征及直观物理知识,以实现对智能体行为的泛化理解。在构建过程中,研究团队面临了多重挑战:一是设计具有认知效度的实验场景,需基于婴幼儿心理学研究精确模拟四种关键情境;二是确保数据集的多样性与可控性,通过程序化生成大量三维动画以覆盖不同物理配置,同时避免模型依赖低级启发式策略;三是建立强调泛化能力的评估协议,要求模型在陌生物理环境或跨场景中保持稳健性能,这对现有基于学习或内置表征的方法提出了严峻考验。
常用场景
经典使用场景
在认知科学与人工智能交叉领域,AGENT数据集被广泛用于评估机器代理是否具备人类婴儿般的核心心理推理能力。该数据集通过程序化生成的3D动画,模拟了目标偏好、行动效率、未观察约束与成本-收益权衡四大经典场景,为研究者提供了结构化测试环境。模型需通过观察代理在熟悉化阶段的行动模式,预测其在测试阶段的行为是否符合理性原则,从而检验其是否内化了效用计算、物理约束与目标导向规划等核心心理学概念。
解决学术问题
AGENT数据集系统性地解决了机器心理理论研究中长期存在的评估标准化缺失问题。传统研究往往依赖特定任务设计,难以量化模型对核心心理概念的泛化能力。该数据集通过受发展心理学启发的实验范式,将抽象的心理推理转化为可计算的代理行为预测任务,使研究者能够精确评估模型在目标推断、效率原则理解、隐藏约束推理及效用权衡等维度的表现。其意义在于为构建具备人类般社会认知能力的机器代理提供了可复现、可扩展的基准测试框架。
衍生相关工作
AGENT数据集催生了多类拓展性研究,其中最具代表性的是对心理理论神经网络的架构改进。例如,ToMnet-G模型通过引入图神经网络编码场景实体关系,增强了模型对动态物理环境的表征能力;而BIPaCK模型则融合贝叶斯逆规划与核心物理知识,展现了内置规划表征在跨场景泛化中的优势。后续研究如PHASE数据集进一步整合了抽象社会事件推理,Baby Intuitions Benchmark则专注于迷宫环境中目标与工具性行为的评估,这些工作共同构成了机器直觉心理学研究的多层次评估体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作