five

H-ARC (human-ARC)|认知科学数据集|人工智能数据集

收藏
arXiv2024-09-03 更新2024-09-06 收录
认知科学
人工智能
下载链接:
https://arc-visualizations.github.io
下载链接
链接失效反馈
资源简介:
H-ARC数据集由纽约大学心理学系和数据科学中心创建,旨在评估人类在抽象推理和推理任务中的表现。该数据集包含15744次人类尝试解决ARC基准测试中的400个训练任务和400个评估任务的记录,包括详细的步骤和动作追踪。数据集的创建过程涉及招募1729名参与者,通过Amazon Mechanical Turk平台进行实验。H-ARC数据集的应用领域主要是人工智能和认知科学,旨在通过对比人类和机器的表现,推动更智能和类人系统的开发。
提供机构:
纽约大学心理学系和数据科学中心
创建时间:
2024-09-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
H-ARC数据集通过评估1729名人类参与者在ARC基准测试中的表现构建而成。这些参与者被分配了5个随机选择的训练或评估任务,涵盖了ARC数据集中的400个训练任务和400个评估任务。每个任务允许参与者最多三次尝试,并记录他们的提交和操作轨迹。通过这种方式,H-ARC数据集不仅提供了人类在ARC任务上的性能估计,还详细记录了他们的解题过程,为后续研究提供了丰富的行为数据。
特点
H-ARC数据集的主要特点在于其全面性和详细性。它不仅提供了人类在ARC基准测试中的准确率估计,还包含了每个任务的详细操作轨迹和自然语言描述,这为研究人类抽象推理和问题解决策略提供了宝贵的数据资源。此外,数据集的构建方式确保了其结果的可靠性和代表性,通过大规模的参与者样本和严格的实验设计,H-ARC数据集为理解人类智能与机器智能的差异提供了坚实的基础。
使用方法
H-ARC数据集的使用方法多样,主要用于研究人类在抽象推理任务中的表现和策略。研究者可以通过分析参与者的操作轨迹和自然语言描述,深入理解人类在解决复杂任务时的认知过程。此外,该数据集还可用于开发和评估人工智能模型,通过比较人类和机器在相同任务上的表现,推动人工智能在抽象推理和问题解决能力上的进步。数据集的公开发布也为跨学科研究提供了便利,促进了心理学、认知科学和人工智能领域的交叉合作。
背景与挑战
背景概述
H-ARC(human-ARC)数据集由纽约大学心理学系和数据科学中心的研究团队创建,旨在提供对人类在抽象推理和推理语料库(ARC)基准测试中表现的全面评估。自2019年以来,尽管人工智能方法在许多领域取得了显著进展,但在ARC基准测试中,这些方法的表现仍然有限。H-ARC数据集的核心研究问题在于比较人类和机器在解决ARC任务时的表现,以验证基准测试的有效性。该数据集通过评估1729名人类参与者在ARC的400个训练任务和400个评估任务上的表现,提供了对人类性能的更稳健估计。H-ARC的发布不仅为ARC研究提供了宝贵的数据资源,还为认知科学领域提供了深入理解人类解决新颖问题的能力的机会。
当前挑战
H-ARC数据集面临的挑战主要集中在两个方面。首先,尽管人类在ARC任务上的表现显著优于当前最先进的人工智能方法,但评估任务的难度显著高于训练任务,这表明在处理更复杂的抽象和推理问题时,人类仍面临挑战。其次,数据集构建过程中遇到的挑战包括参与者数据的完整性问题,约有10.3%的任务数据缺失,这需要通过模拟插补方法来估计人类性能的范围。此外,尽管人类在ARC任务上的表现总体较好,但仍存在一些任务无法在三次尝试内解决,这突显了在抽象推理任务中,人类和机器都面临的固有困难。
常用场景
经典使用场景
H-ARC数据集的经典使用场景在于评估人类在抽象推理任务中的表现,特别是在Abstraction and Reasoning Corpus (ARC)基准测试中。通过收集1729名人类参与者在ARC任务上的表现数据,H-ARC提供了对人类在复杂视觉编程任务中解决能力的全面评估。这一数据集不仅用于比较人类与现有AI方法的性能,还为开发更智能、更接近人类思维的AI系统提供了宝贵的参考。
解决学术问题
H-ARC数据集解决了在抽象推理和视觉编程领域中,如何准确评估人类性能的学术问题。以往的研究往往依赖于ARC数据集的子集或变体,导致对人类表现的估计不够全面和准确。H-ARC通过评估人类在完整ARC任务集上的表现,提供了更为稳健的估计,填补了这一研究空白。这不仅有助于验证ARC基准的有效性,还为理解人类在复杂任务中的认知过程提供了重要数据支持。
衍生相关工作
H-ARC数据集的发布催生了一系列相关研究工作,特别是在AI和认知科学交叉领域。例如,研究人员利用H-ARC中的数据,开发了新的AI模型,旨在模仿人类在ARC任务中的解决策略。此外,H-ARC还激发了对人类认知过程的深入研究,特别是在抽象推理和问题解决方面。这些研究不仅推动了AI技术的发展,也为理解人类智能的本质提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国近海地形数据集(渤海,黄海,东海,南海)

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程 收录

BDD100K

数据集推动了视觉的进步,但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究,以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K,包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究了如何一起解决这些任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录