H-ARC (human-ARC)|认知科学数据集|人工智能数据集
收藏arXiv2024-09-03 更新2024-09-06 收录
下载链接:
https://arc-visualizations.github.io
下载链接
链接失效反馈资源简介:
H-ARC数据集由纽约大学心理学系和数据科学中心创建,旨在评估人类在抽象推理和推理任务中的表现。该数据集包含15744次人类尝试解决ARC基准测试中的400个训练任务和400个评估任务的记录,包括详细的步骤和动作追踪。数据集的创建过程涉及招募1729名参与者,通过Amazon Mechanical Turk平台进行实验。H-ARC数据集的应用领域主要是人工智能和认知科学,旨在通过对比人类和机器的表现,推动更智能和类人系统的开发。
提供机构:
纽约大学心理学系和数据科学中心
创建时间:
2024-09-03
AI搜集汇总
数据集介绍

构建方式
H-ARC数据集通过评估1729名人类参与者在ARC基准测试中的表现构建而成。这些参与者被分配了5个随机选择的训练或评估任务,涵盖了ARC数据集中的400个训练任务和400个评估任务。每个任务允许参与者最多三次尝试,并记录他们的提交和操作轨迹。通过这种方式,H-ARC数据集不仅提供了人类在ARC任务上的性能估计,还详细记录了他们的解题过程,为后续研究提供了丰富的行为数据。
特点
H-ARC数据集的主要特点在于其全面性和详细性。它不仅提供了人类在ARC基准测试中的准确率估计,还包含了每个任务的详细操作轨迹和自然语言描述,这为研究人类抽象推理和问题解决策略提供了宝贵的数据资源。此外,数据集的构建方式确保了其结果的可靠性和代表性,通过大规模的参与者样本和严格的实验设计,H-ARC数据集为理解人类智能与机器智能的差异提供了坚实的基础。
使用方法
H-ARC数据集的使用方法多样,主要用于研究人类在抽象推理任务中的表现和策略。研究者可以通过分析参与者的操作轨迹和自然语言描述,深入理解人类在解决复杂任务时的认知过程。此外,该数据集还可用于开发和评估人工智能模型,通过比较人类和机器在相同任务上的表现,推动人工智能在抽象推理和问题解决能力上的进步。数据集的公开发布也为跨学科研究提供了便利,促进了心理学、认知科学和人工智能领域的交叉合作。
背景与挑战
背景概述
H-ARC(human-ARC)数据集由纽约大学心理学系和数据科学中心的研究团队创建,旨在提供对人类在抽象推理和推理语料库(ARC)基准测试中表现的全面评估。自2019年以来,尽管人工智能方法在许多领域取得了显著进展,但在ARC基准测试中,这些方法的表现仍然有限。H-ARC数据集的核心研究问题在于比较人类和机器在解决ARC任务时的表现,以验证基准测试的有效性。该数据集通过评估1729名人类参与者在ARC的400个训练任务和400个评估任务上的表现,提供了对人类性能的更稳健估计。H-ARC的发布不仅为ARC研究提供了宝贵的数据资源,还为认知科学领域提供了深入理解人类解决新颖问题的能力的机会。
当前挑战
H-ARC数据集面临的挑战主要集中在两个方面。首先,尽管人类在ARC任务上的表现显著优于当前最先进的人工智能方法,但评估任务的难度显著高于训练任务,这表明在处理更复杂的抽象和推理问题时,人类仍面临挑战。其次,数据集构建过程中遇到的挑战包括参与者数据的完整性问题,约有10.3%的任务数据缺失,这需要通过模拟插补方法来估计人类性能的范围。此外,尽管人类在ARC任务上的表现总体较好,但仍存在一些任务无法在三次尝试内解决,这突显了在抽象推理任务中,人类和机器都面临的固有困难。
常用场景
经典使用场景
H-ARC数据集的经典使用场景在于评估人类在抽象推理任务中的表现,特别是在Abstraction and Reasoning Corpus (ARC)基准测试中。通过收集1729名人类参与者在ARC任务上的表现数据,H-ARC提供了对人类在复杂视觉编程任务中解决能力的全面评估。这一数据集不仅用于比较人类与现有AI方法的性能,还为开发更智能、更接近人类思维的AI系统提供了宝贵的参考。
解决学术问题
H-ARC数据集解决了在抽象推理和视觉编程领域中,如何准确评估人类性能的学术问题。以往的研究往往依赖于ARC数据集的子集或变体,导致对人类表现的估计不够全面和准确。H-ARC通过评估人类在完整ARC任务集上的表现,提供了更为稳健的估计,填补了这一研究空白。这不仅有助于验证ARC基准的有效性,还为理解人类在复杂任务中的认知过程提供了重要数据支持。
衍生相关工作
H-ARC数据集的发布催生了一系列相关研究工作,特别是在AI和认知科学交叉领域。例如,研究人员利用H-ARC中的数据,开发了新的AI模型,旨在模仿人类在ARC任务中的解决策略。此外,H-ARC还激发了对人类认知过程的深入研究,特别是在抽象推理和问题解决方面。这些研究不仅推动了AI技术的发展,也为理解人类智能的本质提供了新的视角和方法。
以上内容由AI搜集并总结生成



