H-ARC (human-ARC)

Name: H-ARC (human-ARC)
Creator: 纽约大学心理学系和数据科学中心
Published: 2024-09-03 01:11:32
License: 暂无描述

arXiv2024-09-03 更新2024-09-06 收录

下载链接：

https://arc-visualizations.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

H-ARC数据集由纽约大学心理学系和数据科学中心创建，旨在评估人类在抽象推理和推理任务中的表现。该数据集包含15744次人类尝试解决ARC基准测试中的400个训练任务和400个评估任务的记录，包括详细的步骤和动作追踪。数据集的创建过程涉及招募1729名参与者，通过Amazon Mechanical Turk平台进行实验。H-ARC数据集的应用领域主要是人工智能和认知科学，旨在通过对比人类和机器的表现，推动更智能和类人系统的开发。

The H-ARC dataset was developed by the Department of Psychology and the Center for Data Science at New York University, with the objective of evaluating human performance on abstract reasoning and reasoning tasks. This dataset comprises 15,744 records of human attempts to solve 400 training tasks and 400 evaluation tasks from the ARC benchmark, including detailed step-by-step processes and action tracking data. The creation of this dataset involved recruiting 1,729 participants to carry out experiments through the Amazon Mechanical Turk platform. The H-ARC dataset is primarily applied in the fields of artificial intelligence and cognitive science, aiming to advance the development of more intelligent and human-like systems by comparing the performance between humans and machines.

提供机构：

纽约大学心理学系和数据科学中心

创建时间：

2024-09-03

搜集汇总

数据集介绍

构建方式

H-ARC数据集通过评估1729名人类参与者在ARC基准测试中的表现构建而成。这些参与者被分配了5个随机选择的训练或评估任务，涵盖了ARC数据集中的400个训练任务和400个评估任务。每个任务允许参与者最多三次尝试，并记录他们的提交和操作轨迹。通过这种方式，H-ARC数据集不仅提供了人类在ARC任务上的性能估计，还详细记录了他们的解题过程，为后续研究提供了丰富的行为数据。

特点

H-ARC数据集的主要特点在于其全面性和详细性。它不仅提供了人类在ARC基准测试中的准确率估计，还包含了每个任务的详细操作轨迹和自然语言描述，这为研究人类抽象推理和问题解决策略提供了宝贵的数据资源。此外，数据集的构建方式确保了其结果的可靠性和代表性，通过大规模的参与者样本和严格的实验设计，H-ARC数据集为理解人类智能与机器智能的差异提供了坚实的基础。

使用方法

H-ARC数据集的使用方法多样，主要用于研究人类在抽象推理任务中的表现和策略。研究者可以通过分析参与者的操作轨迹和自然语言描述，深入理解人类在解决复杂任务时的认知过程。此外，该数据集还可用于开发和评估人工智能模型，通过比较人类和机器在相同任务上的表现，推动人工智能在抽象推理和问题解决能力上的进步。数据集的公开发布也为跨学科研究提供了便利，促进了心理学、认知科学和人工智能领域的交叉合作。

背景与挑战

背景概述

H-ARC（human-ARC）数据集由纽约大学心理学系和数据科学中心的研究团队创建，旨在提供对人类在抽象推理和推理语料库（ARC）基准测试中表现的全面评估。自2019年以来，尽管人工智能方法在许多领域取得了显著进展，但在ARC基准测试中，这些方法的表现仍然有限。H-ARC数据集的核心研究问题在于比较人类和机器在解决ARC任务时的表现，以验证基准测试的有效性。该数据集通过评估1729名人类参与者在ARC的400个训练任务和400个评估任务上的表现，提供了对人类性能的更稳健估计。H-ARC的发布不仅为ARC研究提供了宝贵的数据资源，还为认知科学领域提供了深入理解人类解决新颖问题的能力的机会。

当前挑战

H-ARC数据集面临的挑战主要集中在两个方面。首先，尽管人类在ARC任务上的表现显著优于当前最先进的人工智能方法，但评估任务的难度显著高于训练任务，这表明在处理更复杂的抽象和推理问题时，人类仍面临挑战。其次，数据集构建过程中遇到的挑战包括参与者数据的完整性问题，约有10.3%的任务数据缺失，这需要通过模拟插补方法来估计人类性能的范围。此外，尽管人类在ARC任务上的表现总体较好，但仍存在一些任务无法在三次尝试内解决，这突显了在抽象推理任务中，人类和机器都面临的固有困难。

常用场景

经典使用场景

H-ARC数据集的经典使用场景在于评估人类在抽象推理任务中的表现，特别是在Abstraction and Reasoning Corpus (ARC)基准测试中。通过收集1729名人类参与者在ARC任务上的表现数据，H-ARC提供了对人类在复杂视觉编程任务中解决能力的全面评估。这一数据集不仅用于比较人类与现有AI方法的性能，还为开发更智能、更接近人类思维的AI系统提供了宝贵的参考。

解决学术问题

H-ARC数据集解决了在抽象推理和视觉编程领域中，如何准确评估人类性能的学术问题。以往的研究往往依赖于ARC数据集的子集或变体，导致对人类表现的估计不够全面和准确。H-ARC通过评估人类在完整ARC任务集上的表现，提供了更为稳健的估计，填补了这一研究空白。这不仅有助于验证ARC基准的有效性，还为理解人类在复杂任务中的认知过程提供了重要数据支持。

衍生相关工作

H-ARC数据集的发布催生了一系列相关研究工作，特别是在AI和认知科学交叉领域。例如，研究人员利用H-ARC中的数据，开发了新的AI模型，旨在模仿人类在ARC任务中的解决策略。此外，H-ARC还激发了对人类认知过程的深入研究，特别是在抽象推理和问题解决方面。这些研究不仅推动了AI技术的发展，也为理解人类智能的本质提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成