five

ConceptARC

收藏
arXiv2023-05-12 更新2024-06-21 收录
下载链接:
https://github.com/victorvikram/ConceptARC
下载链接
链接失效反馈
官方服务:
资源简介:
ConceptARC是由圣达菲研究所创建的一个公开可用的ARC领域基准数据集,旨在系统评估抽象和泛化能力。该数据集围绕16个基本空间和语义概念组织,每个概念包含10个任务,每个任务有三个不同的测试输入,总计480个测试输入。ConceptARC的设计旨在依赖于核心概念的直接实例,并系统评估任务解算器对特定概念的理解程度,以便能够泛化。数据集的应用领域是评估人类和AI系统在抽象推理和概念泛化方面的能力,旨在推动AI系统在概念抽象方面的发展和有效评估。

ConceptARC is a publicly available ARC-domain benchmark dataset created by the Santa Fe Institute, designed to systematically evaluate abstract reasoning and generalization abilities. The dataset is organized around 16 fundamental spatial and semantic concepts, with each concept encompassing 10 tasks, and each task featuring three distinct test inputs, totaling 480 test inputs across the entire dataset. ConceptARC is constructed to leverage direct instantiations of core concepts, and systematically assess the extent to which a task solver understands a given concept to enable effective generalization. Its application domains cover evaluating the abstract reasoning and concept generalization capabilities of both humans and AI systems, with the core objectives of advancing the development of AI systems for conceptual abstraction and enabling the effective assessment of such systems.
提供机构:
圣达菲研究所
创建时间:
2023-05-12
搜集汇总
数据集介绍
main_image_url
构建方式
ConceptARC数据集的构建方式是通过选取16个核心概念,并为每个概念创建了10个新的ARC任务,这些任务都是概念的不同实例化。每个任务包含三个不同的测试输入,以评估系统对特定概念的理解程度。任务的设计考虑了核心概念的简单实例,以便于人类解决,并且任务的复杂性逐渐增加,以评估系统在概念抽象和泛化方面的能力。
使用方法
使用ConceptARC数据集的方法包括招募人类参与者进行测试,以及将现有的AI系统应用于数据集中的任务。对于人类参与者,可以使用在线平台如Amazon Mechanical Turk和Prolific进行招募,并通过视觉界面进行测试。对于AI系统,可以将代码或模型应用于数据集中的任务,并记录其准确率。通过比较人类和AI系统在不同概念上的准确率,可以评估系统在概念抽象和泛化方面的能力。
背景与挑战
背景概述
形成和抽象概念是人类智能的核心。这些能力使人类能够理解并创造世界的内部模型,利用这些模型来理解新信息,并通过类比来决定在新的情况下的行为。然而,即使在最先进的AI系统中,这些能力仍然缺乏。在AI中,关于概念形成和抽象的研究通常使用理想化的领域,例如Raven的进步矩阵和Bongard问题,这些领域捕捉了现实世界中抽象和类比的一些基本方面。本文描述了一个深入评估基准,用于评估抽象和推理语料库(ARC)中的抽象和类比能力。特别是,我们描述了ConceptARC,这是一个新的、公开可用的ARC领域基准,系统地评估了一系列基本空间和语义概念上的抽象和泛化能力。与原始的ARC数据集不同,ConceptARC专门围绕“概念组”组织——一系列关注特定概念的问题,这些概念的复杂性和抽象程度各不相同。我们在该基准上测试了人类以及三个机器求解器:2021年ARC竞赛的前两个程序和OpenAI的GPT-4。我们的结果表明,人类在抽象和泛化概念方面的能力明显优于机器求解器,这表明AI系统尚未捕捉到这些能力。我们相信,这个基准将推动AI系统在概念抽象和有效评估方面的改进。
当前挑战
1) ARC领域解决的领域问题是对抽象概念的理解和推理能力。2) 构建过程中遇到的挑战包括:a) ARC任务涉及小样本学习——从几个例子中推断抽象概念;b) 所需的“核心知识”非常开放;c) 解决任务需要以灵活性应用核心知识概念,这种灵活性是人类认知的关键,但尚未在AI系统中实现。
常用场景
经典使用场景
概念ARC数据集(ConceptARC)旨在评估机器学习系统在抽象概念形成和推理方面的能力。它包含了一系列基于空间和语义概念的类比问题,要求机器学习系统从少量示例中学习抽象概念并推广到新情况。数据集特别组织为“概念组”,每组问题专注于特定的概念,并在复杂性和抽象级别上有所不同。ConceptARC被广泛应用于研究机器学习系统的抽象概念理解和推理能力,并作为评估这些能力的基准。
解决学术问题
ConceptARC数据集解决了机器学习系统在抽象概念形成和推理方面的能力不足的问题。现有的机器学习系统在解决理想化领域的问题时表现出色,例如Raven's Progressive Matrices和Bongard问题,但它们很少在深度上被评估,以确定它们是否真正掌握了这些概念。ConceptARC通过提供系统性的评估基准,帮助研究人员更好地理解机器学习系统在抽象概念形成和推理方面的能力,并促进这些能力的发展。
实际应用
ConceptARC数据集的实际应用场景包括评估和改进机器学习系统在抽象概念形成和推理方面的能力。通过对机器学习系统在ConceptARC上的性能进行评估,研究人员可以识别系统在特定概念上的不足,并针对性地进行改进。此外,ConceptARC还可以用于开发新的机器学习算法和模型,以提高机器学习系统在抽象概念形成和推理方面的能力。
数据集最近研究
最新研究方向
在人工智能领域,概念抽象和推理能力的研究一直是核心目标。ConceptARC数据集的出现,为评估AI系统在这方面的能力提供了一个新的基准。该数据集通过组织围绕特定概念的问题组,系统地评估了AI系统在基础空间和语义概念上的抽象和泛化能力。与原始ARC数据集不同,ConceptARC更专注于概念的理解和泛化,而不仅仅是问题的解决。最近的研究表明,尽管AI系统在解决ARC问题上取得了一定的进展,但它们在抽象概念和泛化能力方面仍然与人类存在显著差距。这一发现表明,我们需要新的评估方法和基准,以便更有效地评估AI系统在概念抽象方面的能力,并促进AI系统在这些方面的进一步发展。
相关研究论文
  • 1
    The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain圣达菲研究所 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作