Goofus & Gallant Story Corpus

Name: Goofus & Gallant Story Corpus
Creator: 肯塔基大学生物医学信息学研究所, 佐治亚理工学院交互计算学院
Published: 2025-01-17 01:58:58
License: 暂无描述

arXiv2025-01-17 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.09707v1

下载链接

链接失效反馈

官方服务：

资源简介：

Goofus & Gallant故事语料库是一个多模态数据集，旨在通过自然语言文本和图像展示社会价值观。该数据集由肯塔基大学和佐治亚理工学院的研究团队创建，基于儿童漫画《Goofus & Gallant》，该漫画通过对比两种行为模式（规范与非规范）来教育儿童社会原则。数据集包含1387条文本和819张图像，涵盖了1995年至2017年的漫画内容。数据集的创建过程包括从漫画中提取文本和图像，并通过众包和大型语言模型（LLMs）对行为进行社会原则的标注。该数据集主要用于训练AI系统，使其能够理解和遵循人类社会的价值观，解决AI与人类价值观对齐的问题。

The Goofus & Gallant Story Corpus is a multimodal dataset designed to showcase social values through natural language text and images. This dataset was developed by research teams from the University of Kentucky and the Georgia Institute of Technology, based on the children's comic strip *Goofus & Gallant*, which educates children about social principles by contrasting two sets of behavioral patterns: normative and non-normative ones. The dataset comprises 1,387 text entries and 819 images, spanning comic strip content from 1995 to 2017. The process of constructing the dataset includes extracting text and images from the comic strips, and annotating the behaviors with social principles via crowdsourcing and Large Language Models (LLMs). This dataset is primarily intended for training AI systems to understand and comply with human social values, addressing the challenge of AI alignment with human values.

提供机构：

肯塔基大学生物医学信息学研究所, 佐治亚理工学院交互计算学院

创建时间：

2025-01-17

搜集汇总

数据集介绍

构建方式

Goofus & Gallant Story Corpus 是一个多模态数据集，它通过自然语言和艺术图像描述现实生活中的规范性及非规范性行为。该数据集基于名为 'Goofus & Gallant' 的儿童漫画，这些漫画由 Highlights 杂志自 1995 年至 2017 年出版，旨在教导年轻儿童社会原则。数据集由两部分组成：GnG Normative 数据集和 GnG Principles 数据集。GnG Normative 数据集包含被标记为规范或非规范的社会行为插图，以及描述这些行为的文本。GnG Principles 数据集则进一步标注了每个行为所涉及的潜在社会原则或价值观。

特点

Goofus & Gallant Story Corpus 的特点在于其多模态性质，即每个故事都配有图像和文本描述，这为理解和学习社会价值观提供了丰富的视觉和文本信息。此外，数据集专为教授儿童社会原则而设计，因此其内容针对性强，有助于训练符合社会规范的人工智能代理。然而，数据集规模相对较小，且对价值观的描述较为粗略。为了弥补这些局限性，研究者们通过众包工作者的标注和大型语言模型（LLM）的辅助，为数据集添加了更详细的价值信息。

使用方法

使用 Goofus & Gallant Story Corpus 进行研究时，首先需要明确研究的具体任务，如规范性分类或原则分类。对于规范性分类任务，研究者可以使用文本、图像或两者结合的方式来训练分类模型，以区分故事中描述的行为是否为社会所接受。对于原则分类任务，研究者可以利用文本描述和图像来训练模型，使其能够识别行为所遵循或违反的社会原则。在使用数据集时，研究者应该注意数据集的局限性，并在必要时进行数据增强或使用其他数据集作为补充。

背景与挑战

背景概述

在人工智能（AI）系统日益融入人类社会的当下，确保这些系统能够与人类价值观保持一致，避免造成有意或无意的伤害，成为了研究的重要课题。Goofus & Gallant Story Corpus数据集应运而生，旨在解决这一难题。该数据集由Md Sultan Al Nahian等人于2025年创建，主要研究人员来自肯塔基大学和乔治亚理工学院。核心研究问题是，如何通过训练使AI系统在行为上符合社会规范和价值观。Goofus & Gallant漫画自1946年起开始在Highlights杂志上连载，通过对比Goofus和Gallant两位角色的行为，向儿童传授社会原则。该数据集包含了1995年至2017年的漫画，共约1000幅，每幅漫画都配有简短的文字描述和图像，直观地展示了社会行为的是非标准。Goofus & Gallant Story Corpus数据集的创建，对于促进AI系统的价值对齐研究具有重要意义，为训练AI系统在复杂的社会情境中做出符合人类价值观的决策提供了宝贵的数据资源。

当前挑战

Goofus & Gallant Story Corpus数据集虽然为AI系统的价值对齐研究提供了重要支持，但也面临着一些挑战。首先，数据集规模相对较小，仅有20年的漫画数据，可能不足以覆盖所有社会情境。其次，数据集中的行为仅被标记为规范或非规范，这种粗粒度的表示可能无法满足复杂价值对齐的需求。为了解决这些问题，研究人员对数据集进行了扩充，引入了基于Kiesel等人提出的价值分类法的详细价值信息。此外，数据集的多模态特性也带来了新的挑战，如何有效结合图像和文本信息，以提升AI系统对社会价值观的理解和决策能力，是未来研究的重点方向。

常用场景

经典使用场景

Goofus & Gallant Story Corpus作为一个人工智能价值对齐的实践数据集，其经典使用场景包括训练人工智能系统理解和遵守人类社会的价值观和行为规范。该数据集包含了大量描述社会情境下规范与非规范行为的漫画和文本描述，通过这些故事，人工智能可以学习到社会的基本原则和道德规范，从而在决策过程中避免违反社会规则，实现与人类的和谐共存。

解决学术问题

Goofus & Gallant Story Corpus解决了人工智能系统中价值对齐的难题。在以往的研究中，如何定义和获取用于训练人工智能系统的价值信息一直是一个挑战。Goofus & Gallant Story Corpus通过收集和整理专门设计来教育儿童社会原则的漫画和文本，提供了一个清晰和明确的价值信息来源。这使得研究人员能够更有效地训练价值对齐的人工智能系统，使其决策与人类价值观相一致，从而减少人工智能系统可能对人类社会造成的伤害。

衍生相关工作

Goofus & Gallant Story Corpus的发布，为人工智能价值对齐领域的研究提供了新的数据基础和研究方向。基于该数据集，研究人员可以进一步探索如何通过故事和漫画等非结构化数据来训练人工智能系统，使其理解和遵守人类社会的价值观和行为规范。此外，该数据集还可以用于开发和评估各种价值对齐算法和模型，为人工智能系统在复杂社会环境中的行为决策提供更加可靠和安全的保障。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集