AI2D-RST

Name: AI2D-RST
Creator: Allen Institute for Artificial Intelligence
Published: 2020-03-20 18:03:17
License: 暂无描述

arXiv2020-03-20 更新2024-06-21 收录

下载链接：

http://urn.fi/urn:nbn:fi:lb-2019120407

下载链接

链接失效反馈

官方服务：

资源简介：

AI2D-RST数据集是由Allen Institute for Artificial Intelligence创建的多模态语料库，包含1000个英语小学科学主题的图表，如食物网、生命周期、月相和人体生理学。该数据集基于AI2D数据集，通过众包描述收集图表，旨在支持自动图表理解和视觉问答的研究。AI2D-RST数据集引入了一种新的多层注释模式，提供丰富的多模态结构描述。注释由训练有素的专家进行，描述了图表元素的组合成感知单元、由箭头和线条等图表元素建立的连接以及图表元素之间的修辞结构理论（RST）描述的论述关系。每个注释层在AI2D-RST中都使用图形表示。该语料库可供研究和教学自由使用，旨在支持图表多模态性和计算处理的实证研究。

The AI2D-RST dataset is a multimodal corpus created by the Allen Institute for Artificial Intelligence, containing 1,000 English elementary school science-themed diagrams including food webs, life cycles, lunar phases, and human physiology. Built upon the original AI2D dataset, this corpus collects diagram descriptions through crowdsourcing, aiming to support research on automatic diagram understanding and visual question answering. The AI2D-RST dataset introduces a novel multi-layer annotation schema that provides rich multimodal structural descriptions. Annotations are conducted by well-trained experts, covering the grouping of diagram elements into perceptual units, the connections established by diagrammatic elements such as arrows and lines, and the discursive relations between diagram elements described by Rhetorical Structure Theory (RST). Each annotation layer is graphically represented within the AI2D-RST corpus. This corpus is freely available for research and educational purposes, and is intended to support empirical research on diagram multimodality and their computational processing.

提供机构：

Allen Institute for Artificial Intelligence

创建时间：

2019-12-09

搜集汇总

数据集介绍

构建方式

AI2D-RST数据集的构建基于艾伦人工智能研究所图表（AI2D）数据集，该数据集包含4903个小学自然科学主题的英文图表，并通过众包方式进行了布局分割和图表解析图（DPG）标注。在此基础上，AI2D-RST引入了由训练有素的专家执行的多层标注框架，以丰富描述其多模态结构。该框架包含四个标注层：分组层描述图表元素如何形成视觉单元；宏观分组层捕捉视觉组之上的通用结构原则；连接层通过箭头和线条等元素描述元素间的显式连接；话语结构层则运用修辞结构理论（RST）分析元素间的隐含话语关系。所有标注层均以图结构表示，并通过唯一标识符实现跨层关联，形成了一种分离式标注方法，有效结合了众包与专家标注的优势。

特点

AI2D-RST数据集的核心特点在于其多层次、图结构化的多模态标注体系。该数据集包含1000个小学自然科学图表，覆盖食物网、生命周期、月相及人体生理等主题。其标注不仅涵盖了图表元素的视觉分组与空间布局，还深入刻画了通过箭头、线条建立的显式连接，以及基于修辞结构理论的话语关系。这种分层标注方式能够清晰区分图表中不同模态资源的组合与互动，为研究图表的多模态交际机制提供了结构化数据支持。此外，数据集采用图结构表示，便于计算处理与分析，且标注一致性经过严格评估，展现出较高的可靠性。

使用方法

AI2D-RST数据集适用于多模态研究、计算语言学及教育技术等多个领域。研究者可利用其多层图结构标注，探索图表中视觉与语言资源的整合机制，或分析话语关系的显隐表达模式。在计算任务中，该数据集可用于训练和评估自动图表理解、视觉问答及多模态表示学习模型。使用时可从芬兰语言银行公开获取JSON格式的标注文件，并利用提供的Python工具进行加载与处理。用户可依据研究需求，单独或组合利用分组、连接及话语结构等标注层，开展基于特征的统计分析或图神经网络建模，以深入揭示图表的多模态结构规律。

背景与挑战

背景概述

AI2D-RST数据集于2020年由艾伦人工智能研究所及多所高校的研究团队联合构建，旨在深化对多模态图示的理解。该数据集以小学自然科学领域的1000个英文图示为核心，构建于AI2D数据集之上，通过引入修辞结构理论（RST）驱动的多层标注框架，系统描述图示的视觉分组、连接关系及话语结构。其创建不仅推动了多模态语料库的规模化发展，也为计算图示理解、视觉问答及教育技术等领域提供了关键资源，促进了多模态研究从理论探讨向实证分析的转变。

当前挑战

AI2D-RST面临的挑战主要集中于两方面：在领域问题上，图示理解需解决多模态元素的复杂整合，包括如何从布局、箭头等视觉线索中推断隐含的话语关系，并克服语义解析中上下文依赖性强、标注单元粒度多变等难题。在构建过程中，挑战源于将众包的低层标注与专家驱动的高层RST标注相结合时，需平衡标注效率与理论严谨性；同时，图示分解的层次受话语结构影响，而众包标注缺乏动态调整能力，导致部分话语单元无法精准识别，限制了标注框架的完备性与可扩展性。

常用场景

经典使用场景

在自然语言处理与多模态研究领域，AI2D-RST数据集被广泛应用于探索图表的多模态结构解析。该数据集通过整合视觉元素分组、连接性标注及修辞结构理论（RST）驱动的语篇关系分析，为研究者提供了系统分析图表中图文交互机制的标准化框架。其经典应用场景包括训练和评估自动图表理解模型，尤其是在视觉问答和图表语义解析任务中，模型可依据数据集的层次化标注学习图表元素间的空间与语义关联。

衍生相关工作

基于AI2D-RST数据集，研究者已开展多项衍生工作，包括开发图神经网络模型以学习图表的结构化表示，以及探索多模态预训练方法用于图表问答任务。部分研究聚焦于自动扩展标注框架，尝试利用数据集训练模型以生成剩余未标注图表的RST结构。同时，该数据集也促进了跨学科合作，如在教育认知研究中用于分析图表布局如何影响学习者的信息整合过程。

数据集最近研究