Barch corpus

github2022-04-20 更新2024-05-31 收录

下载链接：

https://github.com/izaskr/barch_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含由人类编写的条形图摘要，涵盖18个不同主题，每个图表与四种主要信息之一相关联。通过众包收集了约20个摘要，每个摘要都与图表数据进行了标注，包括基本信息（轴标签、条形名称和高度）以及人类推断的分析信息（条形间的关系、高度近似值）。

This dataset comprises human-authored summaries of bar charts, encompassing 18 distinct topics, with each chart associated with one of four primary types of information. Approximately 20 summaries were collected through crowdsourcing, each annotated with chart data, including basic information (axis labels, bar names, and heights) as well as human-inferred analytical insights (relationships between bars, approximate height values).

创建时间：

2022-01-17

原始信息汇总

Barch数据集概述

数据集描述

主题数量：18个
图表数量：47个
摘要数量：1,063个
总词数：57,420
总句子数：3,356

数据收集方法

通过众包方式收集，每个图表约20个摘要。
摘要内容与图表数据对齐，包括基本信息（轴标签、条形名称和高度）和分析信息（条形间关系、高度估计）。

数据集结构

数据目录：包含图表和摘要。
- chart_summaries.xml：按主题和图表排列的注释摘要。
- charts：按主题分类的图表图像和摘要。
- chartID2plotinto.json：每个图表的绘图信息。
splits_nlg目录：NLG实验的数据分割。
- c2t：Chart2Text模型的数据。
- kgpt：KGPT模型的数据。
- lstm：LSTM模型的数据。
- splits_combinations_ids.json：按数据分割的摘要ID。
Annotation_Guidelines_2.0.pdf：标注指南。

数据用途

用于训练多个自然语言生成模型，包括LSTM、Chart2Text和KGPT。

搜集汇总

数据集介绍

构建方式

Barch语料库的构建过程精心设计，涵盖了18个不同主题的柱状图。每个柱状图均与四种主要信息之一相关联，这些信息通过图表标题传达。通过众包方式，研究人员为每个图表收集了约20份描述性摘要，要求参与者以向观众展示的方式描述图表。摘要文本与图表数据进行了标注对齐，包括基本信息（如轴标签、柱状名称和高度）以及人类推断的分析信息（如柱状之间的关系和高度近似值）。

使用方法

Barch语料库的使用方法灵活多样，适用于自然语言生成（NLG）任务的研究与开发。研究人员可利用该数据集训练多种NLG模型，如带有注意力的LSTM编码-解码器、Chart2Text模型以及KGPT模型。数据集中的标注信息为模型训练提供了丰富的上下文信息，有助于生成更具解释性和准确性的图表描述。此外，数据集的结构化划分（如训练集、验证集和测试集）为模型评估和比较提供了便利。

背景与挑战

背景概述

Barch语料库是一个专注于条形图摘要的英文数据集，由研究人员设计并发布于2022年。该数据集涵盖了18个不同主题的条形图，每个图表均与四种主要信息之一相关联，并通过众包方式收集了约20条人类撰写的摘要。这些摘要不仅标注了图表的基本信息（如轴标签、条形名称和高度），还包含了人类推断的分析信息（如条形之间的关系和高度近似值）。该数据集旨在支持自然语言生成（NLG）任务，特别是针对图表数据的文本生成，已在多个NLG模型（如LSTM、Chart2Text和KGPT）的训练中得到应用。Barch语料库的发布为图表摘要生成领域提供了重要的数据支持，推动了相关研究的发展。

当前挑战

Barch语料库在构建和应用过程中面临多重挑战。首先，图表摘要生成任务本身具有复杂性，要求模型不仅能够准确提取图表中的基本信息，还需具备推理能力以生成符合人类逻辑的分析性描述。其次，数据集的构建依赖于众包方式，如何确保摘要的质量和一致性成为一大难题，特别是在标注过程中需要平衡不同参与者的主观判断。此外，尽管数据集已用于训练多种NLG模型，但这些模型在处理复杂图表时仍存在生成文本不连贯或信息不准确的问题，表明现有方法在图表数据理解和语言生成能力上仍有提升空间。

常用场景

经典使用场景

Barch数据集在自然语言生成（NLG）领域中被广泛用于训练和评估模型，特别是针对条形图描述的自动生成。通过提供大量人工撰写的条形图摘要及其与图表数据的对齐信息，该数据集为研究者提供了一个理想的平台，用于开发和测试能够从视觉数据中生成自然语言描述的算法。

解决学术问题

Barch数据集解决了在自然语言生成领域中，如何从结构化数据（如条形图）中生成连贯且准确的文本描述这一关键问题。通过提供详细的标注和对齐信息，该数据集帮助研究者更好地理解人类如何从图表中提取信息，并将其转化为语言表达，从而推动了NLG模型在理解和生成复杂数据描述方面的进步。

实际应用

在实际应用中，Barch数据集可以用于开发智能报告生成系统，特别是在需要将大量数据可视化结果转化为易于理解的文本描述的领域，如商业分析、科学研究报告和教育材料。通过自动生成条形图的描述，该系统能够显著提高数据分析和报告撰写的效率，减少人工干预的需求。

数据集最近研究