通胀叙事有向无环图标注数据集

Name: 通胀叙事有向无环图标注数据集
Creator: 汉堡大学·计算机科学系; 汉堡大学·社会经济系; 吕讷堡大学·人工智能与可解释性研究组
Published: 2026-03-02 22:48:13
License: 暂无描述

arXiv2026-03-02 更新2026-03-04 收录

下载链接：

https://pypi.org/project/krippendorff-graph/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由汉堡大学与吕讷堡大学联合构建，聚焦新闻语料中的通胀因果叙事分析，采用有向无环图（DAG）结构标注事件节点与因果边。数据源自道琼斯新闻数据库的英文报道，通过定性内容分析法（QCA）迭代优化26类细粒度叙事子类别（供需/杂项）。研究提出基于克雷彭多夫α的图标注评估框架，旨在解决叙事理解中的人类标注变异（HLV）问题，为经济学与NLP领域提供结构化叙事分析工具。原始文本因版权限制未公开，但开源了图标注方法论实现。

This dataset was jointly constructed by the University of Hamburg and the Leuphana University of Lüneburg, focusing on causal narrative analysis of inflation in news corpora. It uses Directed Acyclic Graph (DAG) structures to annotate event nodes and causal edges. The data is sourced from English news reports in the Dow Jones News Database, where 26 fine-grained narrative subcategories (supply-demand/miscellaneous) were iteratively optimized via Qualitative Comparative Analysis (QCA). This study proposes a graph annotation evaluation framework based on Krippendorff's α, aiming to address the issue of Human Label Variation (HLV) in narrative understanding and providing structured narrative analysis tools for the fields of economics and Natural Language Processing (NLP). The original texts are not publicly available due to copyright restrictions, but the graph annotation methodology implementation is open-sourced.

提供机构：

汉堡大学·计算机科学系; 汉堡大学·社会经济系; 吕讷堡大学·人工智能与可解释性研究组

创建时间：

2026-03-02

搜集汇总

数据集介绍

构建方式

在新闻叙事分析领域，构建高质量标注数据集面临叙事结构复杂性与标注者主观差异的双重挑战。通胀叙事有向无环图标注数据集的构建，采用了融合定性内容分析原则的系统化方法论。该数据集源自道琼斯新闻通讯社的英文新闻语料，聚焦于通胀峰值年份的报道。构建过程包含两个阶段：首先通过文档级分类任务筛选出明确讨论通胀成因的文章；随后进行叙事提取，标注者需识别文本中的事件片段，并以有向无环图形式标注其间的因果关系。为提升标注质量，研究引入了基于定性内容分析的试点研究，通过迭代式的小组讨论，不断精炼分类体系与标注指南，并采用预标注技术辅助标注者，从而在控制标注误差的同时，保留了人类标注的合理变异。

特点

该数据集的核心特征在于其以有向无环图作为通胀叙事的结构化表征形式，节点代表经济事件，边编码事件间的因果影响关系。这种图结构能够捕捉叙事中复杂的因果链与事件序列，超越了传统基于主题或情感的扁平化表示。数据集构建过程深刻考量了人类标注变异现象，并未将其简单视为噪声，而是通过多层次的可靠性评估框架予以揭示和度量。其分类体系细致入微，最终涵盖需求、供给及其他杂项三大超类下的26个细粒度子类别，如货币政策、供应链问题、能源价格等，确保了事件标注的丰富性与解释力。这些特点共同使得该数据集成为探索新闻文本中叙事结构与经济因果关系的有力工具。

使用方法

该数据集主要服务于自然语言处理与计算社会科学领域，用于开发和评估基于图的叙事理解与提取模型。研究者可利用该数据集训练模型，学习从新闻文本中自动识别关键经济事件并推断其因果关联。数据集提供的多层次标注可靠性分析，包括基于宽松、中等、严格等不同距离度量的评估结果，为模型性能的全面评估提供了基准。具体而言，标注图可被转化为三元组集合进行处理，模型输出可与人工标注的图结构进行比较，使用如杰卡德距离或图编辑距离等指标衡量相似性。此外，数据集中标注者间存在变异的部分，可用于研究叙事解读的多样性与模型鲁棒性。数据集的分类体系与标注方法论，也为在其他领域构建类似的叙事图数据集提供了可借鉴的范本。

背景与挑战

背景概述

通胀叙事有向无环图标注数据集由汉堡大学与吕讷堡大学的研究团队于2024年构建，旨在为经济学与计算语言学交叉领域提供结构化叙事分析资源。该数据集以新闻语料为基础，采用有向无环图形式标注通胀事件间的因果关系，核心研究问题在于如何系统性地捕捉并量化新闻叙事中复杂的经济因果结构。其创新性在于首次将社会科学中广泛使用的定性内容分析方法引入自然语言处理标注流程，通过迭代式编码框架提升标注的严谨性与可解释性。该数据集的建立为经济叙事计算分析、媒体影响力研究以及因果推理模型提供了基准数据，推动了叙事理解从定性描述向结构化建模的范式转变。

当前挑战

该数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面，叙事图标注需解决事件抽取与因果关联的双重复杂性：新闻文本中的经济事件常以隐含或间接方式表达，且因果关系的判定高度依赖领域知识与语境解读，导致标注存在显著的人类标签变异现象。在构建过程中，研究团队需克服三大难题：一是标注指南与类别系统的动态优化，需通过多轮试点研究迭代修正模糊类别定义；二是长文档标注的认知负荷管理，通过引入预标注模型降低人工负担；三是图结构标注的评估标准化缺失，需设计多粒度距离度量体系以区分标注误差与合理语义变异，从而在覆盖度与一致性间取得平衡。

常用场景

经典使用场景

在自然语言处理与计算社会科学交叉领域，通胀叙事有向无环图标注数据集为叙事结构分析提供了基准资源。该数据集通过将新闻文本中的通胀叙事建模为有向无环图，其中节点代表经济事件，边编码因果关联，使得研究者能够系统性地探究媒体叙事如何构建公众对通胀成因的认知。这一标注框架尤其适用于训练和评估基于图的叙事提取模型，例如从大规模新闻语料中自动识别事件及其因果链条，从而深化对叙事传播机制的理解。

衍生相关工作

该数据集的发布催生了一系列围绕图结构叙事表示与评估的经典研究工作。例如，后续研究扩展了其方法论，将定性内容分析更深入地整合到机器学习标注流程中，以处理其他领域的叙事（如气候变化、政治竞选）。同时，受其采用的多种距离度量（宽松、中等、严格）启发，学界发展出更精细的图相似性评估指标，用于比较叙事图的结构与语义。此外，该数据集也促进了关于如何从复杂叙事图中自动识别“核心故事”元素的研究，推动了叙事理解模型向更具解释性的方向发展。

数据集最近研究