The Moralization Corpus

Name: The Moralization Corpus
Creator: 海德堡大学·德语语言学系; 海德堡大学·计算语言学系
Published: 2026-03-18 21:22:06
License: 暂无描述

arXiv2026-03-18 更新2026-03-20 收录

下载链接：

https://github.com/GS-Uni-Heidelberg/Paper-TheMoralizationCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库由海德堡大学研究团队开发，旨在分析论证性话语中道德价值的战略运用。数据集包含政治辩论、新闻文章和网络讨论等多类型德语文本，通过基于框架的标注方案系统捕捉道德化言论的核心要素——道德价值、诉求和话语主体。数据收集采用多语言道德词典DIMI进行文本片段检索，并经过六阶段标注流程确保质量，包括道德化识别、要素标注和专家复核等步骤。该资源可支持语言学、社会政治学等领域对道德修辞的跨学科研究，特别适用于分析道德论证如何影响公共话语。

This corpus was developed by a research team at Heidelberg University to analyze the strategic deployment of moral values in argumentative discourse. The dataset comprises various types of German texts including political debates, news articles, and online discussions, and systematically captures the core components of moralized discourse—moral values, appeals, and discourse participants—via a framework-based annotation scheme. For data collection, text segments were retrieved using the multilingual moral dictionary DIMI, and a six-stage annotation workflow was implemented to ensure data quality, including steps such as moralization identification, component annotation, and expert review. This resource supports interdisciplinary research on moral rhetoric in fields such as linguistics and sociopolitical science, and is particularly suitable for analyzing how moral arguments influence public discourse.

提供机构：

海德堡大学·德语语言学系; 海德堡大学·计算语言学系

创建时间：

2025-12-17

原始信息汇总

The Moralization Corpus 数据集概述

数据集基本信息

数据集名称：The Moralization Corpus
核心内容：一个用于分析论证性话语中道德价值如何被策略性使用的新型多体裁数据集。
研究背景：道德化论证是一种尚未被充分探索的说服性交流形式，其在语用上复杂且通常隐含，对人工标注者和NLP系统均构成重大挑战。

数据集构成与特点

标注方案：采用基于框架的标注方案，捕捉道德化的构成要素，包括道德价值、诉求和话语主角。
语言与体裁：数据集包含多样化的德语文本，体裁涵盖政治辩论、新闻文章和在线讨论。
分析维度：支持跨交流形式和领域的细粒度道德化语言分析。

数据文件与资源

已标注数据集：http://corpora.ids-mannheim.de/repo/moralization-corpus/
大语言模型预测结果：https://github.com/GS-Uni-Heidelberg/Paper-TheMoralizationCorpus/blob/main/data/predictions.json
标注者间一致性研究数据：https://github.com/GS-Uni-Heidelberg/Paper-TheMoralizationCorpus/blob/main/data/iaa-study_test-150.tsv
道德指示词词典：https://github.com/maria-becker/Moralization/tree/main/DiMi%20--%20Dictionary%20of%20Moral-Indicating%20Words

发布说明

发布内容：所有数据、标注指南和代码均已公开，旨在促进未来关于NLP中道德话语和道德推理的跨学科研究。

搜集汇总

数据集介绍

构建方式

在道德话语分析领域，构建一个能够捕捉道德化言语行为细微差别的数据集面临显著挑战。Moralization Corpus的构建采用了系统化的多阶段流程：首先，研究者开发了一个多语言道德指示词词典（DIMI），包含约3000个条目，用于从大型语料库和网络资源中检索包含道德词汇的文本片段。随后，从德语、英语、法语和意大利语的七种文本类型（如议会辩论、新闻评论、在线讨论等）中收集了约11,503个五句片段。核心在于设计了一个基于框架的标注方案，该方案将道德化操作化为三个相互关联的层次：道德价值（映射到道德基础理论）、显性或隐性要求、以及话语主角（包括其群体类型和话语角色）。标注过程经过精心设计，包含识别、试点、全面标注、复审、非道德实例重标和形式验证六个阶段，并采用多步裁决以应对任务固有的主观性，最终确保了数据的一致性与分析深度。

特点

该数据集的核心特征在于其多维度的分析框架与丰富的语料构成。其标注方案超越了简单的道德词汇识别，通过整合道德价值、要求与话语主角，形成了一个完整的道德化框架，使得研究者能够深入探究道德论说中价值主张、行为要求与社会角色之间的动态互动。数据覆盖了议会辩论、新闻评论、书信、访谈、法庭报告、维基百科讨论和非虚构书籍七种体裁，共计超过一万个实例，平均长度83个词符，确保了跨交际格式与领域的代表性。数据分布揭示了深刻洞见：例如，道德术语常以描述性而非策略性方式使用；显性与隐性要求在不同体裁中分布均衡；集体性主角（如制度与社会群体）作为受益者或诉求对象频繁出现，凸显了道德话语的社会集体导向。这些特征共同使该数据集成为研究道德修辞、论证策略和话语框架的独特资源。

使用方法

该数据集为跨学科研究提供了强大的实证基础。在语言学与话语分析领域，研究者可利用其细粒度标注，系统考察不同体裁中道德价值的修辞实现方式、隐性要求的表达策略以及主角角色的分配模式。在计算社会科学与自然语言处理领域，该数据集可作为基准，用于开发和评估道德化检测、道德框架解析等计算模型。论文中详细评估了多种大语言模型在不同提示条件下的表现，为模型优化提供了方向。使用数据集时，研究者可依据其划分的训练、开发和测试集进行模型训练与评估。数据集公开的标注指南、代码和资源支持重现性与扩展研究。值得注意的是，鉴于道德化任务的高度主观性与语境敏感性，在使用自动模型进行分析时，应结合详细的任务定义与人工验证，以准确把握道德论说的复杂性与微妙之处。

背景与挑战

背景概述

道德化语料库由海德堡大学德国语言学系与计算语言学系的研究团队于2026年创建，旨在系统性地分析道德价值如何在论辩性话语中被策略性地运用。该数据集的核心研究问题是填补自然语言处理领域对道德化现象——即通过援引道德价值来论证立场或要求——建模的空白。它采用基于框架的标注方案，捕捉道德价值、诉求与话语参与者三个构成要素，并应用于涵盖政治辩论、新闻报道与在线讨论等多种体裁的德语文本。这一资源的发布为跨学科研究道德话语与推理提供了重要的方法论基础，推动了计算社会科学与语言学在道德沟通分析方面的深度融合。

当前挑战

该数据集所针对的道德化检测任务面临双重挑战。在领域问题层面，道德化语言具有高度的语用复杂性与隐含性，其表达往往依赖于上下文推理与社会文化知识，而非显性的道德词汇，这使得自动系统难以准确识别道德价值与诉求之间的论证关联。在构建过程层面，标注工作面临着固有的主观性难题，因为道德判断深受个人观念与语境理解的影响，导致标注者间一致性较低。此外，数据收集需区分道德术语的描述性使用与策略性使用，并处理多体裁文本中道德化表达的显著差异，这些因素共同增加了构建高质量、可泛化数据集的难度。

常用场景

经典使用场景

在计算社会科学与自然语言处理的交叉领域，道德化语料库为系统分析道德修辞的语用模式提供了关键资源。该数据集最经典的使用场景在于探究道德价值如何被策略性地运用于论证性话语中，以支撑特定立场或诉求。研究者通过其框架式标注方案，能够精细解析道德化言论的构成要素——道德价值、诉求及话语主体，从而揭示道德论证在不同文本体裁中的实现方式与说服机制。

实际应用

在实际应用层面，道德化语料库为多个领域提供了分析工具与基准数据。在政治传播分析中，可用于追踪公共辩论中道德框架的使用模式与演变轨迹；在社交媒体内容审核中，有助于识别隐性的道德操纵与煽动性言论；在教育与论辩研究领域，则能辅助解析道德论证的结构与效果。此外，该资源为开发更敏感于语用细微差别的大型语言模型提供了训练与评估数据，推动可信人工智能系统的发展。

衍生相关工作

该数据集的发布催生了一系列围绕道德话语计算分析的衍生研究。在方法论层面，它推动了基于框架的道德标注范式的扩展，例如将道德基础理论与实体、事件信息相结合以学习道德相关文本表示的工作。在任务定义上，启发了对道德化检测、道德框架角色填充等细粒度任务的探索。相关研究还深入探讨了标注主观性的建模方法，以及利用链式思维提示改善模型对隐式道德论证理解的技术路径，共同丰富了计算道德学的研究图景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集