Appropriateness Corpus

github2023-09-25 更新2024-05-31 收录

下载链接：

https://github.com/timonziegenbein/appropriateness-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Appropriateness Corpus是一个包含2191个论点的集合，这些论点被标注为适当的及其子维度，如毒性情绪、缺失承诺、缺失可理解性等。数据集旨在评估论点的语言风格是否支持创建信誉和情感，以及是否与讨论的问题成比例。

The Appropriateness Corpus is a collection of 2,191 arguments annotated for appropriateness and its sub-dimensions, such as toxic sentiment, lack of commitment, and lack of comprehensibility. The dataset is designed to evaluate whether the linguistic style of arguments supports the creation of credibility and emotion, and whether it is proportionate to the issues under discussion.

创建时间：

2023-05-24

原始信息汇总

数据集概述

数据集名称

Appropriateness Corpus

数据集内容

描述: 该数据集包含2191个论点，这些论点被标注为适当的及其子维度。
数据格式: CSV文件，具体文件名为appropriateness_corpus_conservative.csv。

数据集用途

研究目的: 用于支持论文《Modeling Appropriate Language in Argumentation》中关于论点适当性的研究。

数据集结构

标注维度:
- Toxic Emotions (TE): 论点中的情绪是否具有欺骗性或强度不当。
- Missing Commitment (MC): 论点是否缺乏对问题的认真态度或开放性。
- Missing Intelligibility (MI): 论点是否难以理解或与问题无关。
- Other Reasons (OR): 论点是否因严重的拼写错误或其他未分类原因而不适当。

数据集获取

获取方式: 数据集可通过此链接下载。

引用信息

引用文献: Modeling Appropriate Language in Argumentation (Ziegenbein et al., ACL 2023)

搜集汇总

数据集介绍

构建方式

Appropriateness Corpus的构建过程基于对2191个论点的详细标注，这些标注涵盖了论点适当性及其子维度。数据集的构建始于从多个来源收集未标注的论点，随后通过定制的标注界面进行人工标注。标注过程中，研究者们遵循了一套严格的标注指南，确保每个论点的适当性及其子维度得到准确评估。此外，数据集还通过计算标注者间的一致性来保证标注质量，最终生成了一个高质量的标注数据集。

特点

Appropriateness Corpus的特点在于其细致的标注体系，涵盖了论点适当性的多个子维度，包括情感毒性、承诺缺失、可理解性缺失等。每个子维度下又细分为具体的类别，如情感强度过度、情感欺骗、缺乏严肃性等。这种多维度的标注方式使得数据集能够全面反映论点在语言风格上的适当性。此外，数据集还提供了详细的标注指南和标注者间的一致性分析，确保了数据的可靠性和可解释性。

使用方法

Appropriateness Corpus的使用方法较为灵活，用户可以通过Hugging Face平台直接获取数据集和预训练模型。数据集以CSV格式提供，便于用户进行数据分析和模型训练。用户还可以利用提供的源代码复现论文中的实验结果，包括标注界面的使用、模型训练与评估、标注者一致性分析等。此外，数据集的使用需引用相关论文，以确保学术规范的遵循。

背景与挑战

背景概述

Appropriateness Corpus数据集由Ziegenbein等研究人员于2023年发布，旨在支持自然语言处理领域中关于论证语言适切性的研究。该数据集包含2191条经过标注的论证文本，标注内容涵盖了适切性及其多个子维度，如情感毒性、承诺缺失和可理解性缺失等。这些标注基于Wachsmuth等人（2017）提出的适切性定义，即论证语言应支持可信度和情感的建立，并与议题相称。该数据集的发布为研究论证语言的适切性提供了重要资源，推动了相关领域的研究进展。

当前挑战

Appropriateness Corpus数据集在构建过程中面临多重挑战。首先，适切性本身是一个高度主观的概念，其定义和标注标准需要经过反复验证和调整，以确保标注的一致性和可靠性。其次，情感毒性、承诺缺失和可理解性缺失等子维度的复杂性增加了标注难度，要求标注者具备较高的语言理解和分析能力。此外，数据集的构建还需要处理大量文本数据，确保其多样性和代表性，以支持模型的泛化能力。这些挑战不仅体现在数据标注过程中，也影响了后续模型的训练和评估，使得适切性预测成为一个复杂的研究问题。

常用场景

经典使用场景

在自然语言处理领域，Appropriateness Corpus 数据集被广泛应用于论证语言适切性的研究。通过该数据集，研究者能够深入分析论证文本中的语言风格、情感表达和逻辑结构，从而评估其在特定语境下的适切性。这一数据集为开发自动评估论证质量的模型提供了丰富的训练和测试数据。

实际应用

在实际应用中，Appropriateness Corpus 数据集被用于开发智能辩论系统和在线讨论平台的内容审核工具。通过分析论证文本的适切性，这些系统能够自动识别并过滤不恰当的言论，提升讨论的质量和效率。此外，该数据集还被用于教育领域，帮助学生理解和掌握论证中的语言适切性。

衍生相关工作

基于 Appropriateness Corpus 数据集，研究者们开发了多种论证质量评估模型，如多标签分类器和情感分析模型。这些模型不仅能够自动评估论证的适切性，还能识别论证中的情感毒性和逻辑缺陷。此外，该数据集还催生了一系列关于论证语言适切性的理论研究，进一步推动了自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集