argument_mining_de

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/samirmsallem/argument_mining_de

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个德语文本分类数据集，包含来自计算机科学与信息系统领域科学和学术文本结论部分的句子。每个句子都被标注为六个细粒度类别之一，用于话语和论证结构分析，包括主张、反主张、连接、结论、未来展望和其他类型。

创建时间：

2025-05-28

原始信息汇总

数据集概述：Argument Mining DE

数据集基本信息

任务类别：文本分类
语言：德语（de）
管道标签：text-classification

数据集内容

来源：科学和学术文本（计算机科学与信息系统领域）的结论部分
标注类型：六种细粒度类别
- CLAIM：主要观点或断言
- COUNTERCLAIM：挑战先前观点的陈述
- LINK：连接结论与前文部分的句子
- CONC：总结工作或推导结论的陈述
- FUT：展望、建议或未来工作
- OTH：其他不符合上述类别的句子（如填充、过渡、元数据）

数据结构

格式：JSON对象
- satz：句子文本
- label：分类标签
字段说明：
- text：样本的完整文本
- label：文本分类标签（数值）
- label_text：文本分类标签（文本）

标签映射表

数值标签	文本标签
0	CLAIM
1	COUNTERCLAIM
2	LINK
3	CONC
4	FUT
5	OTH

数据划分

训练集	测试集
582	146

版权信息

生成方式：由ChatGPT（2025）合成生成
用途：用户开发科学结论句子分类模型

搜集汇总

数据集介绍

构建方式

在计算语言学与论证挖掘领域，德语论证挖掘数据集通过合成生成技术构建而成。该数据集借助ChatGPT模型，依据计算机科学与信息系统学科中学术文本的结论部分句式特征，自动生成并标注了六种细粒度论证类别。每一句子均经过结构化处理，以JSON格式存储，确保了数据的一致性与可扩展性。

特点

该数据集专注于德语学术文本，涵盖CLAIM、COUNTERCLAIM、LINK、CONC、FUT与OTH六类论证标签，具有高度的领域特异性和语言一致性。其规模适中，包含728条样本，划分为训练集与测试集，适用于小样本学习与模型验证。标签体系设计科学，反映了论证结构中不同功能单元的分布与关联。

使用方法

使用者可借助该数据集进行德语文本分类任务的模型训练与评估，尤其适用于论证结构分析与学术写作辅助工具的开发。数据以标准JSON格式提供，支持直接加载至主流机器学习框架。用户需依据标签映射表处理分类输出，并可利用测试集进行性能验证与模型比较。

背景与挑战

背景概述

论证挖掘作为计算语言学的重要分支，旨在自动识别和分析文本中的论证结构。Argument Mining DE数据集由研究者于2025年通过合成生成技术构建，专注于德语计算机科学与信息系统领域的学术文本结论部分。该数据集采用六类细粒度标注体系（CLAIM、COUNTERCLAIM、LINK、CONC、FUT、OTH），为德语论证结构分析提供了首个专门标注资源，推动了跨语言论证挖掘模型的发展。

当前挑战

该数据集核心挑战在于解决德语学术文本中论证成分的自动分类问题，特别是区分具有细微语义差异的论证类型（如主张与反主张）。构建过程中面临合成数据真实性验证的挑战，需确保机器学习生成的句子既符合学术写作规范，又保持论证结构的逻辑连贯性。此外，德语复杂的语法结构与长距离依赖关系对标注一致性与模型泛化能力提出了更高要求。

常用场景

经典使用场景

在计算语言学和信息系统的学术研究中，该数据集被广泛用于德语论证结构的自动识别与分析。研究者通过监督学习模型对科学文献结论部分的句子进行细粒度分类，从而揭示学术文本中论点提出、反驳、衔接及结论推导的内在逻辑结构。

衍生相关工作

基于该数据集衍生的经典工作包括德语预训练语言模型的微调研究，如GermanBERT在论证分类任务上的性能优化。此外，它还促进了跨语言论证挖掘方法的比较研究，以及结合图神经网络和序列标注的混合模型在德语学术文本处理中的应用探索。

数据集最近研究