DFKI-SLT/argmicro
收藏Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/argmicro
下载链接
链接失效反馈官方服务:
资源简介:
argmicro数据集包含112篇短篇论证文本,这些文本最初用德语撰写,并已专业翻译成英语。数据集基于Freeman和Toulmin的论证理论,包含支持(pro)和反对(opp)组件以及六种关系类型:seg(段落)、add(补充)、exa(示例)、reb(反驳)、sup(支持)和und(削弱)。数据集还引入了基于段落的跨度,以覆盖整个文本。数据集支持的任务包括结构预测、关系识别、中心主张识别、角色分类和功能分类。数据集的创建过程包括文本的收集、校正和注释,所有文本均由专家注释者进行注释,并经过检查和讨论以确保准确性。
提供机构:
DFKI-SLT
原始信息汇总
数据集概述
数据集名称: argmicro
数据集描述:
arg-microtexts corpus 包含112篇短的辩论性文本。所有文本最初以德语编写,并由专业翻译人员翻译成英语。该数据集基于Freeman的论证宏观结构理论和Toulmin的图解技术,包含pro(支持者)和opp(反对者)组件以及六种关系类型:seg(段落)、add(添加)、exa(例子)、reb(反驳)、sup(支持)和und(削弱)。
支持的任务:
- 结构预测
- 关系识别
- 中心主张识别
- 角色分类
- 功能分类
语言:
- 德语,附带英语翻译
数据集结构
数据实例:
- 下载的数据集文件大小: 2.89 MB
数据字段:
id: 文档实例ID,字符串类型topic_id: 文档主题,字符串类型stance: 对主题的立场索引,整数类型text: 文档内容,字符串类型edus: 基本话语单元,文本分段跨度id: EDUs实例ID,字符串列表start: 跨度起始索引,整数列表end: 跨度结束索引,整数列表
adus: 辩论性话语单元,基于EDUs的辩论相关主张id: ADUs实例ID,字符串列表type: ADU类型索引,整数列表
edges:adus之间的关联或adus与其他edges的关联id: 边实例ID,字符串列表src: 关系中的源元素ID,字符串列表trg: 关系中的目标元素ID,字符串列表type: 边类型索引,整数列表
数据分割:
- 训练集: 112个实例
- 平均每个实例的句子数: 5.1
数据标签:
立场
| 立场 | 计数 | 百分比 |
|---|---|---|
pro |
46 | 41.1% |
con |
42 | 37.5% |
unclear |
1 | 0.9% |
UNDEFINED |
23 | 20.5% |
ADUs
| ADUs | 计数 | 百分比 |
|---|---|---|
pro |
451 | 78.3% |
opp |
125 | 21.7% |
关系
| 关系 | 计数 | 百分比 |
|---|---|---|
支持: sup |
281 | 55.2% |
支持: exa |
9 | 1.8% |
攻击: und |
65 | 12.8% |
攻击: reb |
110 | 21.6% |
其他: joint |
44 | 8.6% |
数据集创建
源数据:
- 23篇文本由作者Andreas Peldszus编写
- 90篇文本通过控制文本生成实验收集
初始数据收集和规范化:
- 112篇“微文本”响应触发问题编写
- 文本经过拼写和语法错误校正
注释过程:
- 所有文本均按照Peldszus & Stede提出的方案进行辩论结构注释
- 注释由一位专家完成,争议实例由两位或更多专家讨论
注释者:
- 信息待补充
个人和敏感信息:
- 信息待补充
许可证信息
arg-microtexts corpus 根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License发布。



