five

DFKI-SLT/argmicro

收藏
Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/argmicro
下载链接
链接失效反馈
官方服务:
资源简介:
argmicro数据集包含112篇短篇论证文本,这些文本最初用德语撰写,并已专业翻译成英语。数据集基于Freeman和Toulmin的论证理论,包含支持(pro)和反对(opp)组件以及六种关系类型:seg(段落)、add(补充)、exa(示例)、reb(反驳)、sup(支持)和und(削弱)。数据集还引入了基于段落的跨度,以覆盖整个文本。数据集支持的任务包括结构预测、关系识别、中心主张识别、角色分类和功能分类。数据集的创建过程包括文本的收集、校正和注释,所有文本均由专家注释者进行注释,并经过检查和讨论以确保准确性。
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

数据集名称: argmicro

数据集描述: arg-microtexts corpus 包含112篇短的辩论性文本。所有文本最初以德语编写,并由专业翻译人员翻译成英语。该数据集基于Freeman的论证宏观结构理论和Toulmin的图解技术,包含pro(支持者)和opp(反对者)组件以及六种关系类型:seg(段落)、add(添加)、exa(例子)、reb(反驳)、sup(支持)和und(削弱)。

支持的任务:

  • 结构预测
  • 关系识别
  • 中心主张识别
  • 角色分类
  • 功能分类

语言:

  • 德语,附带英语翻译

数据集结构

数据实例:

  • 下载的数据集文件大小: 2.89 MB

数据字段:

  • id: 文档实例ID,字符串类型
  • topic_id: 文档主题,字符串类型
  • stance: 对主题的立场索引,整数类型
  • text: 文档内容,字符串类型
  • edus: 基本话语单元,文本分段跨度
    • id: EDUs实例ID,字符串列表
    • start: 跨度起始索引,整数列表
    • end: 跨度结束索引,整数列表
  • adus: 辩论性话语单元,基于EDUs的辩论相关主张
    • id: ADUs实例ID,字符串列表
    • type: ADU类型索引,整数列表
  • edges: adus之间的关联或adus与其他edges的关联
    • id: 边实例ID,字符串列表
    • src: 关系中的源元素ID,字符串列表
    • trg: 关系中的目标元素ID,字符串列表
    • type: 边类型索引,整数列表

数据分割:

  • 训练集: 112个实例
  • 平均每个实例的句子数: 5.1

数据标签:

立场

立场 计数 百分比
pro 46 41.1%
con 42 37.5%
unclear 1 0.9%
UNDEFINED 23 20.5%

ADUs

ADUs 计数 百分比
pro 451 78.3%
opp 125 21.7%

关系

关系 计数 百分比
支持: sup 281 55.2%
支持: exa 9 1.8%
攻击: und 65 12.8%
攻击: reb 110 21.6%
其他: joint 44 8.6%

数据集创建

源数据:

  • 23篇文本由作者Andreas Peldszus编写
  • 90篇文本通过控制文本生成实验收集

初始数据收集和规范化:

  • 112篇“微文本”响应触发问题编写
  • 文本经过拼写和语法错误校正

注释过程:

  • 所有文本均按照Peldszus & Stede提出的方案进行辩论结构注释
  • 注释由一位专家完成,争议实例由两位或更多专家讨论

注释者:

  • 信息待补充

个人和敏感信息:

  • 信息待补充

许可证信息

arg-microtexts corpus 根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作