five

pie/aae2

收藏
Hugging Face2025-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pie/aae2
下载链接
链接失效反馈
官方服务:
资源简介:
AAE2数据集是一个包含学生议论文的语料库,标注了论点结构,包括主要主张、主张和前提,以及它们之间的关系。数据集用于论证挖掘、组件识别、组件分类和结构识别等任务。数据集的创建是为了支持论证性写作系统,并更好地理解论证结构。数据集的语言为英语,包含402篇议论文,分为训练集和测试集。

AAE2数据集是一个包含学生议论文的语料库,标注了论点结构,包括主要主张、主张和前提,以及它们之间的关系。数据集用于论证挖掘、组件识别、组件分类和结构识别等任务。数据集的创建是为了支持论证性写作系统,并更好地理解论证结构。数据集的语言为英语,包含402篇议论文,分为训练集和测试集。
提供机构:
pie
原始信息汇总

PIE Dataset Card for "aae2"

数据集概述

Argument Annotated Essays Corpus (AAEC) 包含学生撰写的议论文。每个议论文表达一个关于争议主题的立场,通过主要论点(Major Claim)、论点(Claim)和前提(Premise)来支持或反驳。攻击和支持标签定义为关系。所有组件都按照 AAEC 标注指南进行标注,不包括所谓的“外壳”语言,如 On the other handHence。每个段落内的论证树结构是完整的,因此可以对整个文档或仅在段落级别进行模型训练,后者通常更节省内存。

支持的任务和排行榜

  • 任务: 论证挖掘、组件识别、组件分类、结构识别
  • 排行榜: 需要更多信息

语言

数据集中的语言为英语(议论文)。

数据集变体

aae2 数据集有一个版本 (default),文档类型为 BratDocumentWithMergedSpans。这与基础的 brat 数据集不同,后者 default 版本的文档类型为 BratDocument。原因是 AAE2 数据集已经发布,只包含单片段跨度,无需合并片段,BratDocumentWithMergedSpans 类型更易于处理大多数任务模块。

数据模式

参见 PIE-Brat Data Schema

使用示例

python from pie_datasets import load_dataset, builders

加载默认版本

datasets = load_dataset("pie/aae2") doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocumentWithMergedSpans)

数据分割

统计数据 训练 测试
文档数量 322 80
组件 <br/>- MajorClaim<br/>- Claim<br/>- Premise <br/>598<br/>1202<br/>3023 <br/>153<br/>304<br/>809
关系*<br/>- supports<br/>- attacks <br/>3820<br/>405 <br/>1021<br/>92
  • 包括所有论点和前提之间的关系以及所有论点归属。

标签描述

组件

组件 数量 百分比
MajorClaim 751 12.3%
Claim 1506 24.7%
Premise 3832 62.9%
  • MajorClaim 是论证结构的根节点,代表作者对主题的立场。文章主体要么支持要么攻击作者在主要论点中表达的立场。主要论点可以在单个文档中多次提及。
  • Claim 构成每个论证的中心组件。每个论点至少有一个前提,并采取“支持”或“反对”的立场属性值,相对于主要论点。
  • Premise 是论证的理由;要么链接到论点或另一个前提。

注意 MajorClaimClaim 之间的关系未标注;然而,每个论点都标注了一个值为“支持”或“反对”的 Attribute 标注,这表明了其与 MajorClaim 的关系。此外,当两个不相关的 Claim 出现在一个段落中时,它们之间也没有关系。

关系

关系 数量 百分比
支持: supports 3613 94.3%
攻击: attacks 219 5.7%
  • 每个前提 p 有一个出站关系(即有一个关系以 p 为源组件),没有或多个入站关系(即可以有一个关系以 p 为目标组件)。
  • Claim 可以展示多个入站关系,但没有出站关系
  • 从论证的论点到主要论点的关系是虚线,因为我们不会明确标注它们。每个论证与主要论点的关系由每个论点的立场属性指示。这个属性可以是支持或反对,如图1.4所示。

文档转换器

数据集提供以下目标文档类型的文档转换器:

  • pytorch_ie.documents.TextDocumentWithLabeledSpansAndBinaryRelations 带有以下层:
    • labeled_spans: LabeledSpan 标注,从 BratDocumentWithMergedSpansspans 转换而来
      • 标签: MajorClaim, Claim, Premise
    • binary_relations: BinaryRelation 标注,从 BratDocumentWithMergedSpansrelations 转换而来
      • 有两种转换方法将 Claim 属性转换为其与 MajorClaim 的关系:
        • connect_first (默认设置):
          • 根据 Claim 的属性(支持或反对),从每个 Claim 构建一个 supportsattacks 关系到第一个 MajorClaim,并且
          • 在后续的 MajorClaim 和第一个 MajorClaim 之间构建一个 semantically_same 关系
        • connect_all
          • 从每个 Claim 构建一个 supportsattacks 关系到每个 MajorClaim
          • 没有 MajorClaim 之间的关系
      • 标签: supports, attacks, 如果使用 connect_first 还有 semantically_same
  • pytorch_ie.documents.TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions 带有以下层:
    • labeled_spans, 如上
    • binary_relations, 如上
    • labeled_partitions, LabeledSpan 标注,从 BratDocumentWithMergedSpanstext 在新行 ( ) 处分割创建。
      • 每个分区标记为 paragraph

文档转换后的标签统计

BratDocumentWithMergedSpan 转换到 TextDocumentWithLabeledSpansAndBinaryRelationsTextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions 时,我们应用了一种关系转换方法(见上文),这改变了关系的标签计数,如下所示:

  1. connect_first (默认):
关系 数量 百分比
支持: supports 4841 85.1%
攻击: attacks 497 8.7%
其他: semantically_same 349 6.2%
  1. connect_all
关系 数量 百分比
支持: supports 5958 89.3%
攻击: attacks 715 10.7%
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个论证注释论文数据集(AAE2),包含学生论文中的主要论点、主张和前提等组件的标注信息,以及它们之间的支持或攻击关系。数据集基于BRAT标注格式,适用于论证挖掘和结构识别等任务,语言为英语。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作