pie/aae2
收藏PIE Dataset Card for "aae2"
数据集概述
Argument Annotated Essays Corpus (AAEC) 包含学生撰写的议论文。每个议论文表达一个关于争议主题的立场,通过主要论点(Major Claim)、论点(Claim)和前提(Premise)来支持或反驳。攻击和支持标签定义为关系。所有组件都按照 AAEC 标注指南进行标注,不包括所谓的“外壳”语言,如 On the other hand 和 Hence。每个段落内的论证树结构是完整的,因此可以对整个文档或仅在段落级别进行模型训练,后者通常更节省内存。
支持的任务和排行榜
- 任务: 论证挖掘、组件识别、组件分类、结构识别
- 排行榜: 需要更多信息
语言
数据集中的语言为英语(议论文)。
数据集变体
aae2 数据集有一个版本 (default),文档类型为 BratDocumentWithMergedSpans。这与基础的 brat 数据集不同,后者 default 版本的文档类型为 BratDocument。原因是 AAE2 数据集已经发布,只包含单片段跨度,无需合并片段,BratDocumentWithMergedSpans 类型更易于处理大多数任务模块。
数据模式
使用示例
python from pie_datasets import load_dataset, builders
加载默认版本
datasets = load_dataset("pie/aae2") doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocumentWithMergedSpans)
数据分割
| 统计数据 | 训练 | 测试 |
|---|---|---|
| 文档数量 | 322 | 80 |
组件 <br/>- MajorClaim<br/>- Claim<br/>- Premise |
<br/>598<br/>1202<br/>3023 | <br/>153<br/>304<br/>809 |
关系*<br/>- supports<br/>- attacks |
<br/>3820<br/>405 | <br/>1021<br/>92 |
- 包括所有论点和前提之间的关系以及所有论点归属。
标签描述
组件
| 组件 | 数量 | 百分比 |
|---|---|---|
MajorClaim |
751 | 12.3% |
Claim |
1506 | 24.7% |
Premise |
3832 | 62.9% |
MajorClaim是论证结构的根节点,代表作者对主题的立场。文章主体要么支持要么攻击作者在主要论点中表达的立场。主要论点可以在单个文档中多次提及。Claim构成每个论证的中心组件。每个论点至少有一个前提,并采取“支持”或“反对”的立场属性值,相对于主要论点。Premise是论证的理由;要么链接到论点或另一个前提。
注意 MajorClaim 和 Claim 之间的关系未标注;然而,每个论点都标注了一个值为“支持”或“反对”的 Attribute 标注,这表明了其与 MajorClaim 的关系。此外,当两个不相关的 Claim 出现在一个段落中时,它们之间也没有关系。
关系
| 关系 | 数量 | 百分比 |
|---|---|---|
支持: supports |
3613 | 94.3% |
攻击: attacks |
219 | 5.7% |
- 每个前提
p有一个出站关系(即有一个关系以p为源组件),没有或多个入站关系(即可以有一个关系以p为目标组件)。 Claim可以展示多个入站关系,但没有出站关系。- 从论证的论点到主要论点的关系是虚线,因为我们不会明确标注它们。每个论证与主要论点的关系由每个论点的立场属性指示。这个属性可以是支持或反对,如图1.4所示。
文档转换器
数据集提供以下目标文档类型的文档转换器:
pytorch_ie.documents.TextDocumentWithLabeledSpansAndBinaryRelations带有以下层:labeled_spans:LabeledSpan标注,从BratDocumentWithMergedSpans的spans转换而来- 标签:
MajorClaim,Claim,Premise
- 标签:
binary_relations:BinaryRelation标注,从BratDocumentWithMergedSpans的relations转换而来- 有两种转换方法将
Claim属性转换为其与MajorClaim的关系:connect_first(默认设置):- 根据
Claim的属性(支持或反对),从每个Claim构建一个supports或attacks关系到第一个MajorClaim,并且 - 在后续的
MajorClaim和第一个MajorClaim之间构建一个semantically_same关系
- 根据
connect_all- 从每个
Claim构建一个supports或attacks关系到每个MajorClaim - 没有
MajorClaim之间的关系
- 从每个
- 标签:
supports,attacks, 如果使用connect_first还有semantically_same
- 有两种转换方法将
pytorch_ie.documents.TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions带有以下层:labeled_spans, 如上binary_relations, 如上labeled_partitions,LabeledSpan标注,从BratDocumentWithMergedSpans的text在新行 () 处分割创建。- 每个分区标记为
paragraph
- 每个分区标记为
文档转换后的标签统计
从 BratDocumentWithMergedSpan 转换到 TextDocumentWithLabeledSpansAndBinaryRelations 和 TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions 时,我们应用了一种关系转换方法(见上文),这改变了关系的标签计数,如下所示:
connect_first(默认):
| 关系 | 数量 | 百分比 |
|---|---|---|
支持: supports |
4841 | 85.1% |
攻击: attacks |
497 | 8.7% |
其他: semantically_same |
349 | 6.2% |
connect_all
| 关系 | 数量 | 百分比 |
|---|---|---|
支持: supports |
5958 | 89.3% |
攻击: attacks |
715 | 10.7% |




