pie/sciarg
收藏数据集概述
数据集简介
SciArg数据集是Dr. Inventor语料库的扩展,包含细粒度的论证组件和关系标注。该数据集是首个公开的英语科学出版物论证标注语料库,允许对论证和其他修辞维度进行联合分析。
支持任务和排行榜
- 任务: 论证挖掘、组件识别、关系识别
- 排行榜: 需要更多信息
语言
数据集中的语言为英语(科学学术出版物,特别是计算机图形学领域)。
数据集变体
SciArg数据集有两个版本:
default版本:使用BratDocumentWithMergedSpans作为文档类型。resolve_parts_of_same版本:使用BratDocument作为文档类型。
数据模式
数据模式遵循PIE-Brat数据集卡中的定义。
使用示例
python from pie_datasets import load_dataset, builders
加载默认版本
datasets = load_dataset("pie/sciarg") doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocumentWithMergedSpans)
加载resolve_parts_of_same版本
datasets = load_dataset("pie/sciarg", name=resolve_parts_of_same) doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocument)
数据分割
数据集包含一个train分割,包含40个文档。
标签描述和统计
组件
default版本
| 组件 | 数量 | 百分比 |
|---|---|---|
background_claim |
3291 | 24.2% |
own_claim |
6004 | 44.2% |
data |
4297 | 31.6% |
| 总计 | 13592 | 100.0% |
resolve_parts_of_same版本
| 组件 | 数量 | 百分比 |
|---|---|---|
background_claim |
2752 | 22.4% |
own_claim |
5450 | 44.3% |
data |
4093 | 33.3% |
| 总计 | 12295 | 100.0% |
关系
default版本
| 关系 | 数量 | 百分比 |
|---|---|---|
support: support |
5789 | 74.0% |
attack: contradict |
696 | 8.9% |
other: semantically_same |
44 | 0.6% |
other: parts_of_same |
1298 | 16.6% |
| 总计 | 7827 | 100.0% |
resolve_parts_of_same版本
| 关系 | 数量 | 百分比 |
|---|---|---|
support: support |
5788 | 88.7% |
attack: contradict |
696 | 10.7% |
other: semantically_same |
44 | 0.7% |
| 总计 | 6528 | 100.0% |
文档转换器
数据集提供以下目标文档类型的文档转换器:
default版本
pie_modules.documents.TextDocumentWithLabeledSpansAndBinaryRelationspie_modules.documents.TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions
resolve_parts_of_same版本
pie_modules.documents.TextDocumentWithLabeledMultiSpansAndBinaryRelationspie_modules.documents.TextDocumentWithLabeledMultiSpansBinaryRelationsAndLabeledPartitions
数据集创建
数据收集和规范化
从计算机图形学领域的专家提供的较大集合中随机选择了40个PDF格式的文档。
标注过程
标注过程包括五个迭代阶段的校准阶段,使用BRAT快速标注工具进行标注。
标注者
标注团队包括一名计算语言学专家和三名非专家标注者(人文学科和社会科学学者)。
使用数据集的考虑
社会影响
数据集支持基于学习的模型,用于自动分析科学出版物,潜在地促进对科学语言不同修辞方面的更好理解。
偏见讨论
数据集中存在一些偏见,例如支持关系远多于对立关系,以及论证组件的长度差异。
其他已知限制
标注一致性在论证关系上比组件识别上低23%,这可能是由于论证结构的模糊性。
附加信息
数据集维护者
数据集维护者包括@ArneBinder和@idalr。
许可信息
数据集采用MIT许可证。
引用信息
@inproceedings{lauscher2018b, title = {An argument-annotated corpus of scientific publications}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Ponzetto, Simone Paolo}, address = {Brussels, Belgium}, year = {2018}, pages = {40–46} }
@inproceedings{lauscher2018a, title = {ArguminSci: A Tool for Analyzing Argumentation and Rhetorical Aspects in Scientific Writing}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Eckert, Kai}, address = {Brussels, Belgium}, year = {2018}, pages = {22–28} }




