pie/sciarg

Hugging Face2025-09-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pie/sciarg

下载链接

链接失效反馈

官方服务：

资源简介：

SciArg数据集是Dr. Inventor语料库的扩展，包含细粒度的论证组件和关系注释，旨在结合其他修辞方面研究论证。它是第一个公开可用的科学出版物（英文）论证注释语料库，允许对论证和科学写作的其他修辞维度进行联合分析。数据集包含40个文档，主要用于论证挖掘、组件识别和关系识别任务。数据集有两个版本：`default`和`resolve_parts_of_same`，分别使用`BratDocumentWithMergedSpans`和`BratDocument`作为文档类型。

提供机构：

pie

原始信息汇总

数据集概述

数据集简介

SciArg数据集是Dr. Inventor语料库的扩展，包含细粒度的论证组件和关系标注。该数据集是首个公开的英语科学出版物论证标注语料库，允许对论证和其他修辞维度进行联合分析。

支持任务和排行榜

任务: 论证挖掘、组件识别、关系识别
排行榜: 需要更多信息

语言

数据集中的语言为英语（科学学术出版物，特别是计算机图形学领域）。

数据集变体

SciArg数据集有两个版本：

default版本：使用BratDocumentWithMergedSpans作为文档类型。
resolve_parts_of_same版本：使用BratDocument作为文档类型。

数据模式

数据模式遵循PIE-Brat数据集卡中的定义。

使用示例

python from pie_datasets import load_dataset, builders

加载默认版本

datasets = load_dataset("pie/sciarg") doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocumentWithMergedSpans)

加载resolve_parts_of_same版本

datasets = load_dataset("pie/sciarg", name=resolve_parts_of_same) doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocument)

数据分割

数据集包含一个train分割，包含40个文档。

标签描述和统计

组件

`default`版本

组件	数量	百分比
`background_claim`	3291	24.2%
`own_claim`	6004	44.2%
`data`	4297	31.6%
总计	13592	100.0%

`resolve_parts_of_same`版本

组件	数量	百分比
`background_claim`	2752	22.4%
`own_claim`	5450	44.3%
`data`	4093	33.3%
总计	12295	100.0%

关系

`default`版本

关系	数量	百分比
support: `support`	5789	74.0%
attack: `contradict`	696	8.9%
other: `semantically_same`	44	0.6%
other: `parts_of_same`	1298	16.6%
总计	7827	100.0%

`resolve_parts_of_same`版本

关系	数量	百分比
support: `support`	5788	88.7%
attack: `contradict`	696	10.7%
other: `semantically_same`	44	0.7%
总计	6528	100.0%

文档转换器

数据集提供以下目标文档类型的文档转换器：

`default`版本

pie_modules.documents.TextDocumentWithLabeledSpansAndBinaryRelations
pie_modules.documents.TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions

`resolve_parts_of_same`版本

pie_modules.documents.TextDocumentWithLabeledMultiSpansAndBinaryRelations
pie_modules.documents.TextDocumentWithLabeledMultiSpansBinaryRelationsAndLabeledPartitions

数据集创建

数据收集和规范化

从计算机图形学领域的专家提供的较大集合中随机选择了40个PDF格式的文档。

标注过程

标注过程包括五个迭代阶段的校准阶段，使用BRAT快速标注工具进行标注。

标注者

标注团队包括一名计算语言学专家和三名非专家标注者（人文学科和社会科学学者）。

使用数据集的考虑

社会影响

数据集支持基于学习的模型，用于自动分析科学出版物，潜在地促进对科学语言不同修辞方面的更好理解。

偏见讨论

数据集中存在一些偏见，例如支持关系远多于对立关系，以及论证组件的长度差异。

其他已知限制

标注一致性在论证关系上比组件识别上低23%，这可能是由于论证结构的模糊性。

附加信息

数据集维护者

数据集维护者包括@ArneBinder和@idalr。

许可信息

数据集采用MIT许可证。

引用信息

@inproceedings{lauscher2018b, title = {An argument-annotated corpus of scientific publications}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Ponzetto, Simone Paolo}, address = {Brussels, Belgium}, year = {2018}, pages = {40–46} }

@inproceedings{lauscher2018a, title = {ArguminSci: A Tool for Analyzing Argumentation and Rhetorical Aspects in Scientific Writing}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Eckert, Kai}, address = {Brussels, Belgium}, year = {2018}, pages = {22–28} }

搜集汇总

数据集介绍

构建方式

在科学文献论证挖掘领域，SciArg数据集的构建体现了严谨的学术规范。该数据集以Dr. Inventor语料库为基础，选取了计算机图形学领域内皮肤模拟、运动捕捉、流体仿真和布料仿真四个主题下共40篇代表性学术论文。构建过程中，研究团队招募了包括一名计算语言学专家在内的四名标注者，通过五轮校准迭代进行标注训练，每轮结束后均计算标注者间一致性并修订标注指南，以确保标注质量。标注工作借助BRAT快速标注工具完成，最终形成了包含细粒度论证成分与关系的结构化语料。

特点

SciArg数据集作为首个公开的英文科学文献论证标注语料库，其核心特点在于融合了论证结构与其他修辞维度的联合分析。数据集精细标注了三种论证成分：与作者自身工作紧密相关的‘own_claim’、涉及研究背景的‘background_claim’以及作为证据的‘data’。同时，它定义了支持、反驳等论证性关系，并引入了‘semantically_same’和‘parts_of_same’等非论证性关系以处理成分共指与碎片化问题。数据集提供了‘default’和‘resolve_parts_of_same’两种变体，前者保留了由空格分隔的碎片化成分并通过关系标记，后者则将它们合并为多跨度单元，以适应不同的建模需求。

使用方法

该数据集通过PyTorch-IE框架进行封装，便于研究人员直接调用。使用时可从pie_datasets库中加载‘pie/sciarg’数据集，默认加载的版本文档类型为BratDocumentWithMergedSpans。若需处理合并后的多跨度成分，可指定加载‘resolve_parts_of_same’版本。数据集支持转换为多种标准文档类型，例如TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions，以适配不同的任务模块。加载后，用户可直接访问文档中的文本、标注跨度及二元关系，进行论证成分识别、关系分类等任务的模型训练与评估。

背景与挑战

背景概述

在科学文献计算分析日益重要的背景下，SciArg数据集由Lauscher等人于2018年创建，作为Dr. Inventor语料库的扩展，旨在填补科学出版物细粒度论证结构标注资源的空白。该数据集由计算机图形学领域的40篇学术论文构成，标注了背景主张、自身主张和数据三类论证成分，以及支持、反驳等论证关系。其核心研究问题聚焦于论证挖掘与科学修辞的联合分析，推动了科学文本计算论证分析领域的发展，为基于学习的模型提供了关键资源。

当前挑战

SciArg数据集致力于解决科学文本论证挖掘的挑战，包括从复杂学术语言中精准识别论证成分及其关系，以及处理论证结构与修辞维度的交互。在构建过程中，面临标注一致性难题，需通过多轮校准迭代提升标注者间一致性；同时，论证成分的间断性分布导致标注碎片化，需借助`parts_of_same`关系进行整合，增加了数据处理复杂度。此外，数据规模有限且领域特定，可能影响模型的泛化能力。

常用场景

经典使用场景

在科学文献修辞分析领域，SciArg数据集作为首个公开的英文科学出版物细粒度论证结构标注语料库，其经典使用场景聚焦于论证挖掘任务。研究者借助该数据集，能够系统识别科学文本中的论证成分，如背景主张、自身主张及数据证据，并解析其间的支持与反驳关系。这种精细标注为自然语言处理模型提供了训练基础，使得机器能够自动抽取出学术论文中的论证框架，进而深化对科学写作修辞模式的理解。

衍生相关工作

围绕SciArg数据集，已衍生出一系列经典研究工作。例如，多项研究利用该数据训练序列标注与关系抽取模型，以提升论证成分与关系的识别精度；另有工作将其与Dr. Inventor语料库的其他修辞标注结合，探索多任务学习框架下的科学修辞联合建模。这些研究不仅推动了论证挖掘技术的发展，还促进了如PyTorch-IE等标注数据处理工具链的完善，形成了从数据构建到模型应用的完整研究生态。

数据集最近研究

pie/sciarg

数据集概述

数据集简介

支持任务和排行榜

语言

数据集变体

数据模式

使用示例

加载默认版本

加载resolve_parts_of_same版本

数据分割

标签描述和统计

组件

default版本

resolve_parts_of_same版本

关系

default版本

resolve_parts_of_same版本

文档转换器

default版本

resolve_parts_of_same版本

数据集创建

数据收集和规范化

标注过程

标注者

使用数据集的考虑

社会影响

偏见讨论

其他已知限制

附加信息

数据集维护者

许可信息

引用信息

`default`版本

`resolve_parts_of_same`版本

`default`版本

`resolve_parts_of_same`版本

`default`版本

`resolve_parts_of_same`版本