five

pie/sciarg

收藏
Hugging Face2025-09-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pie/sciarg
下载链接
链接失效反馈
官方服务:
资源简介:
SciArg数据集是Dr. Inventor语料库的扩展,包含细粒度的论证组件和关系注释,旨在结合其他修辞方面研究论证。它是第一个公开可用的科学出版物(英文)论证注释语料库,允许对论证和科学写作的其他修辞维度进行联合分析。数据集包含40个文档,主要用于论证挖掘、组件识别和关系识别任务。数据集有两个版本:`default`和`resolve_parts_of_same`,分别使用`BratDocumentWithMergedSpans`和`BratDocument`作为文档类型。

SciArg数据集是Dr. Inventor语料库的扩展,包含细粒度的论证组件和关系注释,旨在结合其他修辞方面研究论证。它是第一个公开可用的科学出版物(英文)论证注释语料库,允许对论证和科学写作的其他修辞维度进行联合分析。数据集包含40个文档,主要用于论证挖掘、组件识别和关系识别任务。数据集有两个版本:`default`和`resolve_parts_of_same`,分别使用`BratDocumentWithMergedSpans`和`BratDocument`作为文档类型。
提供机构:
pie
原始信息汇总

数据集概述

数据集简介

SciArg数据集是Dr. Inventor语料库的扩展,包含细粒度的论证组件和关系标注。该数据集是首个公开的英语科学出版物论证标注语料库,允许对论证和其他修辞维度进行联合分析。

支持任务和排行榜

  • 任务: 论证挖掘、组件识别、关系识别
  • 排行榜: 需要更多信息

语言

数据集中的语言为英语(科学学术出版物,特别是计算机图形学领域)。

数据集变体

SciArg数据集有两个版本:

  • default版本:使用BratDocumentWithMergedSpans作为文档类型。
  • resolve_parts_of_same版本:使用BratDocument作为文档类型。

数据模式

数据模式遵循PIE-Brat数据集卡中的定义。

使用示例

python from pie_datasets import load_dataset, builders

加载默认版本

datasets = load_dataset("pie/sciarg") doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocumentWithMergedSpans)

加载resolve_parts_of_same版本

datasets = load_dataset("pie/sciarg", name=resolve_parts_of_same) doc = datasets["train"][0] assert isinstance(doc, builders.brat.BratDocument)

数据分割

数据集包含一个train分割,包含40个文档。

标签描述和统计

组件

default版本

组件 数量 百分比
background_claim 3291 24.2%
own_claim 6004 44.2%
data 4297 31.6%
总计 13592 100.0%

resolve_parts_of_same版本

组件 数量 百分比
background_claim 2752 22.4%
own_claim 5450 44.3%
data 4093 33.3%
总计 12295 100.0%

关系

default版本

关系 数量 百分比
support: support 5789 74.0%
attack: contradict 696 8.9%
other: semantically_same 44 0.6%
other: parts_of_same 1298 16.6%
总计 7827 100.0%

resolve_parts_of_same版本

关系 数量 百分比
support: support 5788 88.7%
attack: contradict 696 10.7%
other: semantically_same 44 0.7%
总计 6528 100.0%

文档转换器

数据集提供以下目标文档类型的文档转换器:

default版本

  • pie_modules.documents.TextDocumentWithLabeledSpansAndBinaryRelations
  • pie_modules.documents.TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions

resolve_parts_of_same版本

  • pie_modules.documents.TextDocumentWithLabeledMultiSpansAndBinaryRelations
  • pie_modules.documents.TextDocumentWithLabeledMultiSpansBinaryRelationsAndLabeledPartitions

数据集创建

数据收集和规范化

从计算机图形学领域的专家提供的较大集合中随机选择了40个PDF格式的文档。

标注过程

标注过程包括五个迭代阶段的校准阶段,使用BRAT快速标注工具进行标注。

标注者

标注团队包括一名计算语言学专家和三名非专家标注者(人文学科和社会科学学者)。

使用数据集的考虑

社会影响

数据集支持基于学习的模型,用于自动分析科学出版物,潜在地促进对科学语言不同修辞方面的更好理解。

偏见讨论

数据集中存在一些偏见,例如支持关系远多于对立关系,以及论证组件的长度差异。

其他已知限制

标注一致性在论证关系上比组件识别上低23%,这可能是由于论证结构的模糊性。

附加信息

数据集维护者

数据集维护者包括@ArneBinder@idalr

许可信息

数据集采用MIT许可证。

引用信息

@inproceedings{lauscher2018b, title = {An argument-annotated corpus of scientific publications}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Ponzetto, Simone Paolo}, address = {Brussels, Belgium}, year = {2018}, pages = {40–46} }

@inproceedings{lauscher2018a, title = {ArguminSci: A Tool for Analyzing Argumentation and Rhetorical Aspects in Scientific Writing}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Eckert, Kai}, address = {Brussels, Belgium}, year = {2018}, pages = {22–28} }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献论证挖掘领域,SciArg数据集的构建体现了严谨的学术规范。该数据集以Dr. Inventor语料库为基础,选取了计算机图形学领域内皮肤模拟、运动捕捉、流体仿真和布料仿真四个主题下共40篇代表性学术论文。构建过程中,研究团队招募了包括一名计算语言学专家在内的四名标注者,通过五轮校准迭代进行标注训练,每轮结束后均计算标注者间一致性并修订标注指南,以确保标注质量。标注工作借助BRAT快速标注工具完成,最终形成了包含细粒度论证成分与关系的结构化语料。
特点
SciArg数据集作为首个公开的英文科学文献论证标注语料库,其核心特点在于融合了论证结构与其他修辞维度的联合分析。数据集精细标注了三种论证成分:与作者自身工作紧密相关的‘own_claim’、涉及研究背景的‘background_claim’以及作为证据的‘data’。同时,它定义了支持、反驳等论证性关系,并引入了‘semantically_same’和‘parts_of_same’等非论证性关系以处理成分共指与碎片化问题。数据集提供了‘default’和‘resolve_parts_of_same’两种变体,前者保留了由空格分隔的碎片化成分并通过关系标记,后者则将它们合并为多跨度单元,以适应不同的建模需求。
使用方法
该数据集通过PyTorch-IE框架进行封装,便于研究人员直接调用。使用时可从pie_datasets库中加载‘pie/sciarg’数据集,默认加载的版本文档类型为BratDocumentWithMergedSpans。若需处理合并后的多跨度成分,可指定加载‘resolve_parts_of_same’版本。数据集支持转换为多种标准文档类型,例如TextDocumentWithLabeledSpansBinaryRelationsAndLabeledPartitions,以适配不同的任务模块。加载后,用户可直接访问文档中的文本、标注跨度及二元关系,进行论证成分识别、关系分类等任务的模型训练与评估。
背景与挑战
背景概述
在科学文献计算分析日益重要的背景下,SciArg数据集由Lauscher等人于2018年创建,作为Dr. Inventor语料库的扩展,旨在填补科学出版物细粒度论证结构标注资源的空白。该数据集由计算机图形学领域的40篇学术论文构成,标注了背景主张、自身主张和数据三类论证成分,以及支持、反驳等论证关系。其核心研究问题聚焦于论证挖掘与科学修辞的联合分析,推动了科学文本计算论证分析领域的发展,为基于学习的模型提供了关键资源。
当前挑战
SciArg数据集致力于解决科学文本论证挖掘的挑战,包括从复杂学术语言中精准识别论证成分及其关系,以及处理论证结构与修辞维度的交互。在构建过程中,面临标注一致性难题,需通过多轮校准迭代提升标注者间一致性;同时,论证成分的间断性分布导致标注碎片化,需借助`parts_of_same`关系进行整合,增加了数据处理复杂度。此外,数据规模有限且领域特定,可能影响模型的泛化能力。
常用场景
经典使用场景
在科学文献修辞分析领域,SciArg数据集作为首个公开的英文科学出版物细粒度论证结构标注语料库,其经典使用场景聚焦于论证挖掘任务。研究者借助该数据集,能够系统识别科学文本中的论证成分,如背景主张、自身主张及数据证据,并解析其间的支持与反驳关系。这种精细标注为自然语言处理模型提供了训练基础,使得机器能够自动抽取出学术论文中的论证框架,进而深化对科学写作修辞模式的理解。
衍生相关工作
围绕SciArg数据集,已衍生出一系列经典研究工作。例如,多项研究利用该数据训练序列标注与关系抽取模型,以提升论证成分与关系的识别精度;另有工作将其与Dr. Inventor语料库的其他修辞标注结合,探索多任务学习框架下的科学修辞联合建模。这些研究不仅推动了论证挖掘技术的发展,还促进了如PyTorch-IE等标注数据处理工具链的完善,形成了从数据构建到模型应用的完整研究生态。
数据集最近研究
最新研究方向
在科学文献计算分析领域,SciArg数据集作为首个公开的英文科学出版物细粒度论证结构标注语料库,近年来持续推动着论证挖掘与修辞结构整合研究的前沿探索。当前研究焦点集中于利用深度学习模型,特别是基于Transformer的架构,对论证组件识别与关系分类任务进行联合建模,以捕捉科学文本中论证单元与修辞维度间的复杂交互。随着可解释人工智能的兴起,该数据集亦被用于探究科学论证的推理模式与证据链构建,助力学术写作智能辅助系统的发展。其标注的‘支持’与‘反驳’关系为科学辩论分析提供了基础,而‘语义相同’与‘部分同源’关系则促进了论证核心指代与跨段落连贯性研究。这些进展不仅深化了对科学修辞的理解,也为自动化学术质量评估与知识发现提供了新的方法论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作