DFKI-SLT/sciarg

Name: DFKI-SLT/sciarg
Creator: DFKI-SLT
Published: 2022-07-28 14:04:31
License: 暂无描述

Hugging Face2022-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/sciarg

下载链接

链接失效反馈

官方服务：

资源简介：

SciArg数据集是Dr. Inventor语料库的扩展，包含了细粒度的论证组件和关系的注释层。它是第一个针对科学出版物（英文）的论证注释语料库，允许对科学写作中的论证和其他修辞维度进行联合分析。数据集的结构包括文档ID、文本、文本边界注释和关系注释。数据集包含40个文档的训练集。

The SciArg dataset is an extension of the Dr. Inventor corpus, featuring annotated layers of fine-grained argumentative components and their relationships. It is the first argumentatively annotated corpus for English scientific publications, enabling joint analysis of argumentation and other rhetorical dimensions in scientific writing. The dataset's structure includes document IDs, textual content, text boundary annotations, and relational annotations. The dataset includes a training set consisting of 40 documents.

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

数据集名称

名称: SciArg

数据集属性

语言: 英语
语言生成者: 专家生成
多语言性: 单语种
注释创建者: 专家生成
许可证: 未指定
大小: 1K<n<10K
来源数据集: Dr. Inventor Corpus

数据集标签

论据挖掘
科学文本
关系抽取
论辩话语单元识别

任务类别

令牌分类

数据集结构

数据实例: 未详细说明
数据字段:
- document_id: 基础文件名，例如 "A28"
- text: 科学出版物的解析文本，XML格式
- text_bound_annotations: 标记论辩话语单元(ADUs)的跨度注释，每个条目包含 offsets, text, type, 和 id 字段
- relations: 标记头尾ADU之间论辩关系的二元关系注释，每个条目包含 id, head, tail, 和 type 字段，其中 head 和 tail 各自包含 ref_id 和 role 字段
数据分割: 包含一个 train 分割，包含40个文档

数据集创建

注释: 专家生成
个人和敏感信息: 未详细说明

使用数据集的考虑

社会影响: 未详细说明
偏见讨论: 未详细说明
其他已知限制: 未详细说明

附加信息

数据集管理员: 未详细说明
许可证信息: 未详细说明
引用信息:

@inproceedings{lauscher2018b, title = {An argument-annotated corpus of scientific publications}, booktitle = {Proceedings of the 5th Workshop on Mining Argumentation}, publisher = {Association for Computational Linguistics}, author = {Lauscher, Anne and Glavav{s}, Goran and Ponzetto, Simone Paolo}, address = {Brussels, Belgium}, year = {2018}, pages = {40–46} }
贡献者: 感谢 @github-username 添加此数据集

搜集汇总

数据集介绍

构建方式

在科学文献论证挖掘领域，SciArg数据集作为一项开创性资源，其构建过程体现了严谨的学术规范。该数据集以Dr. Inventor语料库为基础，通过专家标注的方式，引入了精细的论证成分与关系注释层。具体而言，标注工作聚焦于识别科学出版物中的论证性话语单元，并标注这些单元之间的二元论证关系，从而形成了首个针对英文科学文献的论证标注语料库，为联合分析科学写作的论证结构与其他修辞维度奠定了数据基础。

特点

SciArg数据集的显著特征在于其专注于科学文本的论证结构解析。它提供了详尽的文本范围标注，用以标记论证性话语单元，并系统性地定义了单元间的论证关系类型。数据集规模适中，包含40篇科学文献，其标注体系支持论证挖掘、关系抽取和话语单元识别等多重任务，为深入理解科学论述的逻辑脉络与修辞策略提供了结构化的数据支持。

使用方法

该数据集主要适用于自然语言处理中的词元分类任务，特别是论证挖掘相关研究。使用者可通过加载数据集，访问其文档ID、XML格式的原始文本、论证性话语单元的边界标注以及单元间的论证关系数据。研究人员能够利用这些结构化信息，训练或评估模型在科学文献中自动识别论证成分及其逻辑关联的能力，从而推动学术文本理解与自动分析技术的发展。

背景与挑战

背景概述

在计算语言学和科学信息学领域，科学文本的论证结构分析是深化理解学术文献内在逻辑的关键。SciArg数据集由Anne Lauscher、Goran Glavaš和Simone Paolo Ponzetto等研究人员于2018年创建，基于Dr. Inventor语料库扩展而成，是首个针对英文科学出版物进行细粒度论证组件与关系标注的资源。该数据集旨在支持论证挖掘、关系抽取及论证性话语单元识别等任务，推动了科学写作中论证维度与其他修辞特征的联合分析，为自动化科学文献理解提供了重要基础。

当前挑战

SciArg数据集所针对的论证挖掘领域面临诸多挑战，科学文本中论证结构通常隐含且复杂，涉及高度专业化的领域知识，使得自动识别论证单元及其关系变得困难。在构建过程中，数据集依赖于专家标注，这导致标注成本高昂且一致性难以保证；同时，数据规模有限，仅包含40篇文档，可能影响模型的泛化能力。此外，科学写作风格的多样性和论证模式的隐性表达，进一步增加了标注与模型训练的难度。

常用场景

经典使用场景

在科学文本挖掘领域，SciArg数据集为研究者提供了精细的论证结构标注，其经典使用场景聚焦于论证挖掘任务。通过识别科学文献中的论证性话语单元及其关系，该数据集支持模型从复杂学术文本中提取论证框架，进而分析科学写作的修辞逻辑。这一应用不仅深化了对学术论证模式的理解，也为自动化论证分析奠定了数据基础。

衍生相关工作

围绕SciArg数据集，已衍生出多项经典研究工作，例如基于深度学习的论证关系抽取模型与跨领域论证结构迁移学习框架。这些研究利用该数据集的精细标注，探索了科学文本中论证单元的自动识别与分类方法，并进一步扩展至其他学术领域的论证分析。相关成果不仅丰富了计算论证的理论体系，也为科学知识图谱的构建提供了技术参考。

数据集最近研究