DFKI-SLT/scidtb_argmin

Name: DFKI-SLT/scidtb_argmin
Creator: DFKI-SLT
Published: 2025-03-10 15:31:56
License: 暂无描述

Hugging Face2025-03-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/scidtb_argmin

下载链接

链接失效反馈

官方服务：

资源简介：

SciDTB Argmin数据集基于60篇英文科学摘要，这些摘要来自更大的注释数据集《科学摘要的语篇依赖树库》（SciDTB；Yang & Li, 2018）。Accuosto和Saggion（2019）基于Kirschner等人（2015）的研究，提供了一个细粒度的注释数据集，用于论证组件分类和关系分类任务。数据集是token-based的，并分割为覆盖整个文本的基本单元。

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

数据集名称

"SciDTB Argmin"

数据集来源

基于"Discourse Dependency TreeBank for Scientific Abstracts" (SciDTB)，由Accuosto和Saggion在2019年提供。

数据集语言

英语（学术；计算语言学）

数据集大小

下载的数据集文件大小为32.4 KB。

数据集结构

数据实例：包含60个文档，每个文档包含token、unit-bio、unit-label、role和parent-offset等字段。
数据字段：
- id: 文档实例的ID，字符串类型。
- data: 字典类型，包含：
  - token: 文档的单词token，列表类型，字符串元素。
  - unit-bio: 指示token是否为单元起始的BIO标签，列表类型，整数元素。
  - unit-label: 指示token所属的论点类型的标签，列表类型，整数元素。
  - role: 指示token所属的论点关系类型的标签，列表类型，整数元素。
  - parent-offset: 指示当前span与其相关联的span之间的距离，列表类型，整数元素。

数据集任务

任务：论点挖掘、组件分类、关系分类
标签描述：
- 组件：包括proposal、assertion、result、observation、means、description等类型。
- 关系：包括support、attack、detail、sequence、additional等类型。

数据集创建

来源数据：2014年EMNLP摘要的子集。
注释过程：使用GraPAT图注释工具对60篇摘要进行注释，共包含327个句子，8012个tokens，862个话语单元和352个论点单元，通过292个论点关系链接。

使用考虑

社会影响：有助于科学文本的质量评估，支持编辑和审稿人的工作，同时为研究人员提供反馈以改进其研究成果的沟通。
偏见讨论：论点单元的类型分布和关系类型的分布已明确，未发现攻击关系。

搜集汇总

数据集介绍

构建方式

在计算语言学领域，科学文献的论证结构分析对于理解学术文本的内在逻辑至关重要。SciDTB Argmin数据集的构建源于对现有修辞结构理论（RST）标注资源的巧妙利用，其基础是SciDTB语料库中60篇英文科学摘要。研究者通过GraPAT图标注工具，在这些摘要的初级语篇单元上添加了细粒度的论证组件标签和关系标签，从而将修辞结构转化为论证挖掘所需的层次化标注。这一过程涉及对8012个词汇、862个语篇单元的系统性处理，最终形成了包含352个论证单元和292个论证关系的结构化数据集，实现了从话语依赖树到论证图谱的知识迁移。

特点

该数据集以科学摘要为研究对象，其显著特点在于标注的精细化和层次化。每个文本单元不仅标注了论证类型（如提案、断言、结果等六类），还明确了单元间的论证关系（如支持、细节、序列等五类），并通过父偏移量字段量化了论证单元在文本中的相对位置。数据分布呈现出科学论证的典型特征：提案类单元占比最高（31.2%），支持关系最为常见（43.0%），而攻击关系在实际科学文本中未被观测到。这种基于词汇粒度的标注方式，使得数据集能够同时支持论证挖掘、组件分类和关系分类等多重任务，为科学文本的论证强度评估提供了结构化基础。

使用方法

使用该数据集时，研究者可将其直接加载至支持HuggingFace数据集的框架中。数据以文档为单位组织，每个实例包含词汇序列及对应的BIO标签、论证类型标签、关系标签和父偏移量数组。由于数据集未预设划分，用户需根据研究需求自行分割训练集与测试集。在模型训练过程中，可利用unit-label字段进行论证组件分类，利用role字段进行关系分类，并结合parent-offset字段重建论证树结构。该数据集特别适用于迁移学习研究，能够帮助模型从话语结构知识中迁移到论证分析任务，最终服务于科学文本质量评估、摘要生成等实际应用场景。

背景与挑战

背景概述

在计算语言学和自然语言处理领域，科学文本的论证结构分析是提升学术交流质量的关键环节。SciDTB Argmin数据集由Accuosto与Saggion于2019年构建，基于Yang与Li在2018年发布的SciDTB语料库，专注于从计算语言学摘要中提取细粒度论证单元与关系。该数据集源自2014年EMNLP会议的60篇英文摘要，通过引入基于修辞结构理论的标注框架，旨在支持论证挖掘、组件分类及关系分类等任务，为自动评估科学文本的论证强度提供了重要资源，推动了学术写作辅助系统的发展。

当前挑战

SciDTB Argmin数据集致力于解决科学文本论证挖掘中的核心挑战，即从复杂学术话语中精准识别论证组件及其支持、攻击等语义关系。然而，数据构建面临显著困难：科学摘要中论证结构常隐含于专业表述，标注需依赖领域知识，导致标注一致性难以保证；且数据规模有限，仅包含60篇摘要，论证关系分布不均，如攻击关系完全缺失，可能限制模型泛化能力。此外，标注过程依赖于人工转换现有修辞标注，跨框架的知识迁移引入了语义对齐的复杂性，这些因素共同制约了数据集的广泛应用与模型性能提升。

常用场景

经典使用场景

在计算语言学领域，SciDTB Argmin数据集为论证挖掘任务提供了精细标注的语料基础。该数据集源自科学摘要文本，通过标注论证组件类型与关系，支持模型识别文本中的主张、证据、结果等元素及其逻辑关联。经典应用场景包括训练序列标注或图神经网络模型，以自动解析科学文献的论证结构，从而揭示作者如何构建推理链条以支持其核心观点。

衍生相关工作

基于SciDTB Argmin数据集，衍生了一系列经典研究工作。例如，Accuosto与Saggion（2019）的原始研究探索了从语篇到论证结构的迁移学习；后续工作可能扩展至跨领域论证挖掘、多语言适配或结合预训练语言模型的联合学习。这些研究深化了对科学论证形式化表征的理解，并推动了论证质量自动评估框架的演进。

数据集最近研究