DFKI-SLT/scidtb
收藏数据集概述
数据集名称
- 名称: Scientific Dependency Tree Bank (SciDTB)
数据集摘要
- 摘要: SciDTB是一个特定领域的英语科学文章语篇树库,使用依赖树来表示语篇结构,旨在评估语篇依赖解析器。该数据集适用于多种下游NLP任务,如机器翻译和自动摘要。
支持的任务
- 任务: 语篇依赖解析
语言
- 语言: 英语 (en-US)
数据集结构
数据实例
- 结构: 每个数据点包含一个
root字段,该字段是一个依赖树中节点的列表。每个节点包含id,parent,text,relation四个字段。
数据字段
- 字段:
id: 节点标识符parent: 父节点标识符text: 节点文本relation: 节点与父节点之间的语篇关系
数据分割
- 分割: 数据集分为
train,dev,test三个部分,具体数据量为:train: 743dev: 154test: 152
数据集创建
注释过程
- 注释: 由专家生成,详细过程可参考论文。
使用数据集的考虑
数据集影响
- 影响: 未提供详细信息。
数据集偏见
- 偏见: 未提供详细信息。
其他已知限制
- 限制: 未提供详细信息。
附加信息
数据集管理者
- 管理者: 未提供详细信息。
许可证信息
- 许可证: 未提供详细信息。
引用信息
-
引用:
@inproceedings{yang-li-2018-scidtb, title = "{S}ci{DTB}: Discourse Dependency {T}ree{B}ank for Scientific Abstracts", author = "Yang, An and Li, Sujian", booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)", month = jul, year = "2018", address = "Melbourne, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P18-2071", doi = "10.18653/v1/P18-2071", pages = "444--449", abstract = "Annotation corpus for discourse relations benefits NLP tasks such as machine translation and question answering. In this paper, we present SciDTB, a domain-specific discourse treebank annotated on scientific articles. Different from widely-used RST-DT and PDTB, SciDTB uses dependency trees to represent discourse structure, which is flexible and simplified to some extent but do not sacrifice structural integrity. We discuss the labeling framework, annotation workflow and some statistics about SciDTB. Furthermore, our treebank is made as a benchmark for evaluating discourse dependency parsers, on which we provide several baselines as fundamental work.", }



