five

DFKI-SLT/scidtb

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/scidtb
下载链接
链接失效反馈
官方服务:
资源简介:
SciDTB是一个特定领域的话语树库,标注在英文科学文章上。与广泛使用的RST-DT和PDTB不同,SciDTB使用依赖树来表示话语结构,这种方式在某种程度上更为灵活和简化,但不会牺牲结构的完整性。此外,该树库被用作评估话语依赖解析器的基准。该数据集可以有益于许多下游NLP任务,如机器翻译和自动摘要。数据集包含训练、开发和测试三个部分,每个数据点由依赖树的节点列表组成,每个节点包含id、parent、text和relation四个字段。
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

数据集名称

  • 名称: Scientific Dependency Tree Bank (SciDTB)

数据集摘要

  • 摘要: SciDTB是一个特定领域的英语科学文章语篇树库,使用依赖树来表示语篇结构,旨在评估语篇依赖解析器。该数据集适用于多种下游NLP任务,如机器翻译和自动摘要。

支持的任务

  • 任务: 语篇依赖解析

语言

  • 语言: 英语 (en-US)

数据集结构

数据实例

  • 结构: 每个数据点包含一个root字段,该字段是一个依赖树中节点的列表。每个节点包含id, parent, text, relation四个字段。

数据字段

  • 字段:
    • id: 节点标识符
    • parent: 父节点标识符
    • text: 节点文本
    • relation: 节点与父节点之间的语篇关系

数据分割

  • 分割: 数据集分为train, dev, test三个部分,具体数据量为:
    • train: 743
    • dev: 154
    • test: 152

数据集创建

注释过程

  • 注释: 由专家生成,详细过程可参考论文

使用数据集的考虑

数据集影响

  • 影响: 未提供详细信息。

数据集偏见

  • 偏见: 未提供详细信息。

其他已知限制

  • 限制: 未提供详细信息。

附加信息

数据集管理者

  • 管理者: 未提供详细信息。

许可证信息

  • 许可证: 未提供详细信息。

引用信息

  • 引用:

    @inproceedings{yang-li-2018-scidtb, title = "{S}ci{DTB}: Discourse Dependency {T}ree{B}ank for Scientific Abstracts", author = "Yang, An and Li, Sujian", booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)", month = jul, year = "2018", address = "Melbourne, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P18-2071", doi = "10.18653/v1/P18-2071", pages = "444--449", abstract = "Annotation corpus for discourse relations benefits NLP tasks such as machine translation and question answering. In this paper, we present SciDTB, a domain-specific discourse treebank annotated on scientific articles. Different from widely-used RST-DT and PDTB, SciDTB uses dependency trees to represent discourse structure, which is flexible and simplified to some extent but do not sacrifice structural integrity. We discuss the labeling framework, annotation workflow and some statistics about SciDTB. Furthermore, our treebank is made as a benchmark for evaluating discourse dependency parsers, on which we provide several baselines as fundamental work.", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作