DISRPT2019 (DISRPT2019 shared task on Discourse Unit Segmentation and Connective Detection)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/DISRPT2019
下载链接
链接失效反馈官方服务:
资源简介:
DISRPT 2019 研讨会介绍了关于语篇单元分割的跨形式主义共享任务的第一次迭代。由于所有主要的语篇解析框架都意味着将文本分割成段,因此从不同资源中学习分割是融合方法和见解的一个有前途的领域。我们使用统一格式以 RST、SDRT 和 PDTB 形式提供来自所有可用语言和树库的培训、开发和测试数据集。由于不同的语料库、语言和框架使用不同的切分指南,共享任务旨在促进设计灵活的处理各种指南的方法,并有助于推动对语篇单元标准的讨论。对于具有树库的数据集,我们将在两种不同的情况下进行评估:使用和不使用黄金语法,或者使用提供的自动解析进行比较。
The DISRPT 2019 workshop introduced the first iteration of a cross-formalism shared task focused on discourse unit segmentation. As all major discourse parsing frameworks require segmenting text into discourse units, learning segmentation models from diverse resources constitutes a promising direction for combining methodological innovations and cross-framework insights. We provide training, development, and test datasets from all available languages and treebanks, formatted in a unified schema compatible with RST, SDRT, and PDTB frameworks. Given that distinct corpora, languages, and parsing frameworks employ varying segmentation guidelines, this shared task aims to promote the design of flexible methods capable of handling diverse annotation guidelines, while also advancing scholarly discussions on discourse unit standards. For datasets with associated treebanks, evaluation will be conducted under two distinct scenarios: one utilizing gold-standard syntax, and the other employing the provided automatic syntactic parses for comparative assessment.
提供机构:
OpenDataLab
创建时间:
2022-06-28
搜集汇总
数据集介绍

背景与挑战
背景概述
DISRPT2019是一个专注于语篇单元分割和连接词检测的共享任务数据集,源自DISRPT 2019研讨会。它采用统一格式整合了多种语言和树库的培训、开发与测试数据,旨在推动跨形式主义的分割方法研究,并支持包含或不包含黄金语法在内的不同评估场景。
以上内容由遇见数据集搜集并总结生成



