EDTC
收藏github2023-01-12 更新2024-05-31 收录
下载链接:
https://github.com/NLP-Discourse-SoochowU/DTCP
下载链接
链接失效反馈官方服务:
资源简介:
EDTC是一个用于话语级主题链解析的数据集,包含了385篇WSJ新闻文章的标注。该数据集用于研究话语级主题链的解析,但目前仍存在一些挑战和改进空间。
The EDTC dataset is designed for discourse-level topic chain parsing and includes annotations for 385 WSJ news articles. This dataset is utilized for research into the parsing of discourse-level topic chains, although it still presents certain challenges and areas for improvement.
创建时间:
2021-08-27
原始信息汇总
数据集概述
数据集名称
- EDTC: A Corpus for Discourse-Level Topic Chain Parsing
数据集内容
- 该数据集包含385篇来自WSJ新闻文章的语篇级话题链标注。
- 数据集的标注方法为传统方式,即阅读新闻文章并手动标注话题链。
数据集更新
- 最近更新了测试集,版本为"test_v2_Jan-12-2023.tsv"。
- 计划未来对开发集和训练集的标注进行复查,以提供更好的版本(EDTC2)。
数据集应用
- 提供了最新的解析器,位于"upd_parser",包含代码和预训练的DTC解析模型,用于下游应用。
数据集挑战
- 由于数据集规模,DTC解析仍然非常具有挑战性。
- 尝试将预训练系统应用于下游NLP任务,但结果不理想。
数据集改进方向
- 目前标注的话题链模型较为简单,实际文本中存在多种复杂情况,需要进一步改进标注方法。
- 文本分割成话题单元的方法仍需进一步研究。
联系方式
- 任何问题或建议,请联系Zhang Longyin,邮箱:zzlynx@outlook.com。
搜集汇总
数据集介绍

构建方式
EDTC数据集的构建基于对385篇WSJ新闻文章的语篇级主题链标注,这些文章源自RST-DT语料库。标注过程采用传统的人工阅读与标注方式,研究团队通过仔细阅读新闻文章,手动标注主题链。尽管标注过程中存在一些挑战,例如部分句子包含多个主题,且缺乏将每个基本语篇单元(EDU)标记为基本主题单元(DTU)的理论依据,但团队仍在不断优化标注质量。近期,团队重新检查了标注数据,并更新了测试集,计划在未来推出改进版本EDTC2。
特点
EDTC数据集的特点在于其专注于语篇级主题链解析,标注的主题链模型为1对1的简单原型,尽管实际文本中存在多对多的复杂情况。数据集规模较小,导致主题链解析任务具有较高的挑战性。此外,数据集标注的句子作为基本主题单元,但在实际数据中,部分句子包含多个主题,这为研究提供了进一步探索的空间。团队计划通过后续研究提升标注质量,并邀请更多研究者参与讨论与合作,共同构建开源数据标注环境和更大规模的主题链数据集。
使用方法
EDTC数据集的使用方法包括下载数据集和预训练模型,并通过提供的代码进行主题链解析。用户需从指定链接下载数据包,并自行获取stanfordcorenlp工具。通过运行`main.py`脚本,用户可以训练并保存自己的解析模型;运行`eval.py`脚本则可评估主题链解析效果。研究团队还提供了最新的解析器代码和预训练模型,供下游应用使用。尽管数据集规模较小,但其为语篇级主题链解析的初步探索提供了重要资源,研究者可通过该数据集进一步优化解析算法并探索更复杂的主题链模型。
背景与挑战
背景概述
EDTC数据集由苏州大学自然语言处理研究小组于2021年发布,旨在为话语级主题链解析提供标注数据。该数据集基于RST-DT中的385篇《华尔街日报》新闻文章,标注了话语级主题链信息。研究团队在EMNLP2021-Findings上发表了相关论文,详细介绍了数据集的构建方法和研究动机。EDTC数据集的发布填补了话语级主题链解析领域的数据空白,为自然语言处理研究者提供了一个新的研究方向。该数据集不仅推动了话语分析领域的发展,还为下游任务如文本摘要、机器翻译等提供了潜在的应用价值。
当前挑战
EDTC数据集在构建和应用过程中面临多重挑战。首先,数据集规模相对较小,导致主题链解析任务仍具有较高的难度,尤其是在处理复杂文本时表现不佳。其次,数据标注过程中存在理论基础的不足,例如将句子作为基本话语主题单元(DTU)的标注方式在实际数据中可能无法准确反映多主题句子的复杂性。此外,当前标注的主题链模型较为简单,仅支持1对1的主题链映射,而实际文本中常出现多对多的复杂情况,这需要大量人力和资源进行改进。最后,尽管研究团队尝试将预训练模型应用于下游任务,但效果并不理想,表明数据集在泛化能力和实际应用方面仍需进一步优化。
常用场景
经典使用场景
EDTC数据集主要用于自然语言处理领域中的话语级主题链解析研究。该数据集通过对385篇WSJ新闻文章进行主题链标注,为研究者提供了一个基准平台,用于开发和评估主题链解析算法。特别是在话语分析和文本理解任务中,EDTC数据集为研究者提供了丰富的语料资源,帮助他们深入探讨文本中主题的连贯性和演变过程。
解决学术问题
EDTC数据集解决了话语分析中主题链解析的难题,尤其是在如何从文本中识别和连接主题链方面提供了重要的数据支持。通过标注的语料,研究者可以更好地理解文本中主题的连续性,并开发出更精确的解析模型。此外,该数据集还为探索文本中多主题共存和复杂主题链结构提供了基础,推动了话语分析领域的理论发展和技术进步。
衍生相关工作
EDTC数据集的发布催生了一系列相关研究,特别是在话语分析和主题链解析领域。许多研究者基于该数据集开发了新的解析算法和模型,进一步推动了自然语言处理技术的发展。例如,一些研究团队利用EDTC数据集探索了多主题链的识别和连接问题,提出了更复杂的解析框架。此外,该数据集还为跨语言主题链解析和多模态文本分析提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



