five

Crowdsourced English Temporal Dependency Tree (TDT) Corpus

收藏
github2020-09-28 更新2024-05-31 收录
下载链接:
https://github.com/yuchenz/crowdsourced_EN_TDT_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Crowdsourced English Temporal Dependency Tree (TDT) Corpus是一个包含英文新闻文章的集合,这些文章被标注有时间表达式、事件和时间关系。该语料库中的时间关系以依赖树结构表示,每篇文章都有详细的依赖树描述。

The Crowdsourced English Temporal Dependency Tree (TDT) Corpus is a collection of English news articles annotated with temporal expressions, events, and temporal relations. The temporal relations in this corpus are represented in a dependency tree structure, with each article accompanied by a detailed description of its dependency tree.
创建时间:
2020-09-28
原始信息汇总

数据集概述

数据集名称

Crowdsourced English Temporal Dependency Tree (TDT) Corpus

数据集内容

该数据集包含英语新闻文章,这些文章被标注有时间表达式、事件及时间关系。时间关系以依赖树结构形式表示,每篇文章对应一个依赖树结构。

数据集来源

该数据集基于Timebank corpus构建,通过众包方式收集时间依赖树标注。此外,还包括Timebank Dense corpus的一个小部分,由专家标注时间依赖树。

数据集组成部分

  • timebank-dense.expert.tdt: 专家标注的时间依赖树,涉及Timebank Dense corpus的36个文档。
  • timebank.crowd.tdt: 众包标注的时间依赖树,覆盖Timebank corpus的全部183个文档。

数据集格式

  • 文件类型:.tdt
  • 结构:每行代表一个子-父对,包含9个字段,字段间以制表符分隔。
  • 字段说明:
    • filename: 文件ID
    • cSnt: 子句的句子ID
    • cStart: 子句的起始词ID
    • cEnd: 子句的结束词ID
    • cLabel: 子句的时间表达式或事件标签
    • pSnt: 父句的句子ID
    • pStart: 父句的起始词ID
    • pEnd: 父句的结束词ID
    • trLabel: 子-父对之间的时间关系标签

引用信息

  • 作者:Yuchen Zhang and Nianwen Xue

  • 标题:Acquiring Structured Temporal Representation via Crowdsourcing: A Feasibility Study

  • 会议:Eighth Joint Conference on Lexical and Computational Semantics (*SEM-2019)

  • 年份:2019

  • 引用格式:

    @inproceedings{zhang2019acquiring, title={Acquiring structured temporal representation via crowdsourcing: A feasibility study}, author={Zhang, Yuchen and Xue, Nianwen}, booktitle={Proceedings of the Eighth Joint Conference on Lexical and Computational Semantics (* SEM 2019)}, pages={178--185}, year={2019} }

搜集汇总
数据集介绍
main_image_url
构建方式
Crowdsourced English Temporal Dependency Tree (TDT) Corpus 是基于 Timebank 语料库构建的,专门用于标注英语新闻文章中的时间表达式、事件及其时间关系。该数据集通过众包方式收集了时间依赖树的标注信息,并结合了专家对 Timebank Dense 语料库中部分文档的标注。众包方法的具体细节可在相关论文中找到,确保了标注的广泛性和多样性。
使用方法
使用该数据集时,用户可以通过解析 `.tdt` 文件来获取时间依赖树的详细信息。每个 `.tdt` 文件中的每一行代表一个子-父依赖关系对,包含多个字段,如文件名、句子ID、起始词ID等。用户可以根据这些字段构建时间依赖树,并分析时间表达式、事件及其时间关系。使用该数据集时,请引用相关论文以尊重数据集的创建者。
背景与挑战
背景概述
Crowdsourced English Temporal Dependency Tree (TDT) Corpus 是一个专注于英语新闻文章时间表达、事件及时间关系标注的数据集。该数据集由Yuchen Zhang和Nianwen Xue等研究人员于2019年创建,基于Timebank语料库构建,并通过众包方式收集时间依赖树结构标注。其核心研究问题在于如何通过众包方式获取结构化的时间表示,以支持自然语言处理中的时间关系分析。该数据集为时间依赖树结构的研究提供了重要资源,推动了时间关系解析领域的发展,并在相关学术会议中得到了广泛引用。
当前挑战
该数据集在构建过程中面临多重挑战。首先,时间关系的标注需要高度的语义理解,尤其是在处理复杂的时间依赖结构时,标注者容易产生歧义。其次,众包方式虽然能够有效扩展标注规模,但如何确保标注质量的一致性成为关键问题。此外,数据集中的时间依赖树结构需要与原始文本紧密对齐,这对标注工具和流程的设计提出了较高要求。这些挑战不仅体现在数据集的构建过程中,也反映了时间关系解析领域在语义理解和标注一致性方面的普遍难题。
常用场景
经典使用场景
Crowdsourced English Temporal Dependency Tree (TDT) Corpus 数据集在自然语言处理领域中被广泛用于时间表达、事件及其时间关系的标注研究。该数据集通过依赖树结构表示时间关系,为研究者提供了丰富的语料资源,尤其适用于时间信息抽取和时间关系推理的研究。其经典使用场景包括时间表达识别、事件时间关系建模以及时间依赖树的构建与分析。
解决学术问题
该数据集解决了自然语言处理中时间信息建模的复杂性问题。通过提供详细的时间表达、事件及其时间关系的标注,研究者能够更准确地理解和建模文本中的时间信息。这对于时间线生成、事件因果关系推理以及时间敏感的问答系统等任务具有重要意义。此外,该数据集还为时间依赖树结构的自动生成和评估提供了基准,推动了时间信息处理领域的技术进步。
实际应用
在实际应用中,Crowdsourced English TDT Corpus 被用于开发时间敏感的智能系统,如新闻事件时间线生成工具、历史事件分析系统以及法律文书中的时间关系解析工具。这些应用依赖于数据集提供的高质量时间标注,能够帮助系统更准确地理解和处理文本中的时间信息,从而提升用户体验和系统性能。
数据集最近研究
最新研究方向
近年来,Crowdsourced English Temporal Dependency Tree (TDT) Corpus在自然语言处理领域引起了广泛关注,特别是在时间关系抽取和事件时间线构建方面。该数据集通过众包方式标注了新闻文章中的时间表达式、事件及其时间关系,并以依赖树结构呈现,为时间信息的结构化表示提供了新的视角。当前研究热点集中在如何利用这些依赖树结构来提升时间关系识别的准确性,以及如何将这一方法应用于更广泛的文本类型,如社交媒体和科学文献。此外,结合深度学习模型,研究者们正在探索如何自动生成时间依赖树,以减少人工标注的成本。这一数据集的应用不仅推动了时间信息处理技术的发展,还为跨语言时间关系研究提供了宝贵的资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作