Crowdsourced English Temporal Dependency Tree (TDT) Corpus

github2020-09-28 更新2024-05-31 收录

下载链接：

https://github.com/yuchenz/crowdsourced_EN_TDT_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Crowdsourced English Temporal Dependency Tree (TDT) Corpus是一个包含英文新闻文章的集合，这些文章被标注有时间表达式、事件和时间关系。该语料库中的时间关系以依赖树结构表示，每篇文章都有详细的依赖树描述。

The Crowdsourced English Temporal Dependency Tree (TDT) Corpus is a collection of English news articles annotated with temporal expressions, events, and temporal relations. The temporal relations in this corpus are represented in a dependency tree structure, with each article accompanied by a detailed description of its dependency tree.

创建时间：

2020-09-28

原始信息汇总

数据集概述

数据集名称

Crowdsourced English Temporal Dependency Tree (TDT) Corpus

数据集内容

该数据集包含英语新闻文章，这些文章被标注有时间表达式、事件及时间关系。时间关系以依赖树结构形式表示，每篇文章对应一个依赖树结构。

数据集来源

该数据集基于Timebank corpus构建，通过众包方式收集时间依赖树标注。此外，还包括Timebank Dense corpus的一个小部分，由专家标注时间依赖树。

数据集组成部分

timebank-dense.expert.tdt: 专家标注的时间依赖树，涉及Timebank Dense corpus的36个文档。
timebank.crowd.tdt: 众包标注的时间依赖树，覆盖Timebank corpus的全部183个文档。

数据集格式

文件类型：.tdt
结构：每行代表一个子-父对，包含9个字段，字段间以制表符分隔。
字段说明：
- filename: 文件ID
- cSnt: 子句的句子ID
- cStart: 子句的起始词ID
- cEnd: 子句的结束词ID
- cLabel: 子句的时间表达式或事件标签
- pSnt: 父句的句子ID
- pStart: 父句的起始词ID
- pEnd: 父句的结束词ID
- trLabel: 子-父对之间的时间关系标签

引用信息

作者：Yuchen Zhang and Nianwen Xue
标题：Acquiring Structured Temporal Representation via Crowdsourcing: A Feasibility Study
会议：Eighth Joint Conference on Lexical and Computational Semantics (*SEM-2019)
年份：2019
引用格式：

@inproceedings{zhang2019acquiring, title={Acquiring structured temporal representation via crowdsourcing: A feasibility study}, author={Zhang, Yuchen and Xue, Nianwen}, booktitle={Proceedings of the Eighth Joint Conference on Lexical and Computational Semantics (* SEM 2019)}, pages={178--185}, year={2019} }

搜集汇总

数据集介绍

构建方式

Crowdsourced English Temporal Dependency Tree (TDT) Corpus 是基于 Timebank 语料库构建的，专门用于标注英语新闻文章中的时间表达式、事件及其时间关系。该数据集通过众包方式收集了时间依赖树的标注信息，并结合了专家对 Timebank Dense 语料库中部分文档的标注。众包方法的具体细节可在相关论文中找到，确保了标注的广泛性和多样性。

使用方法

使用该数据集时，用户可以通过解析 `.tdt` 文件来获取时间依赖树的详细信息。每个 `.tdt` 文件中的每一行代表一个子-父依赖关系对，包含多个字段，如文件名、句子ID、起始词ID等。用户可以根据这些字段构建时间依赖树，并分析时间表达式、事件及其时间关系。使用该数据集时，请引用相关论文以尊重数据集的创建者。

背景与挑战

背景概述

Crowdsourced English Temporal Dependency Tree (TDT) Corpus 是一个专注于英语新闻文章时间表达、事件及时间关系标注的数据集。该数据集由Yuchen Zhang和Nianwen Xue等研究人员于2019年创建，基于Timebank语料库构建，并通过众包方式收集时间依赖树结构标注。其核心研究问题在于如何通过众包方式获取结构化的时间表示，以支持自然语言处理中的时间关系分析。该数据集为时间依赖树结构的研究提供了重要资源，推动了时间关系解析领域的发展，并在相关学术会议中得到了广泛引用。

当前挑战

该数据集在构建过程中面临多重挑战。首先，时间关系的标注需要高度的语义理解，尤其是在处理复杂的时间依赖结构时，标注者容易产生歧义。其次，众包方式虽然能够有效扩展标注规模，但如何确保标注质量的一致性成为关键问题。此外，数据集中的时间依赖树结构需要与原始文本紧密对齐，这对标注工具和流程的设计提出了较高要求。这些挑战不仅体现在数据集的构建过程中，也反映了时间关系解析领域在语义理解和标注一致性方面的普遍难题。

常用场景

经典使用场景

Crowdsourced English Temporal Dependency Tree (TDT) Corpus 数据集在自然语言处理领域中被广泛用于时间表达、事件及其时间关系的标注研究。该数据集通过依赖树结构表示时间关系，为研究者提供了丰富的语料资源，尤其适用于时间信息抽取和时间关系推理的研究。其经典使用场景包括时间表达识别、事件时间关系建模以及时间依赖树的构建与分析。

解决学术问题

该数据集解决了自然语言处理中时间信息建模的复杂性问题。通过提供详细的时间表达、事件及其时间关系的标注，研究者能够更准确地理解和建模文本中的时间信息。这对于时间线生成、事件因果关系推理以及时间敏感的问答系统等任务具有重要意义。此外，该数据集还为时间依赖树结构的自动生成和评估提供了基准，推动了时间信息处理领域的技术进步。

实际应用

在实际应用中，Crowdsourced English TDT Corpus 被用于开发时间敏感的智能系统，如新闻事件时间线生成工具、历史事件分析系统以及法律文书中的时间关系解析工具。这些应用依赖于数据集提供的高质量时间标注，能够帮助系统更准确地理解和处理文本中的时间信息，从而提升用户体验和系统性能。

数据集最近研究