Temporal Dependency Tree Corpus

github2023-08-30 更新2024-05-31 收录

下载链接：

https://github.com/yuchenz/structured_temporal_relations_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Temporal Dependency Tree Corpus是一个包含中文新闻报道和童话故事的集合，这些内容被标注有时间表达、事件和时间关系。时间关系在这个数据集中被表示为每个文章的依赖树结构。

The Temporal Dependency Tree Corpus is a collection comprising Chinese news reports and fairy tales, annotated with temporal expressions, events, and temporal relations. Within this dataset, temporal relations are represented through the dependency tree structure of each article.

创建时间：

2018-02-23

原始信息汇总

Temporal Dependency Tree (TDT) Corpus 概述

数据集内容

类型: 中文新闻报道和童话故事
注释: 包含时间表达式、事件和时间关系
时间关系表示: 依赖树结构

数据集统计

类型	# 文章数	# 句子数	# 时间表达式	# 事件数
新闻报道	115	2,841	1,167	4,807
童话故事	120	3,662	131	10,976

数据集来源

童话故事: 来自中文版《格林童话》
新闻报道:
- 52篇来自《中国树库》
- 63篇来自中文《维基新闻》

数据集格式

文本文件: 位于 news_data/ 和 grimm_data/ 目录下，格式为 *.txt
时间依赖树文件: 格式为 *.tdt，每行代表一个子-父对，包含9个字段，以制表符分隔

引用信息

作者: Yuchen Zhang 和 Nianwen Xue
出版年份: 2018
论文标题: Structured Interpretation of Temporal Relations
会议: 第11届语言资源与评估会议 (LREC-2018)
地点: Miyazaki, Japan

搜集汇总

数据集介绍

构建方式

Temporal Dependency Tree Corpus（TDT语料库）的构建基于中文新闻报道和童话故事，涵盖了时间表达式、事件及时间关系的标注。语料库中的时间关系以依赖树结构呈现，每篇文章对应一个依赖树。新闻报道部分来源于中文树库和维基新闻，童话故事则选自格林童话中文版。数据集的构建过程严格遵循了时间关系的结构化标注方法，确保了标注的一致性和准确性。

特点

该数据集的特点在于其独特的时间依赖树结构，能够清晰地展示时间表达式与事件之间的复杂关系。数据集包含115篇新闻报道和120篇童话故事，分别标注了1,167个时间表达式和4,807个事件（新闻报道部分），以及131个时间表达式和10,976个事件（童话故事部分）。这种结构化的标注方式为时间关系的解析提供了丰富的上下文信息，适用于自然语言处理中的时间推理任务。

使用方法

使用TDT语料库时，用户可通过读取`.txt`文件获取文章文本，并通过`.tdt`文件解析时间依赖树结构。每个`.tdt`文件中的每一行代表一个子-父对，包含文件名、句子ID、起始和结束词ID、标签等信息。用户可根据这些信息重建依赖树，进而分析时间表达式与事件之间的关系。数据集的使用需引用相关论文，以确保学术规范。

背景与挑战

背景概述

Temporal Dependency Tree Corpus（TDT语料库）是一个专注于中文新闻报道和童话故事的时间表达、事件及时间关系标注的数据集。该数据集由Yuchen Zhang和Nianwen Xue于2018年创建，旨在通过依赖树结构表示文章中的时间关系，为自然语言处理领域中的时间关系解析提供结构化数据支持。数据集包含来自中文维基新闻和中国树库的新闻报道，以及来自格林童话的中文翻译版本。TDT语料库的发布为时间关系解析任务提供了重要的数据基础，推动了该领域的研究进展。

当前挑战

TDT语料库在解决时间关系解析问题时面临多重挑战。首先，时间关系的复杂性使得标注过程极为繁琐，尤其是在处理多事件和多时间表达的情况下，如何准确捕捉它们之间的依赖关系成为一大难题。其次，构建过程中，数据来源的多样性（如新闻报道与童话故事）导致文本风格和语言结构的差异，增加了标注的一致性和准确性难度。此外，依赖树结构的表示方式虽然直观，但在实际应用中，如何高效解析和利用这些结构信息仍是一个技术挑战。这些挑战不仅影响了数据集的构建质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

Temporal Dependency Tree Corpus（TDT Corpus）在自然语言处理领域中被广泛用于时间关系解析任务。该数据集通过标注中文新闻报道和童话故事中的时间表达式、事件及其时间关系，构建了依赖树结构，为研究者提供了丰富的语料资源。其经典使用场景包括时间关系抽取、事件时间线构建以及时间推理模型的训练与评估。

衍生相关工作

基于TDT Corpus，许多经典研究工作得以展开。例如，Zhang和Xue（2018）提出的结构化时间关系解析方法，为该领域奠定了理论基础。此外，该数据集还启发了后续研究，如时间关系抽取模型的优化、跨语言时间关系解析以及多模态时间关系分析等，推动了自然语言处理领域的时间关系研究向更深层次发展。

数据集最近研究