Estonian TimeML Annotated Corpus

github2019-08-07 更新2024-05-31 收录

下载链接：

https://github.com/soras/EstTimeMLCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含80篇爱沙尼亚报纸文章（约22,000个词令牌），具有手动校正的形态和依赖句法标注，以及手动添加的时间语义标注。此语料库是爱沙尼亚依赖树库的一个子库。

This corpus comprises 80 Estonian newspaper articles (approximately 22,000 word tokens), featuring manually corrected morphological and dependency syntactic annotations, along with manually added temporal semantic annotations. This corpus is a subset of the Estonian Dependency Treebank.

创建时间：

2014-10-09

原始信息汇总

数据集概述：Estonian TimeML Annotated Corpus version 2.0

数据集内容

文章数量：80篇Estonian报纸文章
总词数：约22,000个词
注释类型：
- 手动校正的形态学和依存句法注释
- 手动添加的时间语义注释

注释细节

依存句法注释：基于Estonian句法分析器的输出，使用约束语法（CG）形式主义，最新版本使用VISL CG-3格式和软件。
时间注释：基于TimeML规范的适应版本，包括EVENT、TIMEX和TLINK注释。

时间语义注释层

EVENT：事件表示表达，如动词和名词。
TIMEX：时间参考表达，如日期和持续时间表达。
TLINK：事件之间及事件与时间表达之间的时间关系。

TLINK关系类型

明确关系：BEFORE, AFTER, SIMULTANEOUS, IDENTITY, IS_INCLUDED, INCLUDES
模糊关系：BEFORE-OR-OVERLAP, OVERLAP-OR-AFTER, VAGUE

数据集结构

文件类型：
- article-metadata：文章元数据
- base-segmentation-morph-syntax：基础分段、形态学和句法注释
- event-annotation：事件注释
- timex-annotation：时间表达注释
- timex-annotation-dct：文档创建时间注释
- tlink-event-timex：事件与时间表达之间的关系
- tlink-event-dct：事件与文档创建时间之间的关系
- tlink-main-events：相邻句子主要事件之间的关系
- tlink-subordinate-events：句子内部事件之间的关系

访问与探索

访问方式：需要编程技能以访问所有不同注释。
示例脚本：exported_corpus_reader.py，用于从命令行访问和打印注释内容。

语言特定差异

EVENT注释：允许多词事件注释，使用特殊类值MODAL。
TIMEX注释：添加特殊修饰符FIRST_HALF和SECOND_HALF。
TLINK注释：使用9种关系类型。

相关出版物

创建描述：S.Orasmaa (2014a, 2014b)

该数据集为研究Estonian语言的时间语义提供了丰富的资源，支持形态学、句法和时间语义的多层次分析。

搜集汇总

数据集介绍

构建方式

Estonian TimeML Annotated Corpus 是一个经过人工修正的形态学和依赖句法标注的文本语料库，同时包含了时间语义标注。该语料库基于爱沙尼亚依赖树库，采用约束语法形式体系，构建过程中对80篇爱沙尼亚报纸文章进行了标注，涉及事件、时间表达式及其时间关系的标注。

特点

该数据集的特点在于它融合了形态学、句法和时间语义的多层标注。它不仅包含了事件和时间表达式的标注，还包含了事件之间以及事件与文档创建时间之间的时间关系标注。此外，该数据集采用了TimeML规范的时间关系标注，并针对爱沙尼亚语进行了适当调整。

使用方法

为了充分利用该数据集，用户需要具有一定的编程技能。数据集可以通过Python脚本exported_corpus_reader.py进行访问，该脚本能够加载不同标注层的内容，逐句打印语料库内容以及相关的时态标注。用户可以通过指定路径运行该脚本，以获取所需的数据集信息。

背景与挑战

背景概述

Estonian TimeML Annotated Corpus 是一个包含80篇爱沙尼亚报纸文章的数据集，这些文章经过手动校正的形态学和依存句法标注，并添加了手动的时间语义标注。该数据集是爱沙尼亚依存树库（EDT）的一个子库。其创建过程及标注一致性的评估在Orasmaa (2014a) 和Orasmaa (2014b) 中有所描述。该数据集的构建旨在为时间语义的研究提供支持，尤其是在爱沙尼亚语这一领域，对相关技术和理论的发展具有重要影响。

当前挑战

该数据集在构建过程中遇到了诸多挑战，其中包括对爱沙尼亚语特有语法结构的处理，以及时间标注的一致性问题。具体挑战包括：1) 处理形态学和句法标注中的语言特定差异，例如多词事件标注和模态动词的特殊处理；2) 确保时间关系标注的一致性，特别是TLINK标注在不同标注者之间的差异；3) 研究时间表达式与事件之间的复杂关系，以及如何准确表示这些关系。

常用场景

经典使用场景

Estonian TimeML Annotated Corpus作为爱沙尼亚语的时态标注数据集，其经典使用场景在于为自然语言处理研究提供精确的时态分析实例。学者们可利用该数据集进行句法分析和时态关系标注，以深入理解文本中的时间表达和事件序列。

实际应用

在实际应用中，Estonian TimeML Annotated Corpus可被用于开发智能问答系统、文本摘要工具以及事件序列理解模型，为用户提供精确的时间线分析和事件排序功能。

衍生相关工作

基于该数据集，研究者已衍生出多项相关工作，如时态标注工具的开发、跨语言时态关系比较研究、以及结合时态信息的语义角色标注等，进一步拓宽了自然语言处理的研究领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集