five

Estonian TimeML Annotated Corpus

收藏
github2019-08-07 更新2024-05-31 收录
下载链接:
https://github.com/soras/EstTimeMLCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
该语料库包含80篇爱沙尼亚报纸文章(约22,000个词令牌),具有手动校正的形态和依赖句法标注,以及手动添加的时间语义标注。此语料库是爱沙尼亚依赖树库的一个子库。

This corpus comprises 80 Estonian newspaper articles (approximately 22,000 word tokens), featuring manually corrected morphological and dependency syntactic annotations, along with manually added temporal semantic annotations. This corpus is a subset of the Estonian Dependency Treebank.
创建时间:
2014-10-09
原始信息汇总

数据集概述:Estonian TimeML Annotated Corpus version 2.0

数据集内容

  • 文章数量:80篇Estonian报纸文章
  • 总词数:约22,000个词
  • 注释类型
    • 手动校正的形态学和依存句法注释
    • 手动添加的时间语义注释

注释细节

  • 依存句法注释:基于Estonian句法分析器的输出,使用约束语法(CG)形式主义,最新版本使用VISL CG-3格式和软件。
  • 时间注释:基于TimeML规范的适应版本,包括EVENT、TIMEX和TLINK注释。

时间语义注释层

  • EVENT:事件表示表达,如动词和名词。
  • TIMEX:时间参考表达,如日期和持续时间表达。
  • TLINK:事件之间及事件与时间表达之间的时间关系。

TLINK关系类型

  • 明确关系:BEFORE, AFTER, SIMULTANEOUS, IDENTITY, IS_INCLUDED, INCLUDES
  • 模糊关系:BEFORE-OR-OVERLAP, OVERLAP-OR-AFTER, VAGUE

数据集结构

  • 文件类型
    • article-metadata:文章元数据
    • base-segmentation-morph-syntax:基础分段、形态学和句法注释
    • event-annotation:事件注释
    • timex-annotation:时间表达注释
    • timex-annotation-dct:文档创建时间注释
    • tlink-event-timex:事件与时间表达之间的关系
    • tlink-event-dct:事件与文档创建时间之间的关系
    • tlink-main-events:相邻句子主要事件之间的关系
    • tlink-subordinate-events:句子内部事件之间的关系

访问与探索

  • 访问方式:需要编程技能以访问所有不同注释。
  • 示例脚本exported_corpus_reader.py,用于从命令行访问和打印注释内容。

语言特定差异

  • EVENT注释:允许多词事件注释,使用特殊类值MODAL。
  • TIMEX注释:添加特殊修饰符FIRST_HALF和SECOND_HALF。
  • TLINK注释:使用9种关系类型。

相关出版物

  • 创建描述:S.Orasmaa (2014a, 2014b)

该数据集为研究Estonian语言的时间语义提供了丰富的资源,支持形态学、句法和时间语义的多层次分析。

搜集汇总
数据集介绍
main_image_url
构建方式
Estonian TimeML Annotated Corpus 是一个经过人工修正的形态学和依赖句法标注的文本语料库,同时包含了时间语义标注。该语料库基于爱沙尼亚依赖树库,采用约束语法形式体系,构建过程中对80篇爱沙尼亚报纸文章进行了标注,涉及事件、时间表达式及其时间关系的标注。
特点
该数据集的特点在于它融合了形态学、句法和时间语义的多层标注。它不仅包含了事件和时间表达式的标注,还包含了事件之间以及事件与文档创建时间之间的时间关系标注。此外,该数据集采用了TimeML规范的时间关系标注,并针对爱沙尼亚语进行了适当调整。
使用方法
为了充分利用该数据集,用户需要具有一定的编程技能。数据集可以通过Python脚本exported_corpus_reader.py进行访问,该脚本能够加载不同标注层的内容,逐句打印语料库内容以及相关的时态标注。用户可以通过指定路径运行该脚本,以获取所需的数据集信息。
背景与挑战
背景概述
Estonian TimeML Annotated Corpus 是一个包含80篇爱沙尼亚报纸文章的数据集,这些文章经过手动校正的形态学和依存句法标注,并添加了手动的时间语义标注。该数据集是爱沙尼亚依存树库(EDT)的一个子库。其创建过程及标注一致性的评估在Orasmaa (2014a) 和Orasmaa (2014b) 中有所描述。该数据集的构建旨在为时间语义的研究提供支持,尤其是在爱沙尼亚语这一领域,对相关技术和理论的发展具有重要影响。
当前挑战
该数据集在构建过程中遇到了诸多挑战,其中包括对爱沙尼亚语特有语法结构的处理,以及时间标注的一致性问题。具体挑战包括:1) 处理形态学和句法标注中的语言特定差异,例如多词事件标注和模态动词的特殊处理;2) 确保时间关系标注的一致性,特别是TLINK标注在不同标注者之间的差异;3) 研究时间表达式与事件之间的复杂关系,以及如何准确表示这些关系。
常用场景
经典使用场景
Estonian TimeML Annotated Corpus作为爱沙尼亚语的时态标注数据集,其经典使用场景在于为自然语言处理研究提供精确的时态分析实例。学者们可利用该数据集进行句法分析和时态关系标注,以深入理解文本中的时间表达和事件序列。
实际应用
在实际应用中,Estonian TimeML Annotated Corpus可被用于开发智能问答系统、文本摘要工具以及事件序列理解模型,为用户提供精确的时间线分析和事件排序功能。
衍生相关工作
基于该数据集,研究者已衍生出多项相关工作,如时态标注工具的开发、跨语言时态关系比较研究、以及结合时态信息的语义角色标注等,进一步拓宽了自然语言处理的研究领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作