Turkish Web Treebank

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/turkish-treebanks

下载链接

链接失效反馈

官方服务：

资源简介：

土耳其语网络树库（TWT）包含4,851个句子（66,466个词和81,370个屈折组），这些句子被手动标注了分词、形态、词性和依存关系。数据集由两个部分组成：网络和维基百科。网络部分是从土耳其论坛、博客、教程、评论和指南网页中抽样并标注的2,541个句子。维基百科部分是从2,310个土耳其维基百科页面中抽样并标注的句子。

The Turkish Web Treebank (TWT) comprises 4,851 sentences (66,466 words and 81,370 inflectional groups), which have been manually annotated for segmentation, morphology, part-of-speech, and dependency relations. The dataset is divided into two parts: web and Wikipedia. The web section consists of 2,541 sentences sampled and annotated from Turkish forums, blogs, tutorials, comments, and guide pages. The Wikipedia section includes sentences sampled and annotated from 2,310 Turkish Wikipedia pages.

创建时间：

2020-03-06

原始信息汇总

数据集概述

名称: Turkish Web Treebank

描述: 一个针对土耳其语的人工标注形态句法树库。

许可证: Apache License Version 2.0

数据集组成:

总句子数: 4,851
总词数: 66,466
总屈折组数: 81,370

数据集细分:

Web部分: 2,541句子，26,519词，32,422屈折组
Wikipedia部分: 2,310句子，39,947词，48,498屈折组

数据分割:

开发集: 每9个句子中的一个
测试集: 每10个句子中的一个
训练集: 其余句子

数据格式: CoNLL-U格式，包含以下字段：

ID
FORM
LEMMA
CPOS
FPOS
FEATS
HEAD
DEPREL
DEPS (标记为"_")
MISC

标注:

形态句法层: 使用土耳其形态分析器进行标注
依赖关系层: 使用44种依赖关系标注

Python API: 提供用于读取标注句子的API，支持Web和Wikipedia部分及训练、开发、测试分割。

搜集汇总

数据集介绍

构建方式

Turkish Web Treebank（TWT）是一个经过人工标注的土耳其语形态句法树库，包含4,851个句子（66,466个词和81,370个屈折组）。该数据集由两部分构成：网页部分和维基百科部分。网页部分通过从土耳其论坛、博客、指南等代表性网页中采样并标注2,541个句子构建而成；维基百科部分则通过从2,310个土耳其维基百科页面中采样句子并进行标注。数据集的开发集和测试集分别采用每第9个和第10个句子，其余句子则作为训练集。

特点

TWT数据集的特点在于其丰富的标注层次，涵盖了分词、形态、词性和依存关系等多个方面。数据集采用CoNLL-U格式，遵循通用依存项目（Universal Dependencies）的字段定义，但在某些字段上进行了调整，例如使用UPOS和XPOS字段分别表示粗粒度和细粒度的词性标注。此外，数据集的依存关系标注使用了44种依存关系标签，提供了详细的句法结构信息。数据集还包含了浅层分词标注，通过“SpaceAfter=No”标记非空格分隔的词汇。

使用方法

TWT数据集的使用方法较为灵活，用户可以通过提供的Python API读取标注句子，支持按网页或维基百科部分以及训练集、开发集和测试集进行分割。用户可以通过Bazel工具将数据集作为外部依赖项集成到项目中，或通过PyPi安装最新版本。安装后，用户可以直接调用API读取数据，并根据需要进行进一步的分析或模型训练。数据集的使用建议遵循其默认的划分方式，以确保结果的可比性。

背景与挑战

背景概述

Turkish Web Treebank（TWT）是一个由人工标注的土耳其语形态句法树库，创建于2020年，主要研究人员包括Tolga Kayadelen、Adnan Öztürel和Bernd Bohnet。该数据集由Google Research Datasets团队发布，旨在为土耳其语的形态分析和依存句法分析提供高质量的标注数据。TWT包含4,851个句子，分为网络和维基百科两个部分，涵盖了土耳其语论坛、博客、指南和维基百科等多种文本类型。该数据集的发布为土耳其语的自然语言处理研究提供了重要的资源，特别是在依存句法分析和形态标注方面，推动了相关领域的研究进展。

当前挑战

Turkish Web Treebank在构建和应用过程中面临多重挑战。首先，土耳其语作为一种形态丰富的语言，其复杂的形态结构和灵活的句法规则使得标注工作异常繁琐，尤其是在处理多词素词和依存关系时，标注者需要具备深厚的语言学知识。其次，数据集的构建依赖于人工标注，确保标注的一致性和准确性成为一大难题，特别是在处理网络文本时，非正式表达和拼写错误增加了标注的复杂性。此外，尽管TWT提供了丰富的标注信息，但其规模相对较小，可能限制了其在深度学习模型中的应用效果，尤其是在需要大规模数据的场景下，数据稀疏性问题尤为突出。

常用场景

经典使用场景

Turkish Web Treebank（TWT）作为土耳其语形态句法树库的经典数据集，广泛应用于自然语言处理领域中的句法分析和依存关系研究。该数据集通过对土耳其语论坛、博客、维基百科等文本进行人工标注，提供了丰富的句法结构和词性标注信息，为研究者提供了高质量的基准数据。其经典使用场景包括依存句法解析、词性标注、以及形态分析等任务，尤其在处理土耳其语这种形态复杂的语言时，TWT为模型训练和评估提供了重要支持。

衍生相关工作

Turkish Web Treebank的发布催生了一系列相关研究和工作。例如，基于该数据集的依存句法解析模型在多个国际评测中取得了显著成果。此外，TWT还被用于开发土耳其语的形态分析工具和词性标注器，进一步推动了土耳其语自然语言处理技术的发展。同时，该数据集也为跨语言依存句法解析和多语言模型的研究提供了重要数据支持，促进了全球自然语言处理领域的进步。

数据集最近研究