GreynirCorpus

github2022-07-12 更新2024-05-31 收录

下载链接：

https://github.com/mideind/GreynirCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

GreynirCorpus是一个大型、解析过的现代冰岛语文本树库，包含约1000万条解析过的句子，总计约1.4亿个单词。文本来自2015至2021年间的新闻和政府网站，通过Greynir规则基础解析器进行机械解析。数据集分为铜标准、银标准、金标准和额外四个部分，分别包含不同特性和用途的文本。

The GreynirCorpus is a large, parsed treebank of modern Icelandic texts, comprising approximately 10 million parsed sentences, totaling around 140 million words. The texts are sourced from news and government websites between 2015 and 2021, and have been mechanically parsed using the Greynir rule-based parser. The dataset is divided into four sections: Bronze Standard, Silver Standard, Gold Standard, and Additional, each containing texts with different characteristics and uses.

创建时间：

2020-05-26

原始信息汇总

GreynirCorpus 1.1 数据集概述

数据集描述

GreynirCorpus 是一个包含现代冰岛语文本的大型解析树库，由大约14000万字组成的1000万解析句子构成。这些文本从2015至2021年间的新闻和政府网站中提取，并使用 Greynir 规则基础解析器进行机械解析，生成完整的成分树，存储为扁平文本格式。

数据集组成部分

铜标准：包含1000万机械解析和随机排序的句子，存储在psd/copper目录下的十个gzip压缩文件中，每个文件约200MB压缩，1.3GB未压缩。
银标准：包含60万独特的机械解析句子，根据多种语法属性选择，位于psd/silver目录。
金标准：包含5000个手动校正和验证的解析句子，分为测试集（500句子）和开发集（4500句子），分别位于testset/psd和devset/psd。
额外：包含标题和少于5个词的短句，存储在extra/目录，其中标题库包含531,855个解析句子，短句库包含1,652,938个解析句子。

解析工具

机械解析句子使用 Greynir v3.1.0 和 Tokenizer v3.1.1 进行解析。

许可证

数据集发布在 Creative Commons CC-BY 4.0 许可证下，开放且免费供一般使用，需注明出处。

使用要求

克隆此仓库需要 git-lfs。

搜集汇总

数据集介绍

构建方式

GreynirCorpus数据集的构建基于现代冰岛语文本的大规模解析树库。该数据集包含1000万条解析句子，约1.4亿单词，这些句子通过Greynir规则解析器进行机械解析。文本主要来源于2015年至2021年间的新闻和政府网站，解析后的句子以扁平文本格式存储，类似于Penn Treebank和IcePaHC的格式。数据集分为铜、银、金三个标准，分别包含机械解析的句子、基于语法属性筛选的句子以及手动校正的句子。

特点

GreynirCorpus数据集的特点在于其多层次的结构设计。铜标准部分包含1000万条机械解析的句子，银标准部分包含60万条基于语法属性筛选的句子，金标准部分则包含5000条经过手动校正的句子。此外，数据集还提供了额外的语料库，如标题和短句。所有数据均以扁平文本格式存储，便于进一步的语言学研究和技术开发。

使用方法

使用GreynirCorpus数据集时，可以通过Annotald工具进行解析和操作。数据集的金标准部分可用于测试和开发自然语言处理模型，特别是用于评估解析器的性能。数据集的铜和银标准部分则适用于大规模的语料库分析和模型训练。所有数据均以gzip压缩格式提供，用户需使用git-lfs进行克隆。数据集的使用需遵循Creative Commons CC-BY 4.0许可协议，并注明出处。

背景与挑战

背景概述

GreynirCorpus是由冰岛公司Miðeind ehf.于2015年至2021年间创建的一个大型冰岛语树库，包含约1000万条经过解析的句子，总计约1.4亿个单词。该数据集的主要目的是为自然语言处理（NLP）领域提供高质量的冰岛语文本资源，特别是在句法分析和语言模型训练方面。数据来源于新闻和政府网站，使用基于规则的Greynir解析器进行自动解析，并以类似于Penn Treebank和IcePaHC的格式存储。该数据集在冰岛政府的语言技术计划支持下开发，旨在推动冰岛语的语言技术研究与应用。

当前挑战

GreynirCorpus面临的挑战主要包括两个方面：一是冰岛语作为一种低资源语言，其复杂的语法结构和丰富的屈折变化使得自动解析和标注变得尤为困难，尤其是在处理长句和罕见语法结构时；二是数据集的构建过程中，如何确保自动解析的准确性和一致性，尤其是在面对大量异构文本时，如何有效过滤和校正错误解析的句子。此外，手动校正的黄金标准数据集规模较小，限制了其在训练和评估高精度解析模型中的应用。

常用场景

经典使用场景

GreynirCorpus作为一个大规模的冰岛语树库，广泛应用于自然语言处理领域，尤其是在句法分析和语言模型训练中。其包含的1000万条解析句子为研究者提供了丰富的语言数据，特别适用于开发冰岛语的句法解析器和语言模型。通过其铜、银、金标准数据集，研究者能够进行从基础到高级的语言分析任务。

衍生相关工作

GreynirCorpus的发布催生了一系列与冰岛语自然语言处理相关的研究工作。例如，基于该数据集的冰岛语句法解析器Greynir得到了进一步的优化和扩展。此外，许多研究者利用该数据集开发了冰岛语的语言模型和机器翻译系统，推动了冰岛语在语言技术领域的研究进展。这些工作不仅提升了冰岛语的语言处理能力，也为其他低资源语言的研究提供了宝贵的经验。

数据集最近研究