Браунський корпус української мови

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/brown-uk/corpus

下载链接

链接失效反馈

官方服务：

资源简介：

创建一个开放的、平衡各种文体并未来将进行注释的现代乌克兰语语料库（БрУК），包含100万个词汇使用实例。该语料库基于著名的英语布朗语料库的基本原则构建。

To create an open, balanced modern Ukrainian corpus (БрУК) that will be annotated in the future, containing 1 million instances of word usage. This corpus is constructed based on the fundamental principles of the renowned English Brown Corpus.

创建时间：

2016-07-18

原始信息汇总

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

misc - допоміжні файли
data - фрагменти текстів, зібрані для корпусу
- good - перевірені фрагменти, написані літературною українською мовою
- so-so - перевірені фрагменти, що містять помилки
- bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
- unprocessed - фрагменти, що чекають на перевірку
doc - документація: вимоги до фрагментів та рішення щодо мовних питань
scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

搜集汇总

数据集介绍

构建方式

Браунський корпус української мови（БрУК）的构建基于已知的英语布朗语料库的原理，旨在创建一个开放且按体裁平衡的现代乌克兰语语料库，目标容量为100万词次。该语料库的构建过程包括收集、分类和验证文本片段，具体分为四个类别：高质量的文学乌克兰语文本、包含错误的文本、完全不符合要求的文本以及待处理的文本。这一过程确保了语料库的多样性和质量。

特点

该数据集的特点在于其体裁平衡性和开放性，旨在为语言学研究提供丰富的资源。通过严格的文本分类和验证，确保了语料库的高质量和多样性。此外，数据集的构建还考虑了未来进行注释的可能性，以进一步增强其研究价值。

使用方法

使用该数据集时，用户可以访问不同质量级别的文本片段，从高质量的文学文本到待处理的未验证文本，以满足不同的研究需求。数据集的文档部分提供了详细的文本要求和语言问题的解决方案，帮助用户更好地理解和利用数据。用户还可以通过提供的辅助脚本进行统计计算和作品列表的生成，以支持更深入的分析和研究。

背景与挑战

背景概述

Браунський корпус української мови（БрУК）是由一群乌克兰语言学家和研究人员创建的开放性、多文体平衡的语言数据集，旨在收集和标注一百万个乌克兰语的词汇使用实例。该数据集的构建灵感来源于著名的Brown英语语料库，其核心研究问题在于如何有效地收集、分类和标注现代乌克兰语的多样化文本。该项目由包括Василь Старко、Андрій Рисін等在内的多位研究人员共同参与，其成果对乌克兰语言学研究和自然语言处理领域具有重要影响。

当前挑战

构建Браунський корпус乌克兰语的过程中，研究人员面临多重挑战。首先，确保数据集的文体平衡和多样性是一个复杂的过程，需要从不同来源收集和筛选文本。其次，文本的标注工作涉及大量的语言学知识和人工校对，以确保数据的质量和准确性。此外，处理和分类不同质量的文本片段（如‘good’、‘so-so’和‘bad’）也是一个技术难题，需要开发有效的算法和工具来实现自动化处理。这些挑战不仅影响了数据集的构建效率，也对后续的语言研究和应用提出了更高的要求。

常用场景

经典使用场景

Браунський корпус української мови（БрУК）的经典使用场景主要集中在语言学研究领域，特别是语料库语言学的应用。该数据集通过提供百万级的词汇使用实例，为研究者提供了丰富的语料资源，用于分析乌克兰语的词汇分布、语法结构、文体特征等。研究者可以利用这些数据进行语言模型的训练，从而提升自然语言处理技术在乌克兰语中的应用效果。

衍生相关工作

基于Браунський корпус української мови（БрУК），衍生了一系列重要的研究和工作。例如，ВЕСУМ项目利用该数据集构建了一个大规模的乌克兰语电子词典，为语言学研究和语言技术应用提供了重要的资源。LanguageTool项目则基于该数据集开发了乌克兰语的语法和风格检查工具，显著提升了文本处理的准确性。此外，lang-uk项目通过该数据集的资源，致力于提升计算机对乌克兰语文本的处理能力，推动了乌克兰语在计算机科学领域的应用。

数据集最近研究