Macedonian Corpus

github2025-01-20 更新2025-01-21 收录

下载链接：

https://github.com/LVSTCK/macedonian-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含用于处理、清理和管理马其顿语语料库的脚本、笔记本和文档。语料库包括三个版本：原始版本（37.6 GB，3.53亿单词）、清理版本（35.5 GB，3.31亿单词）和清理并去重版本（16.78 GB，1.47亿单词）。该语料库支持预训练/微调大型语言模型、机器翻译和语言分析。

This repository contains scripts, Jupyter notebooks, and documentation for processing, cleaning, and managing the Macedonian language corpus. The corpus includes three variants: the raw version (37.6 GB, 353 million words), the cleaned version (35.5 GB, 331 million words), and the cleaned and deduplicated version (16.78 GB, 147 million words). This corpus supports pretraining/finetuning of large language models, machine translation, and linguistic analysis.

创建时间：

2024-12-23

原始信息汇总

马其顿语语料库概述

数据集简介

名称: 马其顿语语料库 (Macedonian Corpus)
类型: 文本语料库
用途: 用于自然语言处理（NLP）研究，包括预训练/微调大型语言模型（LLMs）、机器翻译和语言分析。

数据集版本

Raw (原始版本): 37.6 GB，包含35.3亿单词。
Cleaned (清理版本): 35.5 GB，包含33.1亿单词（经过质量过滤）。
Cleaned + Deduplicated (清理并去重版本): 16.78 GB，包含14.7亿单词（高质量，冗余最少）。

数据集来源

HPLT: 15.85 GB，1.49亿单词，占比42.21%。
HuggingFace (fineweb-2): 14.21 GB，1.33亿单词，占比37.66%。
CLARIN (MaCoCu-mk 2.0): 5.20 GB，0.49亿单词，占比13.92%。
Wikipedia: 0.78 GB，0.07亿单词，占比1.96%。
Other (MMORE): 1.48 GB，0.14亿单词，占比4.07%。
Common Voice: 0.02 GB，0.0018亿单词，占比0.05%。
SETimes Corpus: 0.06 GB，0.0044亿单词，占比0.13%。

数据集处理

过滤: 使用filter.py脚本进行数据清理，包括C4-like过滤、Gopher-like过滤、语言检测、句子去重和个人信息过滤。
下载: 使用download.py脚本从源下载原始数据集。
去重: 使用minhash.py脚本进行二次去重。

数据集贡献

数字化书籍和材料: 贡献者可以通过数字化公共领域的书籍和文档来扩展数据集。
扩展数据收集: 分享其他形式的马其顿语文本数据，如文章、论文或转录文本。
鼓励机构参与: 希望马其顿的图书馆、大学和研究中心参与马其顿语材料的数字化工作。

联系方式

Stefan Krsteski: LinkedIn | Email
Borjan Sazdov: LinkedIn | Email
Matea Tashkovska: LinkedIn | Email

特别感谢

Said Gürbüz: LinkedIn
Vinko Sabolcec: Hugging Face

搜集汇总

数据集介绍

构建方式

Macedonian Corpus的构建过程涵盖了从多个来源收集数据、清洗和去重等多个步骤。首先，通过爬取PDF文件、整合Common Voice数据集以及其他公开资源，生成了原始数据集。随后，使用C4-like和Gopher-like过滤技术对原始数据进行清洗，去除低质量文本和重复内容，并应用语言检测确保文本为马其顿语。最后，通过MinHash算法进行去重处理，生成高质量、低冗余的最终版本。

特点

Macedonian Corpus是首个专门为马其顿语自然语言处理研究构建的语料库，包含三个版本：原始版、清洗版和去重版。原始版包含37.6 GB的文本数据，清洗版通过过滤低质量内容缩减至35.5 GB，而去重版进一步压缩至16.78 GB，确保文本的高质量和最小冗余。该语料库支持大规模语言模型预训练、机器翻译和语言学分析，为马其顿语NLP研究提供了重要资源。

使用方法

使用Macedonian Corpus时，用户可以从Hugging Face平台下载原始、清洗或去重版本的数据集。对于本地处理，用户可通过提供的Python脚本进行数据下载、清洗和去重操作。清洗过程支持多线程处理，适用于大规模数据。此外，用户可以根据需求调整过滤和去重参数，或通过贡献新的马其顿语文本数据扩展语料库。

背景与挑战

背景概述

Macedonian Corpus 是首个为自然语言处理（NLP）研究而整合的马其顿语语料库，由多个来源的数据集构建而成，包括书籍、学术论文、维基百科、网络爬取数据等。该语料库的创建旨在解决马其顿语在NLP领域中的资源匮乏问题，特别是在预训练大型语言模型、机器翻译和语言学分析方面的需求。语料库分为三个版本：原始版本、清理版本和去重版本，分别针对不同的研究需求。该数据集由多个研究机构和贡献者共同开发，包括Hugging Face、CLARIN、HPLT等，标志着马其顿语NLP研究的重要进展。

当前挑战

Macedonian Corpus 的构建面临多重挑战。首先，马其顿语作为低资源语言，其可用文本数据的稀缺性使得数据收集和整合变得尤为困难。其次，数据质量的保障是核心挑战之一，特别是在清理和去重过程中，如何有效过滤低质量文本、重复内容以及个人身份信息（PII）是技术上的难点。此外，数据来源的多样性和格式不统一也增加了数据处理的复杂性。最后，构建大规模语料库所需的计算资源和时间成本较高，尤其是在多线程处理和分布式计算环境中，如何优化资源利用也是一个亟待解决的问题。

常用场景

经典使用场景

Macedonian Corpus作为首个整合的马其顿语语料库，广泛应用于自然语言处理（NLP）领域的研究与开发。其经典使用场景包括大型语言模型的预训练与微调、机器翻译系统的构建以及马其顿语的语法与语义分析。通过提供高质量的文本数据，该数据集为马其顿语的语言模型训练提供了坚实的基础，填补了该语言在NLP研究中的空白。

解决学术问题

Macedonian Corpus解决了马其顿语在NLP研究中数据稀缺的核心问题。通过整合来自多个来源的文本数据，并经过严格的清洗与去重处理，该数据集为研究人员提供了高质量的语言资源。这不仅支持了马其顿语的语言模型开发，还为跨语言研究、低资源语言处理以及语言多样性保护等学术问题提供了重要的数据支持。

衍生相关工作

Macedonian Corpus的发布催生了一系列相关研究与应用。例如，基于该数据集的研究成果包括马其顿语的语言模型优化、跨语言翻译系统的开发以及低资源语言处理技术的改进。此外，该数据集还激发了更多关于马其顿语语言资源数字化的倡议，推动了马其顿语在NLP领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集