Nos_CorpusNOS-GL

github2024-03-05 更新2024-05-31 收录

下载链接：

https://github.com/proxectonos/corpora

下载链接

链接失效反馈

官方服务：

资源简介：

CorpusNÓS是一个为加利西亚语设计的大规模语料库，包含21亿个单词，主要用于训练大型语言模型。语料库的来源多样，涵盖了广泛的体裁。

CorpusNÓS is a large-scale corpus designed for the Galician language, comprising 2.1 billion words, primarily used for training large language models. The corpus sources are diverse, covering a wide range of genres.

创建时间：

2023-01-30

原始信息汇总

数据集概述

文本数据集（Macrocorpus）

名称： CorpusNÓS-GL

描述： CorpusNÓS是一个大规模的加利西亚语语料库，包含21亿个单词，主要用于训练大型语言模型。该语料库的来源多样，涵盖了广泛的文体。

结构：

Subcorpus	文体	词数	文档数
数据获取协议	书籍	7,255,784	104
	研究文章	2,665,351	664
	新闻	124,253,084	224,419
	政府文件	245,897,880	654,505
	网络内容	15,946,686	44,165
	百科全书	4,799,214	47,396
公共数据	新闻与博客	153,497,883	665,265
	百科全书	57,164,848	184,628
	网络爬虫	1,384,015,664	3,366,449
	翻译语料库	133,726,004	4,745,799

下载链接： Zenodo

语音识别（ASR）数据集

名称： Nos_ParlaSpeech-GL

描述： 用于ASR的语音和文本对齐数据集，包含超过1600小时的数据，源自2015年至2022年间加利西亚议会的全体会议。

结构：

Clean： 1,196.92小时（667,308段）
Other： 477.71小时（130,332段）

下载链接： Zenodo

名称： Nos_TranscriSpeech-GL

描述： 用于ASR的语音和文本对齐数据集，包含53小时的手动转录和校准数据。

结构：

主题子集： 会议、访谈、辩论、演讲

下载链接： Zenodo

语音合成（TTS）数据集

名称： Nos_Celtia-GL

描述： 用于TTS的单语言单说话者语音数据集，总时长25小时。

结构：

内容： 约20,000句话（约200,000词）

下载链接： Zenodo

自动翻译数据集

名称： Nos_ES-GL_aut, Nos_EN-GL_aut, Nos_ES-GL_sin, Nos_EN-GL_sin

描述： 包含加利西亚语的双语平行语料库，分为真实和合成两种类型。

下载链接：

Nos_ES-GL_aut: Zenodo
Nos_EN-GL_aut: Zenodo
Nos_ES-GL_sin: Zenodo
Nos_EN-GL_sin: Zenodo

评估数据集

名称： Nos_MT_Gold-ES-GL_1, Nos_MT_Gold-ES-GL_2, Nos_MT_Gold-EN-GL_1, Nos_MT_Gold-EN-GL_2, Nos_MT_Test-suite-ES-GL, Nos_MT_Test-suite-EN-GL

描述： 用于评估机器翻译系统的数据集。

下载链接：

Nos_MT_Gold-ES-GL_1: Zenodo
Nos_MT_Gold-ES-GL_2: Zenodo
Nos_MT_Gold-EN-GL_1: Zenodo
Nos_MT_Gold-EN-GL_2: Zenodo
Nos_MT_Test-suite-ES-GL: Zenodo
Nos_MT_Test-suite-EN-GL: Zenodo

搜集汇总

数据集介绍

构建方式

Nos_CorpusNOS-GL是一个为加利西亚语设计的大规模语料库，包含21亿个单词，主要用于训练大型语言模型。该语料库的构建基于多种来源，涵盖了广泛的文本类型，包括书籍、研究论文、新闻、政府文件、网页内容和百科全书等。语料库分为两个主要部分：通过转移协议获取的数据和公开数据。每个子语料库进一步按文本类型分类，并以纯文本格式（*.txt）存储，文档之间通过双换行符分隔。部分文件由于转移协议未完成，暂未包含在当前版本中，将在未来版本中补充。

使用方法

Nos_CorpusNOS-GL的使用方法相对简单。用户可以通过Zenodo平台下载整个语料库或特定子语料库。下载后的文件为纯文本格式，文档之间通过双换行符分隔，便于进一步处理和分析。用户可以根据研究需求选择特定的文本类型或子语料库进行使用。在使用该语料库时，建议引用相关文献以尊重数据提供者的工作。语料库的多样性和规模使其适用于多种自然语言处理任务，如语言模型训练、文本分类和信息检索等。

背景与挑战

背景概述

Nos_CorpusNOS-GL是由Proxecto Nós项目组于2024年发布的一个大规模加利西亚语语料库，旨在为训练大型语言模型提供支持。该语料库由Iria de-Dios-Flores等研究人员主导开发，收录了超过21亿个单词，涵盖了多种文本类型，包括书籍、研究论文、新闻、政府文件、网络内容等。该语料库的构建不仅丰富了加利西亚语的数字资源，还为自然语言处理领域的研究提供了重要的数据基础。其发布标志着加利西亚语在计算语言学中的进一步应用与发展，尤其是在多语言模型训练和语言技术开发方面具有深远影响。

当前挑战

Nos_CorpusNOS-GL在构建过程中面临多重挑战。首先，加利西亚语作为一种资源相对稀缺的语言，获取高质量、多样化的文本数据本身具有难度。其次，语料库的构建需要处理大量不同来源的数据，包括公共数据和通过协议获取的私有数据，这涉及到复杂的法律和技术问题，如数据许可和格式统一。此外，语料库的多样性和代表性也是一个关键挑战，确保涵盖广泛的文本类型和领域，同时避免数据偏差。最后，语料库的持续更新和维护需要长期的技术和资源投入，以确保其能够适应不断变化的语言技术和研究需求。

常用场景

经典使用场景

Nos_CorpusNOS-GL数据集在自然语言处理领域具有广泛的应用，尤其是在训练大规模语言模型方面。该数据集包含了超过21亿个单词，涵盖了多种文本类型，如书籍、研究论文、新闻、政府文件和网络内容等。这种多样化的文本来源使得该数据集能够为语言模型提供丰富的语言结构和语境信息，从而提升模型的泛化能力和准确性。

解决学术问题

Nos_CorpusNOS-GL数据集解决了在低资源语言环境下训练大规模语言模型的难题。由于加利西亚语（Galician）属于相对小众的语言，传统上缺乏足够的语料资源来支持先进的自然语言处理研究。该数据集的发布填补了这一空白，为研究人员提供了高质量的语料库，推动了加利西亚语在机器翻译、文本生成和语音识别等领域的研究进展。

实际应用

在实际应用中，Nos_CorpusNOS-GL数据集被广泛用于开发加利西亚语的智能助手、自动翻译系统和语音识别工具。例如，基于该数据集训练的模型可以用于加利西亚语的新闻摘要生成、法律文本分析以及教育资源的自动化处理。这些应用不仅提升了加利西亚语在数字化时代的可见性，也为当地社区提供了更便捷的语言技术支持。

数据集最近研究