GigaVerbo

github2024-11-14 更新2024-11-28 收录

下载链接：

https://github.com/Nkluge-correa/Tucano

下载链接

链接失效反馈

官方服务：

资源简介：

GigaVerbo是一个包含200亿个葡萄牙语文本的文本语料库，用于促进葡萄牙语神经文本生成的开放开发。

GigaVerbo is a text corpus containing 20 billion tokens of Portuguese text, aimed at facilitating open development of neural text generation for the Portuguese language.

创建时间：

2024-11-10

原始信息汇总

Tucano: Advancing Neural Text Generation for Portuguese

数据集概述

名称: Tucano
描述: Tucano是一个用于葡萄牙语神经文本生成的解码器-变换器系列模型。该数据集包括GigaVerbo，一个包含2000亿个去重葡萄牙语文本的语料库。
语言: 葡萄牙语
许可证: Apache License 2.0

数据集组成

GigaVerbo: 一个包含2000亿个去重葡萄牙语文本的语料库。
Tucano模型: 一系列在葡萄牙语上原生预训练的解码器-变换器模型。

数据集用途

主要用途: 作为葡萄牙语语言建模研究与开发的基础模型。
适用场景: 用于进行比较实验，特别是关于主动预训练对当前可用基准性能的影响。
限制:
- 不适用于直接部署。
- 仅适用于葡萄牙语文本生成任务。
- 未针对下游任务进行微调。

数据集限制

幻觉: 模型可能产生误导性或完全错误的内容。
偏见和毒性: 模型继承了训练数据中的社会和历史刻板印象，可能产生有害内容。
代码生成不可靠: 模型可能生成不正确的代码片段和语句。
语言限制: 主要设计用于葡萄牙语，其他语言可能导致误解或错误。
重复和冗长: 模型可能陷入重复循环或生成与提示无关的冗长响应。

引用

latex @misc{correa2024tucanoadvancingneuraltext, title={{Tucano: Advancing Neural Text Generation for Portuguese}}, author={Corr{^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza}, year={2024}, eprint={2411.07854}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.07854}, }

搜集汇总

数据集介绍

构建方式

GigaVerbo数据集的构建基于对葡萄牙语文本的广泛收集与去重处理，最终形成了一个包含2000亿个token的庞大语料库。该数据集的构建过程涉及多种自然语言处理技术，包括文本过滤、分词和数据清洗等步骤。通过使用PyTorch框架及其相关库，如Transformers、Datasets和Tokenizers，研究人员能够高效地处理和预处理这些海量数据，为后续的神经网络训练提供了坚实的基础。

使用方法

GigaVerbo数据集主要用于支持葡萄牙语的神经文本生成模型的预训练。研究人员可以通过提供的Python脚本和YAML配置文件，自定义训练过程，包括选择不同的分词器（如Sentencepiece和BPE）和调整训练参数。数据集的预训练结果可以进一步用于监督微调（SFT）和直接偏好优化（DPO），以提升模型在特定任务上的表现。此外，数据集的日志和评估结果也提供了详细的训练过程记录，便于分析和优化模型的性能。

背景与挑战

背景概述

GigaVerbo数据集是由Nicholas Kluge Corrêa等人于2024年创建，旨在推动葡萄牙语神经文本生成的发展。该数据集由2000亿个去重后的葡萄牙语文本标记组成，是Tucano系列解码器-变换器模型的基础。GigaVerbo的创建不仅为葡萄牙语的自然语言处理研究提供了丰富的资源，还为相关领域的研究者提供了开放的源代码和训练脚本，极大地促进了葡萄牙语文本生成技术的发展。

当前挑战

GigaVerbo数据集在构建过程中面临多个挑战。首先，处理2000亿个去重标记的文本数据需要高效的算法和强大的计算资源。其次，确保数据集的质量和多样性，避免偏见和毒性内容的传播，是另一个重要挑战。此外，由于Tucano模型主要针对葡萄牙语设计，其在其他语言上的应用受到限制，这要求研究者在多语言环境下的适应性和鲁棒性方面进行深入探索。最后，尽管Tucano模型在文本生成方面表现出色，但其生成的内容可能存在事实错误、偏见和重复性问题，这需要在实际应用中进行风险评估和持续优化。

常用场景

经典使用场景

GigaVerbo数据集的经典使用场景主要集中在神经文本生成领域，特别是在葡萄牙语的自然语言处理任务中。该数据集被广泛用于预训练和微调葡萄牙语的解码器-变换器模型，如Tucano系列。通过提供2000亿个去重后的葡萄牙语文本标记，GigaVerbo为模型提供了丰富的语言资源，使其能够在生成葡萄牙语文本时表现出更高的准确性和流畅性。

解决学术问题

GigaVerbo数据集在学术研究中解决了多个关键问题，特别是在葡萄牙语的自然语言生成领域。首先，它填补了葡萄牙语大规模文本数据集的空白，为研究人员提供了丰富的资源进行模型训练和评估。其次，通过提供高质量的预训练数据，GigaVerbo有助于提升模型的泛化能力和鲁棒性，从而推动了葡萄牙语自然语言处理技术的发展。此外，该数据集还促进了跨语言模型的研究，为多语言文本生成提供了新的视角。

实际应用

在实际应用中，GigaVerbo数据集主要用于构建和优化葡萄牙语的神经文本生成系统。例如，它可以用于开发智能助手、聊天机器人和内容生成工具，这些工具能够以葡萄牙语为用户提供服务。此外，GigaVerbo还可以应用于教育领域，帮助开发葡萄牙语的语言学习应用，提升学习者的语言理解和生成能力。通过这些应用，GigaVerbo不仅提升了葡萄牙语的处理效率，还推动了相关技术的实际应用和商业化进程。

数据集最近研究