FuLG

Name: FuLG
Creator: 布加勒斯特理工大学
Published: 2024-07-19 00:32:48
License: 暂无描述

arXiv2024-07-19 更新2024-07-22 收录

下载链接：

https://hf.co/datasets/faur-ai/fulg

下载链接

链接失效反馈

官方服务：

资源简介：

FuLG数据集由布加勒斯特理工大学开发，是一个包含1560亿个token的罗马尼亚语预训练语料库。该数据集从CommonCrawl中提取，经过去重和内容过滤等处理步骤，确保数据质量和多样性。创建过程包括使用FastText进行语言识别和CCNet进行数据处理。FuLG主要用于提升罗马尼亚语在大型语言模型中的表现，解决该语言在现有模型中代表性不足的问题。

The FuLG dataset, developed by Politehnica University of Bucharest, is a Romanian pre-training corpus containing 156 billion tokens. It is extracted from CommonCrawl and has undergone processing procedures such as deduplication and content filtering to ensure data quality and diversity. Its development pipeline includes language identification using FastText and data processing via CCNet. FuLG is primarily intended to enhance the performance of Romanian in large language models, addressing the problem of its underrepresentation in existing models.

提供机构：

布加勒斯特理工大学

创建时间：

2024-07-19

原始信息汇总

数据集概述

数据集名称

名称: fulg
别名: faur-ai/fulg, FuLG

数据集描述

描述:
- FuLG数据集是一个全面的罗马尼亚语语料库，包含1500亿个标记，从Common Crawl中精心提取。该数据集是通过对95个Common Crawl快照进行严格过滤和去重处理得到的，压缩后的数据集大小为289 GB。更多详细信息可以查看arXiv预印本。

数据集创建者

创建者: faur-ai
网址: faur-ai

关键词

关键词:
- text-generation
- Romanian
- odc-by
- 100B<n<1T
- arxiv:2407.13657
- 🇺🇸 Region: US
- language-modeling
- casual-lm
- llm

许可证

许可证: ODC-BY

数据集链接

链接: fulg数据集

搜集汇总

数据集介绍

构建方式

FuLG数据集是从CommonCrawl中提取的1500亿罗马尼亚语语料库。该数据集的构建采用了一系列步骤，包括数据获取、去重、内容过滤、质量过滤等。首先，通过CCNet管道从CommonCrawl快照中下载并处理数据，然后使用FastText算法进行语言识别，并去除重复内容。接着，通过正则表达式过滤HTML文本提取的噪声，并移除可能具有争议的内容。最后，通过一系列质量信号过滤文档，最终得到一个高质量的数据集。

特点

FuLG数据集的特点在于其庞大的规模和高品质的数据。该数据集是现有罗马尼亚语语料库中最大的一个，其规模是现有数据集的三倍。此外，数据集在构建过程中注重质量，通过多种过滤手段确保了数据的准确性和可靠性。该数据集的发布为罗马尼亚语的语言模型预训练提供了宝贵资源。

使用方法

使用FuLG数据集的方法包括：首先，数据集可以从Hugging Face的datasets库中获取。其次，可以使用各种语言模型训练框架，如Transformers，来加载和训练数据集。在训练过程中，建议根据具体任务调整超参数，并使用适当的评估集来监控模型的性能。此外，为了更好地利用数据集，建议进行数据清洗和预处理，以确保模型训练的效率和效果。

背景与挑战

背景概述

FuLG数据集是由罗马尼亚布加勒斯特理工大学的Vlad-Andrei Bădoiu、Mihai-Valentin Dumitru、Alexandru M. Gherghescu、Alexandru Agache和Costin Raiciu等研究人员于2024年提出的一个大规模罗马尼亚语语料库。该数据集包含1500亿个 tokens，是从CommonCrawl中提取的罗马尼亚语内容构建而成。FuLG的构建旨在提升罗马尼亚语言在大规模语言模型中的表现，解决现有模型在罗马尼亚语等小众语言上的训练数据不足的问题。该数据集的发布，对于提升小众语言的语言模型训练质量和性能具有重要意义。

当前挑战

在构建FuLG数据集的过程中，研究人员面临了多方面的挑战。首先，由于CommonCrawl的数据量庞大，研究人员需要开发有效的数据处理流程，包括语言识别、去重和内容过滤等步骤。其次，针对罗马尼亚语言的特性，现有的数据过滤和质量控制方法可能不适用，因此需要开发适合该语言的质量过滤器。此外，构建大规模数据集时，还需考虑计算资源和存储的限制。在数据集构建完成后，如何评估其质量，以及如何将其有效应用于语言模型的预训练和微调，也是需要解决的问题。

常用场景

经典使用场景

FuLG数据集最经典的使用场景在于为语言模型预训练提供大规模的罗马尼亚语语料。该数据集从CommonCrawl中提取，经过筛选和清洗，为研究人员和开发者提供了一个高质量的罗马尼亚语语料库，以支持大型语言模型如GPT、BERT等在罗马尼亚语上的训练和微调。

解决学术问题

FuLG数据集解决了罗马尼亚语在大型语言模型训练中语料不足的问题。现有的开源预训练模型大多数集中在英语等主流语言，对于罗马尼亚语等小语种支持不足。FuLG的发布填补了这一空白，为罗马尼亚语的NLP研究提供了重要的数据资源，有助于提升小语种语言模型的质量和性能。

衍生相关工作

FuLG数据集的发布促进了相关领域的研究工作，例如基于该数据集的性能评估、语言模型在罗马尼亚语特定任务中的应用研究等。此外，FuLG也为其他小语种的数据集构建提供了参考，推动了多语言语言模型的公平性和包容性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集