fulg

Hugging Face2024-07-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/faur-ai/fulg

下载链接

链接失效反馈

官方服务：

资源简介：

FuLG数据集是一个全面的罗马尼亚语语料库，包含1500亿个词元，精心从Common Crawl中提取。这个庞大的数据集是通过对95个Common Crawl快照进行严格过滤和去重处理得到的，压缩后的数据集大小为289 GB。数据集包含多个字段，如源URL、下载日期、内容哈希、长度、行数、源域、文档标题、原始内容、CommonCrawl段、处理前的原始行数和长度、语言及语言得分。该数据集在ODC-BY许可下发布。

The FuLG Dataset is a comprehensive Romanian language corpus containing 150 billion tokens, meticulously extracted from Common Crawl. This massive dataset was obtained through rigorous filtering and deduplication processing of 95 Common Crawl snapshots, with a compressed size of 289 GB. The dataset includes multiple fields such as source URL, download date, content hash, length, number of lines, source domain, document title, raw content, Common Crawl segment, original line count and length before processing, language and language score. This dataset is released under the ODC-BY license.

创建时间：

2024-07-17

原始信息汇总

FuLG 数据集

概述

FuLG 数据集是一个全面的罗马尼亚语语料库，包含 1500 亿个标记，从 Common Crawl 中精心提取。该数据集是通过对 95 个 Common Crawl 快照进行严格的过滤和去重处理得到的，压缩后的数据集大小为 289 GB。

下载方式

使用 🤗 Datasets

python from datasets import load_dataset

完整数据集

dataset = load_dataset("faur-ai/fulg")

从特定 CC 快照加载数据

dataset = load_dataset("faur-ai/fulg", data_dir=2018-05)

使用 Git

bash git clone https://huggingface.co/datasets/faur-ai/fulg

数据字段

数据集包含以下字段：

url: 源地址字符串
date_download: 爬取日期
digest: 内容哈希
length: 内容长度
nlines: 行数
source_domain: 文档域名
title: 文档标题
raw_content: 文本内容字符串
cc_segment: 源 CommonCrawl 段
original_nlines: 处理前的原始行数
original_length: 处理前的原始长度
language: 语言（ro）
language_score: 语言得分

许可信息

该数据集在 ODC-BY 许可下发布。使用该数据集时，还需遵守原始数据源的任何许可协议和使用条款。

引用

如果使用该数据集，请引用： bibtex @misc{fulg150bromaniancorpus, title={FuLG: 150B Romanian Corpus for Language Model Pretraining}, author={Vlad-Andrei Bădoiu and Mihai-Valentin Dumitru and Alexandru M. Gherghescu and Alexandru Agache and Costin Raiciu}, year={2024}, eprint={2407.13657}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.13657}, }

搜集汇总

数据集介绍

构建方式

FuLG数据集是一个包含1500亿个标记的罗马尼亚语语料库，其数据来源于Common Crawl的95个快照。通过严格的过滤和去重处理，确保了数据的高质量和多样性。最终压缩后的数据集大小为289GB，适用于大规模语言模型的预训练任务。

特点

FuLG数据集不仅规模庞大，还具备丰富的数据字段，包括URL、爬取日期、内容摘要、文本长度、行数、源域名、标题、原始内容等。这些字段为研究者提供了多维度的分析视角，尤其适用于罗马尼亚语的语言模型训练和评估。此外，数据集还包含了语言识别分数，进一步增强了其在多语言环境下的适用性。

使用方法

FuLG数据集可通过Hugging Face的Datasets库直接加载，支持全量数据或特定Common Crawl快照的加载。用户只需调用`load_dataset`函数，并指定数据集名称即可。此外，数据集还支持通过Git进行克隆下载，便于本地使用。加载后的数据可直接用于语言模型的预训练、微调或其他自然语言处理任务。

背景与挑战

背景概述

FuLG数据集是一个包含1500亿个令牌的罗马尼亚语语料库，由Common Crawl的95个快照经过严格的过滤和去重处理构建而成。该数据集由Vlad-Andrei Bădoiu、Mihai-Valentin Dumitru等研究人员于2024年发布，旨在为罗马尼亚语的语言模型预训练提供高质量的数据支持。罗马尼亚语作为东欧地区的重要语言之一，其自然语言处理研究长期以来面临数据稀缺的挑战。FuLG的发布填补了这一空白，为罗马尼亚语的文本生成、语言建模等任务提供了丰富的资源，推动了该领域的研究进展。

当前挑战

FuLG数据集在构建过程中面临多重挑战。首先，从Common Crawl中提取罗马尼亚语文本需要高效的过滤和去重机制，以确保数据的纯净性和多样性。其次，罗马尼亚语的语法结构和词汇特点增加了数据处理的复杂性，尤其是在处理方言和俚语时。此外，数据集的规模庞大，压缩后仍达到289GB，对存储和计算资源提出了较高要求。在应用层面，如何利用这一大规模数据集进行有效的模型训练，尤其是在低资源环境下优化计算效率，仍是一个亟待解决的问题。

常用场景

经典使用场景

FuLG数据集作为罗马尼亚语的大规模语料库，广泛应用于语言模型的预训练任务。其1500亿个令牌的规模为研究人员提供了丰富的语言数据，特别适用于生成式语言模型的训练。通过从Common Crawl中提取并经过严格过滤和去重处理的数据，FuLG为罗马尼亚语的文本生成、语言理解和机器翻译等任务提供了坚实的基础。

解决学术问题

FuLG数据集解决了罗马尼亚语在自然语言处理领域数据稀缺的问题。由于罗马尼亚语资源相对有限，该数据集的发布填补了这一空白，为研究人员提供了高质量的语言数据，支持了罗马尼亚语的语言模型开发、跨语言迁移学习以及低资源语言处理的研究。其大规模和多样性使得模型能够更好地捕捉罗马尼亚语的语法、语义和语境特征。

衍生相关工作

FuLG数据集的发布催生了一系列相关研究工作，特别是在罗马尼亚语的语言模型优化和跨语言任务中的应用。例如，基于FuLG的预训练模型被用于改进罗马尼亚语的机器翻译性能，并在低资源语言处理任务中展示了显著的提升。此外，该数据集还启发了对罗马尼亚语方言和区域性语言变体的研究，进一步拓展了罗马尼亚语在自然语言处理领域的应用范围。

以上内容由遇见数据集搜集并总结生成