five

fulg

收藏
Hugging Face2024-07-19 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/faur-ai/fulg
下载链接
链接失效反馈
官方服务:
资源简介:
FuLG数据集是一个全面的罗马尼亚语语料库,包含1500亿个词元,精心从Common Crawl中提取。这个庞大的数据集是通过对95个Common Crawl快照进行严格过滤和去重处理得到的,压缩后的数据集大小为289 GB。数据集包含多个字段,如源URL、下载日期、内容哈希、长度、行数、源域、文档标题、原始内容、CommonCrawl段、处理前的原始行数和长度、语言及语言得分。该数据集在ODC-BY许可下发布。
创建时间:
2024-07-17
原始信息汇总

FuLG 数据集

概述

FuLG 数据集是一个全面的罗马尼亚语语料库,包含 1500 亿个标记,从 Common Crawl 中精心提取。该数据集是通过对 95 个 Common Crawl 快照进行严格的过滤和去重处理得到的,压缩后的数据集大小为 289 GB。

下载方式

使用 🤗 Datasets

python from datasets import load_dataset

完整数据集

dataset = load_dataset("faur-ai/fulg")

从特定 CC 快照加载数据

dataset = load_dataset("faur-ai/fulg", data_dir=2018-05)

使用 Git

bash git clone https://huggingface.co/datasets/faur-ai/fulg

数据字段

数据集包含以下字段:

  • url: 源地址字符串
  • date_download: 爬取日期
  • digest: 内容哈希
  • length: 内容长度
  • nlines: 行数
  • source_domain: 文档域名
  • title: 文档标题
  • raw_content: 文本内容字符串
  • cc_segment: 源 CommonCrawl 段
  • original_nlines: 处理前的原始行数
  • original_length: 处理前的原始长度
  • language: 语言(ro)
  • language_score: 语言得分

许可信息

该数据集在 ODC-BY 许可下发布。使用该数据集时,还需遵守原始数据源的任何许可协议和使用条款。

引用

如果使用该数据集,请引用: bibtex @misc{fulg150bromaniancorpus, title={FuLG: 150B Romanian Corpus for Language Model Pretraining}, author={Vlad-Andrei Bădoiu and Mihai-Valentin Dumitru and Alexandru M. Gherghescu and Alexandru Agache and Costin Raiciu}, year={2024}, eprint={2407.13657}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.13657}, }

搜集汇总
数据集介绍
main_image_url
构建方式
FuLG数据集是一个包含1500亿个标记的罗马尼亚语语料库,其数据来源于Common Crawl的95个快照。通过严格的过滤和去重处理,确保了数据的高质量和多样性。最终压缩后的数据集大小为289GB,适用于大规模语言模型的预训练任务。
特点
FuLG数据集不仅规模庞大,还具备丰富的数据字段,包括URL、爬取日期、内容摘要、文本长度、行数、源域名、标题、原始内容等。这些字段为研究者提供了多维度的分析视角,尤其适用于罗马尼亚语的语言模型训练和评估。此外,数据集还包含了语言识别分数,进一步增强了其在多语言环境下的适用性。
使用方法
FuLG数据集可通过Hugging Face的Datasets库直接加载,支持全量数据或特定Common Crawl快照的加载。用户只需调用`load_dataset`函数,并指定数据集名称即可。此外,数据集还支持通过Git进行克隆下载,便于本地使用。加载后的数据可直接用于语言模型的预训练、微调或其他自然语言处理任务。
背景与挑战
背景概述
FuLG数据集是一个包含1500亿个令牌的罗马尼亚语语料库,由Common Crawl的95个快照经过严格的过滤和去重处理构建而成。该数据集由Vlad-Andrei Bădoiu、Mihai-Valentin Dumitru等研究人员于2024年发布,旨在为罗马尼亚语的语言模型预训练提供高质量的数据支持。罗马尼亚语作为东欧地区的重要语言之一,其自然语言处理研究长期以来面临数据稀缺的挑战。FuLG的发布填补了这一空白,为罗马尼亚语的文本生成、语言建模等任务提供了丰富的资源,推动了该领域的研究进展。
当前挑战
FuLG数据集在构建过程中面临多重挑战。首先,从Common Crawl中提取罗马尼亚语文本需要高效的过滤和去重机制,以确保数据的纯净性和多样性。其次,罗马尼亚语的语法结构和词汇特点增加了数据处理的复杂性,尤其是在处理方言和俚语时。此外,数据集的规模庞大,压缩后仍达到289GB,对存储和计算资源提出了较高要求。在应用层面,如何利用这一大规模数据集进行有效的模型训练,尤其是在低资源环境下优化计算效率,仍是一个亟待解决的问题。
常用场景
经典使用场景
FuLG数据集作为罗马尼亚语的大规模语料库,广泛应用于语言模型的预训练任务。其1500亿个令牌的规模为研究人员提供了丰富的语言数据,特别适用于生成式语言模型的训练。通过从Common Crawl中提取并经过严格过滤和去重处理的数据,FuLG为罗马尼亚语的文本生成、语言理解和机器翻译等任务提供了坚实的基础。
解决学术问题
FuLG数据集解决了罗马尼亚语在自然语言处理领域数据稀缺的问题。由于罗马尼亚语资源相对有限,该数据集的发布填补了这一空白,为研究人员提供了高质量的语言数据,支持了罗马尼亚语的语言模型开发、跨语言迁移学习以及低资源语言处理的研究。其大规模和多样性使得模型能够更好地捕捉罗马尼亚语的语法、语义和语境特征。
衍生相关工作
FuLG数据集的发布催生了一系列相关研究工作,特别是在罗马尼亚语的语言模型优化和跨语言任务中的应用。例如,基于FuLG的预训练模型被用于改进罗马尼亚语的机器翻译性能,并在低资源语言处理任务中展示了显著的提升。此外,该数据集还启发了对罗马尼亚语方言和区域性语言变体的研究,进一步拓展了罗马尼亚语在自然语言处理领域的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作