fulg
收藏FuLG 数据集
概述
FuLG 数据集是一个全面的罗马尼亚语语料库,包含 1500 亿个标记,从 Common Crawl 中精心提取。该数据集是通过对 95 个 Common Crawl 快照进行严格的过滤和去重处理得到的,压缩后的数据集大小为 289 GB。
下载方式
使用 🤗 Datasets
python from datasets import load_dataset
完整数据集
dataset = load_dataset("faur-ai/fulg")
从特定 CC 快照加载数据
dataset = load_dataset("faur-ai/fulg", data_dir=2018-05)
使用 Git
bash git clone https://huggingface.co/datasets/faur-ai/fulg
数据字段
数据集包含以下字段:
url: 源地址字符串date_download: 爬取日期digest: 内容哈希length: 内容长度nlines: 行数source_domain: 文档域名title: 文档标题raw_content: 文本内容字符串cc_segment: 源 CommonCrawl 段original_nlines: 处理前的原始行数original_length: 处理前的原始长度language: 语言(ro)language_score: 语言得分
许可信息
该数据集在 ODC-BY 许可下发布。使用该数据集时,还需遵守原始数据源的任何许可协议和使用条款。
引用
如果使用该数据集,请引用: bibtex @misc{fulg150bromaniancorpus, title={FuLG: 150B Romanian Corpus for Language Model Pretraining}, author={Vlad-Andrei Bădoiu and Mihai-Valentin Dumitru and Alexandru M. Gherghescu and Alexandru Agache and Costin Raiciu}, year={2024}, eprint={2407.13657}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.13657}, }




