faur-ai/fulg
收藏Hugging Face2024-08-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/faur-ai/fulg
下载链接
链接失效反馈官方服务:
资源简介:
FuLG数据集是一个包含1500亿个标记的罗马尼亚语语料库,这些数据是从Common Crawl中提取并经过严格过滤和去重处理的。该数据集经过95个Common Crawl快照的筛选和去重,压缩后的数据集大小为289 GB。数据集包含多个字段,如URL、下载日期、内容摘要、内容长度、行数、文档域名、文档标题、原始内容文本、CommonCrawl段、原始行数、原始长度、语言和语言评分。
The FuLG dataset is a comprehensive Romanian language corpus comprising 150 billion tokens, carefully extracted from Common Crawl. This extensive dataset is the result of rigorous filtering and deduplication processes applied to 95 Common Crawl snapshots. The compressed dataset has 289 GB. The dataset includes several fields such as URL, date of crawl, digest of content, length of content, number of lines, source domain, title of document, raw content text, CommonCrawl segment, original number of lines, original length, language, and language score.
提供机构:
faur-ai
原始信息汇总
FuLG 数据集概述
数据集简介
- 名称: FuLG
- 语言: 罗马尼亚语 (ro)
- 任务类别: 文本生成
- 标签: 语言建模, 休闲语言模型, 大型语言模型
- 大小: 100B < n < 1T
- 描述: FuLG 数据集是一个全面的罗马尼亚语语料库,包含 1500 亿个标记,从 Common Crawl 中精心提取。该数据集是通过对 95 个 Common Crawl 快照进行严格的过滤和去重处理而得到的,压缩后的数据集大小为 289 GB。
数据字段
url: 源 URL,字符串类型date_download: 下载日期digest: 内容哈希length: 内容长度nlines: 行数source_domain: 文档域名title: 文档标题raw_content: 文本内容,字符串类型cc_segment: 源 CommonCrawl 段original_nlines: 处理前的原始行数original_length: 处理前的原始长度language: 语言 (ro)language_score: 语言得分
下载方式
-
使用 🤗 Datasets: python from datasets import load_dataset dataset = load_dataset("faur-ai/fulg") dataset = load_dataset("faur-ai/fulg", data_dir=2018-05)
-
使用 Git: bash git clone https://huggingface.co/datasets/faur-ai/fulg
许可证信息
- 许可证: ODC-BY
- 说明: 使用此数据集时,您还必须遵守原始数据源的任何许可证协议和使用条款。
引用信息
- Bibtex: bibtex @misc{fulg150bromaniancorpus, title={FuLG: 150B Romanian Corpus for Language Model Pretraining}, author={Vlad-Andrei Bădoiu and Mihai-Valentin Dumitru and Alexandru M. Gherghescu and Alexandru Agache and Costin Raiciu}, year={2024}, eprint={2407.13657}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.13657}, }



