five

faur-ai/fulg

收藏
Hugging Face2024-08-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/faur-ai/fulg
下载链接
链接失效反馈
官方服务:
资源简介:
FuLG数据集是一个包含1500亿个标记的罗马尼亚语语料库,这些数据是从Common Crawl中提取并经过严格过滤和去重处理的。该数据集经过95个Common Crawl快照的筛选和去重,压缩后的数据集大小为289 GB。数据集包含多个字段,如URL、下载日期、内容摘要、内容长度、行数、文档域名、文档标题、原始内容文本、CommonCrawl段、原始行数、原始长度、语言和语言评分。

The FuLG dataset is a comprehensive Romanian language corpus comprising 150 billion tokens, carefully extracted from Common Crawl. This extensive dataset is the result of rigorous filtering and deduplication processes applied to 95 Common Crawl snapshots. The compressed dataset has 289 GB. The dataset includes several fields such as URL, date of crawl, digest of content, length of content, number of lines, source domain, title of document, raw content text, CommonCrawl segment, original number of lines, original length, language, and language score.
提供机构:
faur-ai
原始信息汇总

FuLG 数据集概述

数据集简介

  • 名称: FuLG
  • 语言: 罗马尼亚语 (ro)
  • 任务类别: 文本生成
  • 标签: 语言建模, 休闲语言模型, 大型语言模型
  • 大小: 100B < n < 1T
  • 描述: FuLG 数据集是一个全面的罗马尼亚语语料库,包含 1500 亿个标记,从 Common Crawl 中精心提取。该数据集是通过对 95 个 Common Crawl 快照进行严格的过滤和去重处理而得到的,压缩后的数据集大小为 289 GB。

数据字段

  • url: 源 URL,字符串类型
  • date_download: 下载日期
  • digest: 内容哈希
  • length: 内容长度
  • nlines: 行数
  • source_domain: 文档域名
  • title: 文档标题
  • raw_content: 文本内容,字符串类型
  • cc_segment: 源 CommonCrawl 段
  • original_nlines: 处理前的原始行数
  • original_length: 处理前的原始长度
  • language: 语言 (ro)
  • language_score: 语言得分

下载方式

  • 使用 🤗 Datasets: python from datasets import load_dataset dataset = load_dataset("faur-ai/fulg") dataset = load_dataset("faur-ai/fulg", data_dir=2018-05)

  • 使用 Git: bash git clone https://huggingface.co/datasets/faur-ai/fulg

许可证信息

  • 许可证: ODC-BY
  • 说明: 使用此数据集时,您还必须遵守原始数据源的任何许可证协议和使用条款。

引用信息

  • Bibtex: bibtex @misc{fulg150bromaniancorpus, title={FuLG: 150B Romanian Corpus for Language Model Pretraining}, author={Vlad-Andrei Bădoiu and Mihai-Valentin Dumitru and Alexandru M. Gherghescu and Alexandru Agache and Costin Raiciu}, year={2024}, eprint={2407.13657}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.13657}, }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作