five

Symato/cc

收藏
Hugging Face2023-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Symato/cc
下载链接
链接失效反馈
官方服务:
资源简介:
Symato CC数据集是从Common Crawl下载的所有WARC数据中过滤出的越南语Markdown和纯文本格式的数据集。Common Crawl中约有1%的内容是越南语,提取这些内容将产生约10TB的纯文本数据。数据集提供了简单的质量过滤代码示例,帮助用户处理原始数据。

Symato CC数据集是从Common Crawl下载的所有WARC数据中过滤出的越南语Markdown和纯文本格式的数据集。Common Crawl中约有1%的内容是越南语,提取这些内容将产生约10TB的纯文本数据。数据集提供了简单的质量过滤代码示例,帮助用户处理原始数据。
提供机构:
Symato
原始信息汇总

数据集概述

数据集名称

Symato CC

数据集用途

下载Common Crawl中的所有WARC数据,并筛选出Markdown和Plaintext格式的越南语文本。

数据集规模

  • 数据量:约10TB的纯文本数据
  • 规模分类:1K<n<10K

数据集语言

  • 越南语

许可证

  • MIT许可证

主要贡献者

  • https://huggingface.co/nampdn-ai
  • https://huggingface.co/binhvq
  • https://huggingface.co/th1nhng0
  • https://huggingface.co/iambestfeed

数据处理

  • 提供简单的质量过滤代码,用于转换和过滤数据。
  • 数据处理步骤包括将.parquet文件转换为.jsonl.gz,并应用质量过滤。

免责声明

  • 数据直接使用自Common Crawl,未进行额外质量保证。
  • 提供的基础过滤代码仅供参考,用户可能需要根据需求编写更高级的过滤器。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作