Symato/cc
收藏Hugging Face2023-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Symato/cc
下载链接
链接失效反馈官方服务:
资源简介:
Symato CC数据集是从Common Crawl下载的所有WARC数据中过滤出的越南语Markdown和纯文本格式的数据集。Common Crawl中约有1%的内容是越南语,提取这些内容将产生约10TB的纯文本数据。数据集提供了简单的质量过滤代码示例,帮助用户处理原始数据。
Symato CC数据集是从Common Crawl下载的所有WARC数据中过滤出的越南语Markdown和纯文本格式的数据集。Common Crawl中约有1%的内容是越南语,提取这些内容将产生约10TB的纯文本数据。数据集提供了简单的质量过滤代码示例,帮助用户处理原始数据。
提供机构:
Symato
原始信息汇总
数据集概述
数据集名称
Symato CC
数据集用途
下载Common Crawl中的所有WARC数据,并筛选出Markdown和Plaintext格式的越南语文本。
数据集规模
- 数据量:约10TB的纯文本数据
- 规模分类:1K<n<10K
数据集语言
- 越南语
许可证
- MIT许可证
主要贡献者
- https://huggingface.co/nampdn-ai
- https://huggingface.co/binhvq
- https://huggingface.co/th1nhng0
- https://huggingface.co/iambestfeed
数据处理
- 提供简单的质量过滤代码,用于转换和过滤数据。
- 数据处理步骤包括将.parquet文件转换为.jsonl.gz,并应用质量过滤。
免责声明
- 数据直接使用自Common Crawl,未进行额外质量保证。
- 提供的基础过滤代码仅供参考,用户可能需要根据需求编写更高级的过滤器。



