olm/olm-CC-MAIN-2017-22-sampling-ratio-0.16178770949
收藏Hugging Face2022-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olm/olm-CC-MAIN-2017-22-sampling-ratio-0.16178770949
下载链接
链接失效反馈官方服务:
资源简介:
OLM May 2017 Common Crawl是一个经过清理和去重的预训练数据集,该数据集是从2017年5月的Common Crawl快照中提取的16%数据创建的。数据集为英语单语言,规模在10M到100M之间。需要注意的是,`last_modified_timestamp`是从网站的`Last-Modified`头中解析出来的,可能存在少量异常值,建议在使用该时间戳进行统计分析前移除异常值。
提供机构:
olm
原始信息汇总
数据集概述
基本信息
- 名称: OLM May 2017 Common Crawl
- 语言: 英语 (en)
- 多语言性: 单语种
- 许可证: 未指定
- 大小: 10M<n<100M
数据集特性
- 创建来源: 从May 2017 Common Crawl中提取的16%数据
- 处理方式: 清洗和去重
- 用途: 预训练和语言模型训练
- 相关技术: 常见爬虫、网络数据
注意事项
- 数据集的
last_modified_timestamp可能包含少量错误,建议在使用前移除这些异常值。



