five

olm/olm-CC-MAIN-2017-22-sampling-ratio-0.16178770949

收藏
Hugging Face2022-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olm/olm-CC-MAIN-2017-22-sampling-ratio-0.16178770949
下载链接
链接失效反馈
官方服务:
资源简介:
OLM May 2017 Common Crawl是一个经过清理和去重的预训练数据集,该数据集是从2017年5月的Common Crawl快照中提取的16%数据创建的。数据集为英语单语言,规模在10M到100M之间。需要注意的是,`last_modified_timestamp`是从网站的`Last-Modified`头中解析出来的,可能存在少量异常值,建议在使用该时间戳进行统计分析前移除异常值。
提供机构:
olm
原始信息汇总

数据集概述

基本信息

  • 名称: OLM May 2017 Common Crawl
  • 语言: 英语 (en)
  • 多语言性: 单语种
  • 许可证: 未指定
  • 大小: 10M<n<100M

数据集特性

  • 创建来源: 从May 2017 Common Crawl中提取的16%数据
  • 处理方式: 清洗和去重
  • 用途: 预训练和语言模型训练
  • 相关技术: 常见爬虫、网络数据

注意事项

  • 数据集的last_modified_timestamp可能包含少量错误,建议在使用前移除这些异常值。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作