five

masoudjs/c4-en-html-with-metadata-ppl-clean

收藏
Hugging Face2023-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/masoudjs/c4-en-html-with-metadata-ppl-clean
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: unknown --- File list: "c4-en-html_cc-main-2019-18_pq00-000.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-001.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-002.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-003.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-004.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-005.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-006.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-007.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-008.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-009.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-010.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-011.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-012.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-013.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-014.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-015.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-016.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-017.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-018.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-019.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-020.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-021.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-022.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-023.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-024.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-025.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-026.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-027.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-028.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-029.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-030.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-031.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-032.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-033.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-034.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-035.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-036.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-037.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-038.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-039.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-040.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-041.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-042.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-043.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-044.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-045.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-046.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-047.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-048.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-049.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-050.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-051.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-052.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-053.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-054.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-055.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-056.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-057.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-058.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-059.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-060.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-061.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-062.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-063.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-064.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-065.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-066.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-067.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-068.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-069.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-070.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-071.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-072.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-073.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-074.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-075.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-076.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-077.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-078.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-079.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-080.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-081.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-082.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-083.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-084.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-085.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-086.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-087.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-088.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-089.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-090.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-091.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-092.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-093.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-094.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-095.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-096.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-097.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-098.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-099.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-100.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-101.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-102.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-104.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-105.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-106.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-107.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-108.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-109.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-110.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-111.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-112.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-113.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-114.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-115.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-116.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-117.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-118.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-119.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-120.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-121.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-122.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-123.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-124.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-125.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-126.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-127.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-128.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-129.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-130.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-131.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-132.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-133.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-134.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-135.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-136.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-137.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-138.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-139.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-140.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-141.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-142.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-143.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-144.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-145.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-146.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-147.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-150.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-151.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-152.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-153.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-154.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-155.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-156.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-157.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-158.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-159.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-160.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-161.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-162.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-163.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-164.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-165.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-166.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-167.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-168.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-169.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-170.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-171.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-172.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-173.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-174.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-175.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-176.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-177.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-178.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-179.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-180.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-181.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-182.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-183.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-184.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-185.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-186.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-187.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-188.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-189.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-190.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-191.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-192.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-193.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-194.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-195.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-196.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-197.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-198.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-199.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-200.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-201.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-202.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-203.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-204.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-205.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-206.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-207.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-208.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-209.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-210.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-211.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-212.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-213.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-214.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-215.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-216.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-217.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-218.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-219.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-220.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-221.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-222.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-223.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-224.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-225.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-226.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-227.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-228.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-229.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-230.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-231.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-232.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-233.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-234.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-235.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-236.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-237.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-238.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-239.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-240.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-241.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-242.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-243.jsonl.gz", "c4-en-html_cc-main-2019-18_pq00-244.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-000.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-001.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-002.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-003.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-004.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-005.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-006.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-007.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-008.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-009.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-010.jsonl.gz", "c4-en-html_cc-main-2019-18_pq01-011.jsonl.gz",
提供机构:
masoudjs
原始信息汇总

数据集概述

文件列表

  • 本数据集包含多个文件,所有文件均为.jsonl.gz格式,文件名以"c4-en-html_cc-main-2019-18_"开头,后接不同的标识符和序号。
  • 文件数量众多,从"pq00-000.jsonl.gz"至"pq01-011.jsonl.gz",涵盖了多个序号段,每个序号段内的文件数量不等。

数据集特点

  • 文件命名规范,易于识别和索引。
  • 文件格式统一,便于数据处理和分析。

注意事项

  • 数据集的许可证状态为未知,使用前需确认相关权限和限制。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作