five

AICC

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/opendatalab/AICC
下载链接
链接失效反馈
官方服务:
资源简介:
AICC(AI-ready Common Crawl)是一个基于Common Crawl数据解析和提取的Markdown格式、AI-ready网络数据集。该数据集使用OpenDataLab开发的网络提取技术——Dripper方法生成。数据集中包含从Common Crawl页面中提取的高保真主内容,包括论坛、问答网站、表格或公式等具有挑战性的类型。同时,它还精确地提取了来自现实世界网页的代码块、数学公式和复杂表格,保留了语法、格式和结构完整性。在AICC上进行语言模型预训练,在各种基准测试中的准确性高于使用其他方法提取的数据集。
创建时间:
2025-10-15
原始信息汇总

AICC数据集概述

数据集基本信息

  • 数据集名称: AICC (AI-ready Common Crawl Dataset)
  • 数据来源: Common Crawl网络爬虫
  • 数据格式: Markdown格式的网页主要内容
  • 许可证: CC BY 4.0
  • 数据规模: 10亿-100亿条记录

数据集特点

  • 高质量主要内容: 从多样化Common Crawl页面中提取高保真主要内容,包括论坛、问答网站等具有挑战性的页面类型
  • 精确结构化元素: 高保真提取代码块、数学公式和复杂表格,保留语法、格式和结构完整性
  • 已验证的下游效果: 在AICC上预训练语言模型相比其他方法提取的数据集,在多样化基准测试中可获得更高准确率

数据来源

  • 原始HTML来源: Common Crawl的两个转储文件
    • CC-MAIN-2025-08
    • CC-MAIN-2025-13
  • 处理流程: 使用OpenDataLab开发的Dripper网络提取流水线

数据统计

Common Crawl转储 AICC JSON记录数 原始页面数(未包含)
CC-MAIN-2025-08 2,412,939,230 2,679,687,937
CC-MAIN-2025-13 2,474,534,209 2,740,793,128

数据格式说明

字段名称 字段描述 备注
track_id 记录的唯一跟踪标识符 -
warc_request_headers 请求的归档元数据 源自Common Crawl WARC文件中的请求类型记录
http_request_headers 请求的HTTP元数据,包括HTTP头 源自Common Crawl WARC文件中的请求类型记录
warc_response_headers 响应的归档元数据 源自Common Crawl WARC文件中的响应类型记录
http_response_headers 响应的HTTP元数据,包括HTTP头和相关字段 源自Common Crawl WARC文件中的响应类型记录
warc_metadata_headers 元数据记录本身的归档元数据 源自Common Crawl WARC文件中的元数据类型记录
warc_metadata_data 与请求或响应相关的爬取上下文信息 源自Common Crawl WARC文件中的元数据类型记录
url 网页的完整原始URL,指示内容来源 -
language 网页的主要语言 使用fastText语言检测模型lid.176.bin识别
content 从网页HTML提取的干净Markdown格式内容 -
extract_method 使用的网页内容提取方法名称 -
sub_path 原始Common Crawl存储结构中的相对路径或分片位置 用于在WARC/WAT/WET文件中定位记录的原始来源,支持数据可追溯性和验证

许可证与伦理说明

  • 许可证: CC BY 4.0,使用时需要署名
  • 伦理声明: 数据集源自Common Crawl网页,可能包含有偏见或敏感内容;用户需对研究或应用中的伦理和法律使用负责
搜集汇总
数据集介绍
main_image_url
构建方式
在互联网数据挖掘领域,AICC数据集通过Dripper内容提取流水线,从Common Crawl项目提供的CC-MAIN-2025-08与CC-MAIN-2025-13两大原始网页快照中,系统性地剥离出结构化语义内容。该技术流程对论坛、问答站点等复杂页面架构具有特殊适应性,将原始HTML转化为标准化的Markdown格式,最终形成包含48亿余条高质量文本记录的语料库。
特点
作为面向人工智能训练的大规模语料,AICC的突出特性体现在对网页原生结构的精准还原。其不仅完整保留了代码块、数学公式与复杂表格的语法特征,更通过多层级元数据字段实现数据溯源。相较于传统网页抓取方法,该数据集在语言模型预训练任务中展现出显著的性能优势,为复杂语义理解任务提供了丰富的上下文信息。
使用方法
研究人员可通过解析JSON格式的记录文件直接获取Markdown化内容,其中content字段承载核心文本信息,配套的URL与语言标识符支持细粒度数据筛选。数据集的子路径字段与WARC原始文件映射机制,为学术验证提供了完整的溯源路径,使用者需遵循CC BY 4.0许可协议进行合规应用。
背景与挑战
背景概述
随着大规模语言模型对高质量训练数据需求的日益增长,AICC数据集应运而生,由OpenDataLab团队基于Common Crawl构建,旨在解决网络原始数据中噪声干扰与语义结构缺失的核心问题。该数据集通过自主研发的Dripper流水线技术,从2025年发布的CC-MAIN-2025-08与CC-MAIN-2025-13两个网络快照中提取出近50亿条经过语义清洗的Markdown格式文本,其创新性地保留了论坛对话、数学公式及复杂表格等异构内容的逻辑结构,显著提升了预训练模型在多领域基准测试中的泛化能力,为下一代人工智能基础模型提供了关键数据支撑。
当前挑战
在解决网络内容结构化提取这一领域难题时,AICC需应对网页模板多样性导致的正文识别偏差、动态渲染内容捕获不完整等核心挑战。构建过程中面临大规模数据处理的技术瓶颈,包括对数TB级原始HTML的实时解析效率优化、多语言环境下字符编码统一性维护,以及代码块与数学公式等特殊元素的结构化保真度控制,这些因素共同构成了数据集质量保障的关键技术壁垒。
常用场景
经典使用场景
在自然语言处理领域,AICC数据集凭借其从Common Crawl提取的高质量Markdown格式内容,成为大规模语言模型预训练的核心资源。该数据集特别适用于处理论坛讨论、技术问答等复杂文本场景,其精确保留的代码块与数学公式结构为模型理解结构化信息提供了理想素材。通过Dripper流水线处理的语义化内容,显著提升了模型在多样化语料上的泛化能力。
实际应用
在产业实践中,AICC支撑着智能客服系统的语义理解模块优化,其丰富的问答场景数据助力构建更精准的对话系统。教育科技领域利用其包含的数学公式与代码片段,开发出具备解题指导功能的智能教学助手。内容创作行业则借助其多样化的文本风格,训练出适应不同场景的自动写作工具,显著提升了数字内容的生产效率。
衍生相关工作
基于AICC数据集的特性,学术界衍生出多项重要研究。OpenDataLab团队开发的Dripper提取框架已成为网页内容清洗的新标准,后续研究在此基础上提出了改进的语义保持算法。多个知名语言模型项目采用该数据集进行预训练优化,相关成果在代码补全、跨模态理解等方向推动了技术边界的拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作