CCI3-HQ
收藏魔搭社区2026-05-17 更新2024-09-28 收录
下载链接:
https://modelscope.cn/datasets/BAAI/CCI3-HQ
下载链接
链接失效反馈官方服务:
资源简介:
CCI 3.0 HQ (Chinese Corpora Internet 3.0 High Quality) is a large-scale, high-quality Chinese internet pretraining corpus released by the Beijing Academy of Artificial Intelligence (BAAI), designed to address the scarcity of reliable and safe Chinese-language training data for large language models. Built upon the original CCI dataset, it expands trusted web data sources and applies stricter data cleaning, quality control, and safety filtering, resulting in approximately 500GB of curated Chinese text data. The dataset is stored in JSON format with globally unique document IDs, text content, and quality scores, making it suitable for LLM pretraining, Chinese NLP, semantic understanding, and AI safety research. Evaluation results show that CCI 3.0 HQ outperforms several mainstream Chinese pretraining corpora in both data quality and downstream model performance, establishing it as an important foundational resource for Chinese AI model development.
CCI 3.0 HQ(Chinese Corpora Internet 3.0 High Quality)是由北京智源人工智能研究院(BAAI)发布的大规模高质量中文互联网预训练语料库,旨在缓解大模型训练中高质量、安全中文语料稀缺的问题。该数据集在原始 CCI 基础上持续扩展可信互联网数据源,并通过更严格的数据清洗、质量控制与安全过滤机制,最终形成约500GB的高质量中文文本资源。数据采用 JSON 格式存储,包含全局唯一文档 ID、文本内容及质量评分等字段,适用于大语言模型预训练、中文自然语言处理、语义理解及安全研究。实验评测表明,CCI 3.0 HQ 在语料质量和模型训练效果上优于多个主流中文预训练数据集,已成为中文 AI 模型开发的重要基础数据资源之一。
提供机构:
北京智源人工智能研究院
创建时间:
2024-09-23
搜集汇总
数据集介绍

背景与挑战
背景概述
CCI3-HQ是一个由BAAI发布的大规模中文数据集,旨在解决中文高质量安全数据稀缺的问题。该数据集基于CCI 3.0构建,采用严格的数据清洗方法,包含约500GB的高质量、可靠互联网数据,主要用于预训练大型语言模型。数据格式为JSON,包括文档ID、文本内容和元信息分数字段,支持在BAAI DataHub和Huggingface平台上下载和使用。
以上内容由遇见数据集搜集并总结生成



