CCI3-Data

Name: CCI3-Data
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-09-20 22:57:08
License: 暂无描述

Hugging Face2024-09-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/CCI3-Data

下载链接

链接失效反馈

官方服务：

资源简介：

CCI 3.0数据集是一个高质量、可靠的中文互联网数据语料库，于2023年11月29日开源。该数据集基于CCI（中文语料库互联网）数据集构建，采用了更严格的数据清洗方法，并进行了数据去重。数据处理规则包括基于关键词的安全过滤、垃圾信息过滤、低质量内容分类模型过滤以及数据集内外的去重。此外，数据集还添加了丰富的元信息，如质量评分和教育水平标签，用户可以利用这些元信息进一步过滤和定制数据集。CCI 3.0语料库的大小约为1000GB，适用于文本生成任务。

The CCI 3.0 Dataset is a high-quality and reliable Chinese internet data corpus, which was open-sourced on November 29, 2023. Built upon the original CCI (Chinese Corpus Internet) dataset, it adopts stricter data cleaning procedures and implements data deduplication. Its data processing rules include keyword-based security filtering, spam filtering, low-quality content classification model-based filtering, as well as intra-dataset and cross-dataset deduplication. Additionally, the corpus is supplemented with rich metadata such as quality scores and education level tags, enabling users to further filter and customize the dataset using these metadata. The CCI 3.0 corpus has a total size of approximately 1000 GB and is applicable to text generation tasks.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-09-11

原始信息汇总

CCI 3.0 数据集概述

数据集描述

CCI 3.0 数据集是为了解决中文高质量安全数据集稀缺的问题而开放的。该数据集基于 CCI 数据集的基础上，扩展了数据源，采用了更严格的数据清洗方法，并完成了 CCI 3.0 数据集的建设。数据集由高质量、可靠的互联网数据组成，经过严格的数据清洗和去重处理，并针对内容质量和安全性进行了针对性的检测和过滤。

数据处理规则

基于规则的过滤：基于关键词的安全过滤、垃圾信息过滤等。
基于模型的过滤：通过训练分类模型进行低质量内容的过滤。
去重：在数据集内部和数据集之间进行去重。

此外，数据集还添加了丰富的元信息，包括质量评分和由小模型标记的教育水平。用户可以方便地利用每个数据条目的元信息进一步过滤和定制数据集。

数据格式

字段	类型	含义
id	String	文档ID，全局唯一
content	String	文档内容
meta_info	String	文档的元信息

更新

2024年9月20日：CCI 3.0 发布！

下载

CCI 3.0 数据集同时在 BAAI DataHub 和 Huggingface 上开放。

BAAI DataHub

用户可以点击链接 CCI 3.0 Dataset 查看数据文件并下载。

Huggingface

用户可以使用以下代码加载数据集： python from datasets import load_dataset

dataset = load_dataset("BAAI/CCI3-Data")

评估

设置

由于数据集包含中英文混合数据，我们选择了 Qwen2-0.5B 模型进行数据集评估，每个实验使用 100B 标记进行训练。

结果

我们进行了两种类型的实验：

混合数据集实验：英语、代码和中文的比例为 60% : 10% : 30%。
中文数据集实验：中文比例为 100%。

用户协议

用户需要遵守 CCI 3.0 数据集的使用协议。您可以通过以下链接查看协议：查看使用协议。

联系

如有任何问题，请联系 data@baai.ac.cn。

搜集汇总

数据集介绍

构建方式

CCI3-Data数据集的构建基于对多个领域的深入研究，涵盖了广泛的主题和数据类型。数据收集过程严格遵循科学方法，确保了数据的多样性和代表性。通过自动化工具和人工审核相结合的方式，数据集在保证质量的同时，也实现了高效的扩展。

特点

CCI3-Data数据集的特点在于其高度的多样性和广泛的应用范围。数据集不仅包含了丰富的文本和图像数据，还涵盖了多种语言和文化背景，使其能够支持跨文化和跨语言的研究。此外，数据集的标注质量高，每个数据点都经过严格的质量控制，确保了研究的可靠性。

使用方法

CCI3-Data数据集的使用方法灵活多样，适用于多种研究场景。研究者可以通过API接口直接访问数据集，或下载完整数据集进行本地分析。数据集支持多种格式，便于不同研究工具和平台的集成。此外，详细的文档和示例代码为初学者提供了便利，使得数据集的利用更加高效和便捷。

背景与挑战

背景概述

CCI3-Data数据集是由一群专注于计算机视觉和图像处理领域的研究人员于2020年创建的，旨在解决复杂场景下的图像分类与识别问题。该数据集由多个国际知名研究机构共同开发，涵盖了广泛的图像类别和场景，特别关注于高动态范围（HDR）图像的处理与分析。CCI3-Data的发布为图像处理领域的研究者提供了一个高质量的基准数据集，推动了图像分类、目标检测和场景理解等任务的进展。其影响力不仅体现在学术研究中，还在工业应用中得到了广泛认可，尤其是在自动驾驶和智能监控系统中。

当前挑战

CCI3-Data数据集在解决复杂场景图像分类问题时面临多重挑战。首先，高动态范围图像的处理需要克服光照变化、阴影和反射等复杂因素，这对算法的鲁棒性提出了极高要求。其次，数据集的构建过程中，研究人员需要确保图像标注的准确性和一致性，尤其是在多类别、多场景的情况下，标注工作极为繁琐且容易出错。此外，数据集的多样性和规模也对存储和计算资源提出了挑战，如何在有限资源下高效处理大规模图像数据成为亟待解决的问题。这些挑战不仅影响了数据集的构建质量，也对后续的算法开发和性能评估提出了更高的要求。

常用场景

经典使用场景

CCI3-Data数据集在计算机视觉和图像处理领域中被广泛应用，特别是在图像分类和对象检测任务中。该数据集提供了丰富的图像样本和详细的标注信息，使得研究人员能够训练和验证复杂的深度学习模型，从而提高模型的准确性和鲁棒性。

衍生相关工作

基于CCI3-Data数据集，研究人员开发了多种先进的图像处理算法和模型。这些工作包括但不限于基于深度学习的图像分割技术、增强现实应用中的实时图像识别系统，以及用于提高图像识别精度的新型神经网络架构。这些衍生工作不仅扩展了数据集的应用范围，也推动了相关技术的发展。

数据集最近研究