CCI2-Data
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/BAAI/CCI2-Data
下载链接
链接失效反馈官方服务:
资源简介:
CCI2-Data 仓库旨在提供高质量的中文安全数据集,以应对相关资源的稀缺问题。它在 CCI 数据集的基础上,通过扩展数据来源和采用更严格的数据清洗方法构建而成。该仓库包含超过1.7亿条样本,总大小为501GB,每条数据包括唯一的ID和对应的文本内容。数据经过关键词过滤、模型分类和去重等处理,保证了内容质量和安全性。用户可以通过标准化数据操作从 BAAI DataHub 和 Hugging Face 下载和使用该数据集,但需遵守相关的使用协议。该数据集适用于文本生成等任务。
创建时间:
2024-07-19



