BAAI/CCI2-Data

Name: BAAI/CCI2-Data
Creator: BAAI
Published: 2024-12-17 03:29:03
License: 暂无描述

Hugging Face2024-12-17 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/BAAI/CCI2-Data

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - zh task_categories: - text-generation dataset_info: features: - name: id dtype: string - name: content dtype: string splits: - name: cci2 num_bytes: 531432249559 num_examples: 178959936 download_size: 349348858174 dataset_size: 531432249559 configs: - config_name: default data_files: - split: cci2 path: data/cci2-* extra_gated_prompt: "You agree to not use the dataset to conduct experiments that cause harm to human subjects." extra_gated_fields: Company/Organization: text Country: country --- ## Data Description To address the scarcity of high-quality safety datasets in the Chinese, we open-sourced the [CCI](https://huggingface.co/datasets/BAAI/CCI-Data) (Chinese Corpora Internet) dataset on November 29, 2023. Building on this foundation, we continue to expand the data source, adopt stricter data cleaning methods, and complete the construction of the CCI 2.0 dataset. This dataset is composed of high-quality, reliable Internet data from trusted sources. It has undergone strict data cleaning and de-duplication, with targeted detection and filtering carried out for content quality and safety. The rules for data processing include: - Rule-based filtering: safety filtering based on keywords, spam information filtering, etc. - Model-based filtering: filtering of low-quality content by training a classification model - Deduplication: within and between datasets dedup The CCI 2.0 corpus released is 501GB in size. ## Update - April 26, 2024, CCI 2.0 released! ## Data Format | Field | Type | Meaning | | :-----: | :----: | :--------------------------: | | id | String | Document ID, globally unique | | content | String | Content of the document | ## Sample ```json { "id": "97934bc9f83ad6a7dcdf6fed69eeb566", "content": "山东出台省属高校多渠道筹资收入财政配比政策\n为进一步放大杠杆激励效应，更好带动高校增强资金筹措能力和内生发展动力，近日山东省教育厅、省财政厅印发《省属本科高校多渠道筹资收入财政配比资金管理办法》，将高校捐赠收入财政配比政策，优化升级为多渠道筹资收入财政配比政策。\n　　据悉，自2017年高校捐赠收入财政配比政策出台以来，省财政按照高校捐赠收入1：1比例，累计兑现配比资金4.82亿元，对引导高校树立多渠道筹资理念、提升高质量发展水平发挥了重要促进作用。\n　　此次调整从“一元”变“多元”，强化配比力度。扩大财政配比范围，将高校为地方经济社会发展提供科研服务、技术服务、培训服务、仪器设备共享服务及开展产学研合作等取得的收入新增纳入配比范围，激励高校提升与地方“互哺”发展能力，引导作用更强、支持力度更大。\n　　引入调节系数，体现统筹兼顾。充分考虑不同层次和类型高校办学基础条件和筹资能力差异，按照学校办学层次和专业特色，分校确定层次系数、类别系数，根据各校经调节系数折算后的筹资收入分配配比资金，加大对办学实力较弱高校的倾斜。新政策的出台，全面强化了资金支持引导力度，将进一步发挥激励引导作用，更好调动各类高校多渠道筹资积极性。" } ``` ## Download The CCI 2.0 dataset is simultaneously open-sourced on the [BAAI DataHub](https://data.baai.ac.cn/details/BAAI-CCI2) and Huggingface. ### BAAI DataHub Users can click the link [CCI 2.0 Dataset](https://data.baai.ac.cn/details/BAAI-CCI2) to view the data files, and click to download. Note that users need to register on BAAI DataHub to use the data, and filling out a survey questionnaire is required before their first download. ### Huggingface To use the data, you can load it using the following code: ```python from datasets import load_dataset dataset = load_dataset("BAAI/CCI2-Data") ``` ## User Agreement Users need to comply with the usage agreement of the CCI 2.0 dataset. You can view the agreement by clicking on the following link: （[View Usage Agreement](https://data.baai.ac.cn/resources/agreement/cci_usage_aggrement.pdf)）. ## Notice If you have any questions related to this dataset, please contact data@baai.ac.cn.

语言： - 中文任务类别： - 文本生成数据集信息：特征： - 字段名：id，数据类型：字符串 - 字段名：content，数据类型：字符串划分集： - 名称：cci2，字节大小：531432249559，样本数量：178959936 下载大小：349348858174 数据集总大小：531432249559 配置： - 配置名称：default，数据文件： - 划分集：cci2，路径：data/cci2-* 额外访问门槛提示："您同意不使用该数据集开展会对人类主体造成伤害的实验。" 额外访问门槛字段：公司/组织：文本输入国家：国家选择 --- ## 数据说明针对中文高质量安全语料资源稀缺的现状，我们于2023年11月29日开源了[CCI](https://huggingface.co/datasets/BAAI/CCI-Data)（中文互联网语料库，Chinese Corpora Internet）数据集。在此基础上，我们进一步拓展数据源维度，采用更为严苛的数据清洗流程，完成了CCI 2.0数据集的构建。本数据集由来自可信渠道的高质量、可靠互联网文本构成，历经严格的数据清洗与去重操作，并针对内容质量与安全性开展了针对性检测与过滤。数据处理规则包括： - 基于规则的过滤：基于关键词的安全过滤、垃圾信息甄别与过滤等 - 基于模型的过滤：通过训练分类模型筛选低质量内容 - 去重：数据集内部与跨数据集的重复内容清除本次发布的CCI 2.0语料库总容量为501GB。 ## 更新说明 - 2024年4月26日：CCI 2.0正式发布！ ## 数据格式 | 字段 | 数据类型 | 含义 | | :---: | :---: | :---: | | id | 字符串 | 全局唯一的文档标识符 | | content | 字符串 | 文档内容 | ## 示例 json { "id": "97934bc9f83ad6a7dcdf6fed69eeb566", "content": "山东出台省属高校多渠道筹资收入财政配比政策为进一步放大杠杆激励效应，更好带动高校增强资金筹措能力和内生发展动力，近日山东省教育厅、省财政厅印发《省属本科高校多渠道筹资收入财政配比资金管理办法》，将高校捐赠收入财政配比政策，优化升级为多渠道筹资收入财政配比政策。　　据悉，自2017年高校捐赠收入财政配比政策出台以来，省财政按照高校捐赠收入1：1比例，累计兑现配比资金4.82亿元，对引导高校树立多渠道筹资理念、提升高质量发展水平发挥了重要促进作用。　　此次调整从“一元”变“多元”，强化配比力度。扩大财政配比范围，将高校为地方经济社会发展提供科研服务、技术服务、培训服务、仪器设备共享服务及开展产学研合作等取得的收入新增纳入配比范围，激励高校提升与地方“互哺”发展能力，引导作用更强、支持力度更大。　　引入调节系数，体现统筹兼顾。充分考虑不同层次和类型高校办学基础条件和筹资能力差异，按照学校办学层次和专业特色，分校确定层次系数、类别系数，根据各校经调节系数折算后的筹资收入分配配比资金，加大对办学实力较弱高校的倾斜。新政策的出台，全面强化了资金支持引导力度，将进一步发挥激励引导作用，更好调动各类高校多渠道筹资积极性。" } ## 下载方式 CCI 2.0数据集同时在[BAAI DataHub](https://data.baai.ac.cn/details/BAAI-CCI2)与Huggingface平台开源。 ### BAAI DataHub 用户可点击链接[CCI 2.0数据集](https://data.baai.ac.cn/details/BAAI-CCI2)查看数据文件并进行下载。请注意，用户需在BAAI DataHub完成注册后方可使用该数据，且首次下载前需填写调查问卷。 ### Huggingface 如需加载数据，可使用以下代码： python from datasets import load_dataset dataset = load_dataset("BAAI/CCI2-Data") ## 用户协议用户需遵守CCI 2.0数据集的使用协议，可点击以下链接查看协议：[查看使用协议](https://data.baai.ac.cn/resources/agreement/cci_usage_aggrement.pdf)。 ## 注意事项若您有任何与该数据集相关的问题，请联系data@baai.ac.cn。

提供机构：

BAAI

原始信息汇总

数据集概述

基本信息

名称: CCI 2.0
发布日期: 2024年4月26日
语言: 中文
任务类别: 文本生成
数据集大小: 501GB

数据结构

特征:
- id: 字符串类型，文档的唯一标识符
- content: 字符串类型，文档内容

数据处理规则

规则基础过滤: 基于关键词的安全过滤，垃圾信息过滤等
模型基础过滤: 通过训练分类模型过滤低质量内容
去重: 数据集内部及跨数据集的去重处理

下载信息

下载大小: 349348858174字节
数据集大小: 531432249559字节
分割:
- cci2: 178959936个示例，531432249559字节

使用方式

BAAI DataHub: 用户需注册并填写调查问卷后下载
Huggingface: 使用load_dataset函数加载数据集，代码示例如下: python from datasets import load_dataset dataset = load_dataset("BAAI/CCI2-Data")

用户协议

使用数据集需遵守CCI 2.0的使用协议，可通过链接查看详细协议内容。

搜集汇总

数据集介绍

构建方式

针对中文高质量安全数据集的稀缺问题，BAAI/CCI2-Data数据集的构建采取了开源方式，基于CCI 1.0版本的数据基础，进一步拓展数据来源，并采用更为严格的数据清洗方法。该数据集由可信赖来源的互联网高质量、可靠数据构成，经过了严格的数据清洗和去重处理，针对内容质量和安全性进行了针对性的检测和过滤。数据清洗规则包括基于关键词的安全过滤、基于模型的低质量内容过滤以及数据集内外去重。

使用方法

用户可以通过BAAI DataHub或Huggingface平台获取BAAI/CCI2-Data数据集。在BAAI DataHub上，用户需注册并完成调查问卷后才能下载数据。在Huggingface上，用户可以使用load_dataset函数直接加载数据集。在使用前，用户需同意数据使用协议，并遵守相关规定。

背景与挑战

背景概述

BAAI/CCI2-Data数据集，为应对中文高质量安全数据集稀缺的问题，由北京航空航天大学人工智能研究院（BAAI）于2023年11月29日开源发布。该数据集基于CCI（Chinese Corpora Internet）数据集的坚实基础，进一步拓展数据来源，并采用更为严格的数据清洗方法，构建了CCI 2.0版本。该数据集包含来自可信赖来源的高质量、可靠的互联网数据，经过严格的数据清洗和去重处理，确保了内容的质量和安全。其发布的数据量达501GB，对中文自然语言处理领域的研究和发展产生了重要影响。

当前挑战

该数据集在构建过程中面临的主要挑战包括：确保数据的高质量和安全性，通过规则和模型双重过滤机制剔除低质量和危险内容；以及实现有效的数据去重，避免数据冗余。此外，数据集在解决中文文本生成任务时，仍需应对如何进一步提升数据标注质量、如何平衡数据集中不同主题的分布等挑战，以更好地服务于模型训练和评估。

常用场景

经典使用场景

在文本生成领域，BAAI/CCI2-Data数据集以其庞大的规模和高质量的数据，成为训练文本生成模型的重要资源。该数据集经过严格的数据清洗和去重，确保了模型训练的效率和生成文本的质量。

解决学术问题

该数据集的发布有效缓解了中文领域高质量安全数据集的稀缺问题，为学术研究提供了可靠的数据支持。它不仅帮助研究人员克服了数据质量参差不齐的难题，还通过引入调节系数等机制，解决了不同层次和类型高校在筹资能力上的差异问题。

实际应用

在实际应用中，BAAI/CCI2-Data数据集可被用于构建智能客服系统、内容审核工具以及辅助新闻生成等场景，大幅提升相关应用的文本生成质量和效率。

数据集最近研究