five

CCI3.0-HQ|中文预训练数据集数据集|语言模型数据集

收藏
arXiv2024-10-25 更新2024-10-26 收录
中文预训练数据集
语言模型
下载链接:
https://huggingface.co/datasets/BAAI/CCI3-HQ
下载链接
链接失效反馈
资源简介:
CCI3.0-HQ是由北京人工智能研究院开发的一个大规模高质量中文预训练数据集,旨在提升大型语言模型的预训练效果。该数据集包含500GB的高质量文本,涵盖新闻、社交媒体和博客等多种来源,通过两阶段混合过滤策略进行数据处理,确保数据的高质量和多样性。数据集的创建过程包括基础处理和高质处理两个阶段,分别进行安全过滤、文本提取、去重和质量评估。CCI3.0-HQ主要应用于提升中文语言模型的性能,特别是在零样本设置下的多任务表现。
提供机构:
北京人工智能研究院
创建时间:
2024-10-24
原始信息汇总

CCI 3.0 HQ 数据集概述

数据集信息

  • 任务类别: 文本生成
  • 语言: 中文
  • 特征:
    • id: 文档ID,全局唯一,类型为字符串
    • text: 文档内容,类型为字符串
    • score: 文档元信息,类型为浮点数
  • 分割:
    • train: 训练集
  • 配置:
    • default: 默认配置,数据文件路径为 data/part_*

数据描述

  • 发布日期: 2023年11月29日
  • 数据来源: 基于CCI(Chinese Corpora Internet)数据集,采用更严格的数据清洗方法构建
  • 数据规模: 约500GB
  • 数据质量: 由高质量、可靠的互联网数据组成

更新记录

  • 2024年10月25日: CCI 3.0 HQ技术报告发布
  • 2024年9月20日: CCI 3.0 HQ数据集发布

数据格式

字段 类型 含义
id 字符串 文档ID,全局唯一
text 字符串 文档内容
score 字符串 文档元信息

示例

json { "id": "02301a3477ca2b5434ab29dfc32f95d853abc", "text": "《农村财政与财务》杂志创办于1996,是中国农村财政研究会主管的国家重点学术期刊,国家级期刊,影响因子0.163,现被万方收录(中)等权威机构收录,主要方向:研究报告、文献综述、简报、专题研究 《农村财政与财务》以宣传党和国家财政政策、推动税收体制改革、研究财税理论、指导基层财政和涉农工作,传播理财知识为宗旨,融政策性、指导性、权威性、实用性和知识性为一体。 《农村财政与财务》是贯彻国家方针、政策、探索财税理论和有关难点、热点问题,交流财政科学化、精细化管理经验,帮助读者提高综合素质和政策水平不可或缺的理想媒体。 中共中央办公厅国务院办公厅印发《关于加快构建政策体系培育新型农业经营主体的意见》 9月5号投的,15号就给了初审结果,给出的修改意见,主要是篇幅过长,以及图片格式的问题。修改后过了一周,就发录用通知了。皇天不负有心人啊,继续努力。 两个意见,总体来看属于一个大修,一个小修,编辑要求修改后复审。但是意见真的给的很中肯,用了一个星期时间认真修改。提交修改稿后,编辑部很快送出外审,当天外审专家就完成了复审工作,然后在第二天立马显示接收了。这个复审速度吓得我惊人,不敢相信是被录用了,后来打电话确认已被录用,等待后续排版工作。 两个审稿人,审理比较负责,给出了几点小建议,属于小修,修改后录用,编辑对全文进行了细致标注,对格式要求、图表制作规范较为严格,杂志效率挺高,尤其是编辑部反应神速,必须赞一个。 农村财政与财务杂志的编辑和审稿人都非常专业,两个审稿人分别提出了3条和5条审稿意见,而且有些意见颇有意义,但是对我的文章还是非常肯定的,不到一个月消息回复审稿人分别要求大修和小修,要求比较严谨,数据比较足够,就能中。祝好运。 农村财政与财务杂志速度还是很快的,而且是我见过的回复字数最多最多的编辑信,投稿一个月,反馈结果。修改后,递交编辑部,审稿人很心细,改的很认真。连标点居然都帮我改……修改两次后录用。 编辑的工作十分点赞,态度也是很友善,审稿专家也是非常专业,虽然历经的时间比较长才录用,但是也情有可原,毕竟投稿量太大,而且期间加上放假,难免时间较长,进入编辑加工阶段后才进行了咨询,编辑也进行了详细的回复,希望对各位投稿有所帮助。 农村财政与财务杂志编辑很负责,整个投稿流程节奏非常快。个人感觉这个杂志还是不错的。2位审稿人都比较专业,有个审稿人的一些意见还是非常有帮助,非常有针对性。速度也比较快。推荐大家投稿! 第二年来订阅杂志了,客服的态度很好哦,杂志的寄送也还及时,希望以后对老顾客有一定的优惠。 农村财政与财务杂志的审稿速度还是值得肯定的。综合来说,审稿人还是比较认真的,给修改的也比较仔细,对创新性要求还算比较高吧,编辑老师也非常的平易近人。虽然是第一次投稿,但是还是很幸运被收录了。个人建议文章比较注重自主创新,思维清晰。希望能对大家有帮助! 农村财政与财务杂志效率很高的,也觉得自己蛮幸运的。当时看到外审两三天回来了,以为要被拒了呢,结果给修改意见了。两周后提交修改稿,两三天后显示录用了。整个下来小一个月吧,第一次投稿,还是感觉蛮幸运的。 该刊审稿较快,出刊也快前后跨度就半年左右,编辑老师态度很好,最好使用邮箱投稿,外审一般会告知你,里面文章质量感觉都挺好的,良心杂志,介意普刊的同仁可以投投看!! 农村财政与财务杂志质量不错,审稿较严格,录用较快。属于很规范的中文杂志。编辑很负责,处理也很快、工作规范,相当满意。审稿专家很认真细致,意见提的很详细,对论文提高很有帮助!相当愉快的一次投稿经历~ 总的来说,审稿专家还是蛮认真的,对待问题都很细致。另外,编辑也相当赞,经常打电话去咨询状态,一直很要是有创意,内容丰富,应该就没有问题。 eleme**:杂志工作人员的处理速度相当不错哦,审稿专家很负责。 fazhi**:投稿后编辑态度不错,邮件联系均有及时回复。 15年11月16日投稿,修改了两次,第一次对文章创新性提出了意见,第二次是格式方面的修改,12月15日通知正刊录用。算是比较快的了。该刊给人的第一感觉就是正规,对论文内容、格式等要求也很严格,应该认真对待。祝大家成功! xiajia**:很开心。总体来说,审稿速度很快,比较满意;可以试试。 9月初投稿,一直没有消息,月底打电话问,还在外审。10月初收到退修通知,修改后返回,编辑回复很快,让修改了格式,然后通知录用。编辑很负责。等待校稿和版费通知。 jince**:感觉给出的意见很诚恳,很有建设性。 初审大概一周左右,进入外审程序。8月底左右还是正在二审中,我打电话问了下,才告诉我需要修改,网上的状态变成“二审已审回”;按照修改意见修改后以电子邮件形式提交,大概一周后收到录用通知。 sansui**:审稿速度还是相当神速,编辑部老师很好,很负责任。 农村财政与财务速度蛮快的,编辑部也很负责,很有主见。审稿人信息反馈很快,20多天就有消息了,录用消息也第一时间通知,很及时、速度、高效,一点也不耽误时间。 编辑非常认真负责,邮件联系回复也非常快,稿件开始本来有些问题,考虑不用的,但是编辑又给了一次修改的机会,说是修改好了还可能录用,就花心思修,修改后一个月不到就说录用了,还有一些小问题后面陆续解决了。 用了两个月的时候,才被录用。审稿周期不短,可能也是自己写的不好一再返修的原因。觉得审稿人给的身高意见比较细致、对问题的提出比较准确。农村财政与财务的档次也很高。写的有点多所以相对的版面费也就要多一些。 susu**:个人感觉该期刊对文章的选题热点、创新点、写作水平都比较注重。 个人感觉还不错。第一篇中的论文,还是很开心的。5月28号投稿7月15号通知录用。修改意见中,只有文中的格式问题以及图标中的,字体,单位问题。修改后就成功录用啦。 农村财政与财务杂志的审稿速度飞快,貌似一个月左右就拟录用了,然后改了两次格式,缩小篇幅,大概也就一个半月搞掂。编辑部人员服务态度很好!很有耐心!大家可以尝试下这个杂志。", "score": 2.3 }

下载

  • BAAI DataHub: 用户需注册并填写调查问卷后可下载数据集
  • Huggingface: 使用以下代码加载数据集 python from datasets import load_dataset dataset = load_dataset("BAAI/CCI3-HQ")

评估

  • 模型: Qwen2-0.5B
  • 实验类型:
    1. 混合数据集实验(英文、代码、中文比例为60% : 10% : 30%)
    2. 中文数据集实验(中文比例为100%)
  • 评估设置: 使用FineWeb setup和lighteval库进行评估

引用信息

@misc{wang2024cci30hqlargescalechinesedataset, title={CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models}, author={Liangdong Wang and Bo-Wen Zhang and Chengwei Wu and Hanyu Zhao and Xiaofeng Shi and Shuhao Gu and Jijie Li and Quanyue Ma and TengFei Pan and Guang Liu}, year={2024}, eprint={2410.18505}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.18505}, }

用户协议

  • 用户需遵守CCI 3.0 HQ数据集的使用协议

联系信息

  • 如有问题,请联系data@baai.ac.cn
AI搜集汇总
数据集介绍
main_image_url
构建方式
CCI3.0-HQ数据集通过一种新颖的两阶段混合过滤管道构建,显著提升了数据质量。首先,基础处理阶段包括标准网页数据整理实践,如安全过滤、文本提取、去重和使用基础模型进行初步质量评估。随后,高质量处理阶段采用Qwen2-72B-Instruct模型进一步筛选高质量样本,最终形成包含140k训练样本和14k测试样本的数据集。这种两阶段处理流程确保了数据的高质量和多样性。
特点
CCI3.0-HQ数据集的主要特点在于其高质量和大规模。该数据集包含500GB的高质量中文文本,覆盖新闻、社交媒体和博客等多种来源,确保了数据的广泛代表性。此外,通过两阶段过滤策略,数据集在质量上显著优于其他中文数据集,如SkyPile和WanjuanV1,为预训练大型语言模型提供了坚实的基础。
使用方法
CCI3.0-HQ数据集适用于预训练大型语言模型,尤其适合需要高质量中文数据的应用场景。用户可以通过混合数据集实验和中文数据集实验来评估其对模型训练的影响。数据集还附带了一个高级质量分类器,可用于进一步筛选和优化数据。通过这些方法,用户可以充分利用CCI3.0-HQ数据集的高质量和多样性,提升模型的性能和泛化能力。
背景与挑战
背景概述
CCI3.0-HQ数据集由北京人工智能研究院(BAAI)的核心研究人员团队开发,旨在为大规模语言模型的预训练提供高质量的中文数据。该数据集于2024年发布,通过创新的混合过滤流程显著提升了数据质量,包含500GB的高质量子集。其核心研究问题在于如何有效提升中文网络数据的质量分类,以支持高性能中文语言模型的开发。CCI3.0-HQ的推出填补了全球网络中中文数据显著不足的空白,对推动中文语言模型的发展具有重要意义。
当前挑战
CCI3.0-HQ数据集面临的挑战主要包括:1) 中文网络数据源的稀缺性,导致现有中文数据集规模受限;2) 缺乏针对中文网络数据质量分类的研究,使得数据质量不尽如人意;3) 构建过程中,如何通过高效的过滤和质量分类方法,确保数据集的高质量和多样性。这些挑战不仅影响了中文语言模型的性能,也凸显了开发更有效数据处理技术的迫切需求。
常用场景
经典使用场景
CCI3.0-HQ数据集的经典使用场景主要集中在预训练大规模语言模型(LLMs)的过程中。该数据集通过其高质量的文本内容,显著提升了模型在零样本设置下的性能,特别是在中文网络数据分类任务中表现卓越。其两阶段的混合过滤策略确保了数据的高质量和多样性,使得模型在多种任务中均能展现出优异的表现。
衍生相关工作
基于CCI3.0-HQ数据集,研究者们开发了多种高质量的分类器和预训练模型,如CCI3-HQ分类器和Qwen2-72B-instruct模型。这些衍生工作不仅在学术界引起了广泛关注,也在工业界得到了实际应用,推动了中文自然语言处理技术的进步。此外,该数据集还激发了更多关于数据过滤和质量提升的研究,进一步丰富了中文LLMs的研究生态。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的预训练领域,CCI3.0-HQ数据集的最新研究方向聚焦于通过创新的混合过滤策略提升数据质量。该数据集通过两阶段的处理流程,即基础处理和高质处理,显著增强了数据的整体质量。研究者们通过训练一个0.5B参数的模型,展示了CCI3.0-HQ在多个基准测试中优于其他中文数据集的性能,特别是在零样本设置下的表现。此外,该研究还引入了CCI3-HQ分类器,进一步提升了数据筛选过程的效率和准确性。这一系列的研究不仅推动了中文预训练数据集的发展,也为全球范围内高质量语言模型的训练提供了新的基准。
相关研究论文
  • 1
    CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models北京人工智能研究院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

烟火数据集

烟火数据集是一个专门用于烟火识别和检测任务的数据集,旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据,具有广泛的应用前景和重要的研究价值。

阿里云天池 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录