CCI3-HQ|中文文本生成数据集|数据集数据集
收藏CCI 3.0 HQ 数据集概述
数据集信息
- 任务类别: 文本生成
- 语言: 中文
- 特征:
id
: 文档ID,全局唯一,类型为字符串text
: 文档内容,类型为字符串score
: 文档元信息,类型为浮点数
- 分割:
train
: 训练集
- 配置:
default
: 默认配置,数据文件路径为data/part_*
数据描述
- 发布日期: 2023年11月29日
- 数据来源: 基于CCI(Chinese Corpora Internet)数据集,采用更严格的数据清洗方法构建
- 数据规模: 约500GB的高质量、可靠的互联网数据
更新
- 2024年9月20日: CCI 3.0 HQ 数据集发布
数据格式
字段 | 类型 | 含义 |
---|---|---|
id | 字符串 | 文档ID,全局唯一 |
text | 字符串 | 文档内容 |
score | 字符串 | 文档元信息 |
示例
json { "id": "02301a3477ca2b5434ab29dfc32f95d853abc", "text": "《农村财政与财务》杂志创办于1996,是中国农村财政研究会主管的国家重点学术期刊,国家级期刊,影响因子0.163,现被万方收录(中)等权威机构收录,主要方向:研究报告、文献综述、简报、专题研究 《农村财政与财务》以宣传党和国家财政政策、推动税收体制改革、研究财税理论、指导基层财政和涉农工作,传播理财知识为宗旨,融政策性、指导性、权威性、实用性和知识性为一体。 《农村财政与财务》是贯彻国家方针、政策、探索财税理论和有关难点、热点问题,交流财政科学化、精细化管理经验,帮助读者提高综合素质和政策水平不可或缺的理想媒体。 中共中央办公厅国务院办公厅印发《关于加快构建政策体系培育新型农业经营主体的意见》 9月5号投的,15号就给了初审结果,给出的修改意见,主要是篇幅过长,以及图片格式的问题。修改后过了一周,就发录用通知了。皇天不负有心人啊,继续努力。 两个意见,总体来看属于一个大修,一个小修,编辑要求修改后复审。但是意见真的给的很中肯,用了一个星期时间认真修改。提交修改稿后,编辑部很快送出外审,当天外审专家就完成了复审工作,然后在第二天立马显示接收了。这个复审速度吓得我惊人,不敢相信是被录用了,后来打电话确认已被录用,等待后续排版工作。 两个审稿人,审理比较负责,给出了几点小建议,属于小修,修改后录用,编辑对全文进行了细致标注,对格式要求、图表制作规范较为严格,杂志效率挺高,尤其是编辑部反应神速,必须赞一个。 农村财政与财务杂志的编辑和审稿人都非常专业,两个审稿人分别提出了3条和5条审稿意见,而且有些意见颇有意义,但是对我的文章还是非常肯定的,不到一个月消息回复审稿人分别要求大修和小修,要求比较严谨,数据比较足够,就能中。祝好运。 农村财政与财务杂志速度还是很快的,而且是我见过的回复字数最多最多的编辑信,投稿一个月,反馈结果。修改后,递交编辑部,审稿人很心细,改的很认真。连标点居然都帮我改……修改两次后录用。 编辑的工作十分点赞,态度也是很友善,审稿专家也是非常专业,虽然历经的时间比较长才录用,但是也情有可原,毕竟投稿量太大,而且期间加上放假,难免时间较长,进入编辑加工阶段后才进行了咨询,编辑也进行了详细的回复,希望对各位投稿有所帮助。 农村财政与财务杂志编辑很负责,整个投稿流程节奏非常快。个人感觉这个杂志还是不错的。2位审稿人都比较专业,有个审稿人的一些意见还是非常有帮助,非常有针对性。速度也比较快。推荐大家投稿! 第二年来订阅杂志了,客服的态度很好哦,杂志的寄送也还及时,希望以后对老顾客有一定的优惠。 农村财政与财务杂志的审稿速度还是值得肯定的。综合来说,审稿人还是比较认真的,给修改的也比较仔细,对创新性要求还算比较高吧,编辑老师也非常的平易近人。虽然是第一次投稿,但是还是很幸运被收录了。个人建议文章比较注重自主创新,思维清晰。希望能对大家有帮助! 农村财政与财务杂志效率很高的,也觉得自己蛮幸运的。当时看到外审两三天回来了,以为要被拒了呢,结果给修改意见了。两周后提交修改稿,两三天后显示录用了。整个下来小一个月吧,第一次投稿,还是感觉蛮幸运的。 该刊审稿较快,出刊也快前后跨度就半年左右,编辑老师态度很好,最好使用邮箱投稿,外审一般会告知你,里面文章质量感觉都挺好的,良心杂志,介意普刊的同仁可以投投看!! 农村财政与财务杂志质量不错,审稿较严格,录用较快。属于很规范的中文杂志。编辑很负责,处理也很快、工作规范,相当满意。审稿专家很认真细致,意见提的很详细,对论文提高很有帮助!相当愉快的一次投稿经历~ 总的来说,审稿专家还是蛮认真的,对待问题都很细致。另外,编辑也相当赞,经常打电话去咨询状态,一直很要是有创意,内容丰富,应该就没有问题。 eleme**:杂志工作人员的处理速度相当不错哦,审稿专家很负责。 fazhi**:投稿后编辑态度不错,邮件联系均有及时回复。 15年11月16日投稿,修改了两次,第一次对文章创新性提出了意见,第二次是格式方面的修改,12月15日通知正刊录用。算是比较快的了。该刊给人的第一感觉就是正规,对论文内容、格式等要求也很严格,应该认真对待。祝大家成功! xiajia**:很开心。总体来说,审稿速度很快,比较满意;可以试试。 9月初投稿,一直没有消息,月底打电话问,还在外审。10月初收到退修通知,修改后返回,编辑回复很快,让修改了格式,然后通知录用。编辑很负责。等待校稿和版费通知。 jince**:感觉给出的意见很诚恳,很有建设性。 初审大概一周左右,进入外审程序。8月底左右还是正在二审中,我打电话问了下,才告诉我需要修改,网上的状态变成“二审已审回”;按照修改意见修改后以电子邮件形式提交,大概一周后收到录用通知。 sansui**:审稿速度还是相当神速,编辑部老师很好,很负责任。 农村财政与财务速度蛮快的,编辑部也很负责,很有主见。审稿人信息反馈很快,20多天就有消息了,录用消息也第一时间通知,很及时、速度、高效,一点也不耽误时间。 编辑非常认真负责,邮件联系回复也非常快,稿件开始本来有些问题,考虑不用的,但是编辑又给了一次修改的机会,说是修改好了还可能录用,就花心思修,修改后一个月不到就说录用了,还有一些小问题后面陆续解决了。 用了两个月的时候,才被录用。审稿周期不短,可能也是自己写的不好一再返修的原因。觉得审稿人给的身高意见比较细致、对问题的提出比较准确。农村财政与财务的档次也很高。写的有点多所以相对的版面费也就要多一些。 susu**:个人感觉该期刊对文章的选题热点、创新点、写作水平都比较注重。 个人感觉还不错。第一篇中的论文,还是很开心的。5月28号投稿7月15号通知录用。修改意见中,只有文中的格式问题以及图标中的,字体,单位问题。修改后就成功录用啦。 农村财政与财务杂志的审稿速度飞快,貌似一个月左右就拟录用了,然后改了两次格式,缩小篇幅,大概也就一个半月搞掂。编辑部人员服务态度很好!很有耐心!大家可以尝试下这个杂志。", "score": 2.3 }
下载
- BAAI DataHub: 用户需注册并填写调查问卷后可下载数据集
- Huggingface: 使用
load_dataset("BAAI/CCI3-HQ")
加载数据集
评估
- 模型: Qwen2-0.5B
- 实验:
- 混合数据集实验: 英、代码、中文比例为60% : 10% : 30%
- 中文数据集实验: 中文比例为100%
- 数据集:
- 英文数据集: FineWeb-edu
- 代码数据集: StarCoder
- 中文数据集: wanjuan-v1, skypile, cci3.0
用户协议
- 用户需遵守CCI 3.0 HQ数据集的使用协议
联系
- 如有问题,请联系
data@baai.ac.cn

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录