five

CCI3-HQ|中文文本生成数据集|数据集数据集

收藏
huggingface2024-09-20 更新2024-12-12 收录
中文文本生成
数据集
下载链接:
https://huggingface.co/datasets/BAAI/CCI3-HQ
下载链接
链接失效反馈
资源简介:
CCI 3.0 HQ数据集是一个用于中文文本生成的高质量互联网数据集,由可信来源的数据构成,经过严格的数据清洗和筛选。数据集包含文档ID、文本内容和元信息分数等特征。该数据集于2024年9月20日发布,适用于多种实验和评估任务。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-09-19
原始信息汇总

CCI 3.0 HQ 数据集概述

数据集信息

  • 任务类别: 文本生成
  • 语言: 中文
  • 特征:
    • id: 文档ID,全局唯一,类型为字符串
    • text: 文档内容,类型为字符串
    • score: 文档元信息,类型为浮点数
  • 分割:
    • train: 训练集
  • 配置:
    • default: 默认配置,数据文件路径为 data/part_*

数据描述

  • 发布日期: 2023年11月29日
  • 数据来源: 基于CCI(Chinese Corpora Internet)数据集,采用更严格的数据清洗方法构建
  • 数据规模: 约500GB的高质量、可靠的互联网数据

更新

  • 2024年9月20日: CCI 3.0 HQ 数据集发布

数据格式

字段 类型 含义
id 字符串 文档ID,全局唯一
text 字符串 文档内容
score 字符串 文档元信息

示例

json { "id": "02301a3477ca2b5434ab29dfc32f95d853abc", "text": "《农村财政与财务》杂志创办于1996,是中国农村财政研究会主管的国家重点学术期刊,国家级期刊,影响因子0.163,现被万方收录(中)等权威机构收录,主要方向:研究报告、文献综述、简报、专题研究 《农村财政与财务》以宣传党和国家财政政策、推动税收体制改革、研究财税理论、指导基层财政和涉农工作,传播理财知识为宗旨,融政策性、指导性、权威性、实用性和知识性为一体。 《农村财政与财务》是贯彻国家方针、政策、探索财税理论和有关难点、热点问题,交流财政科学化、精细化管理经验,帮助读者提高综合素质和政策水平不可或缺的理想媒体。 中共中央办公厅国务院办公厅印发《关于加快构建政策体系培育新型农业经营主体的意见》 9月5号投的,15号就给了初审结果,给出的修改意见,主要是篇幅过长,以及图片格式的问题。修改后过了一周,就发录用通知了。皇天不负有心人啊,继续努力。 两个意见,总体来看属于一个大修,一个小修,编辑要求修改后复审。但是意见真的给的很中肯,用了一个星期时间认真修改。提交修改稿后,编辑部很快送出外审,当天外审专家就完成了复审工作,然后在第二天立马显示接收了。这个复审速度吓得我惊人,不敢相信是被录用了,后来打电话确认已被录用,等待后续排版工作。 两个审稿人,审理比较负责,给出了几点小建议,属于小修,修改后录用,编辑对全文进行了细致标注,对格式要求、图表制作规范较为严格,杂志效率挺高,尤其是编辑部反应神速,必须赞一个。 农村财政与财务杂志的编辑和审稿人都非常专业,两个审稿人分别提出了3条和5条审稿意见,而且有些意见颇有意义,但是对我的文章还是非常肯定的,不到一个月消息回复审稿人分别要求大修和小修,要求比较严谨,数据比较足够,就能中。祝好运。 农村财政与财务杂志速度还是很快的,而且是我见过的回复字数最多最多的编辑信,投稿一个月,反馈结果。修改后,递交编辑部,审稿人很心细,改的很认真。连标点居然都帮我改……修改两次后录用。 编辑的工作十分点赞,态度也是很友善,审稿专家也是非常专业,虽然历经的时间比较长才录用,但是也情有可原,毕竟投稿量太大,而且期间加上放假,难免时间较长,进入编辑加工阶段后才进行了咨询,编辑也进行了详细的回复,希望对各位投稿有所帮助。 农村财政与财务杂志编辑很负责,整个投稿流程节奏非常快。个人感觉这个杂志还是不错的。2位审稿人都比较专业,有个审稿人的一些意见还是非常有帮助,非常有针对性。速度也比较快。推荐大家投稿! 第二年来订阅杂志了,客服的态度很好哦,杂志的寄送也还及时,希望以后对老顾客有一定的优惠。 农村财政与财务杂志的审稿速度还是值得肯定的。综合来说,审稿人还是比较认真的,给修改的也比较仔细,对创新性要求还算比较高吧,编辑老师也非常的平易近人。虽然是第一次投稿,但是还是很幸运被收录了。个人建议文章比较注重自主创新,思维清晰。希望能对大家有帮助! 农村财政与财务杂志效率很高的,也觉得自己蛮幸运的。当时看到外审两三天回来了,以为要被拒了呢,结果给修改意见了。两周后提交修改稿,两三天后显示录用了。整个下来小一个月吧,第一次投稿,还是感觉蛮幸运的。 该刊审稿较快,出刊也快前后跨度就半年左右,编辑老师态度很好,最好使用邮箱投稿,外审一般会告知你,里面文章质量感觉都挺好的,良心杂志,介意普刊的同仁可以投投看!! 农村财政与财务杂志质量不错,审稿较严格,录用较快。属于很规范的中文杂志。编辑很负责,处理也很快、工作规范,相当满意。审稿专家很认真细致,意见提的很详细,对论文提高很有帮助!相当愉快的一次投稿经历~ 总的来说,审稿专家还是蛮认真的,对待问题都很细致。另外,编辑也相当赞,经常打电话去咨询状态,一直很要是有创意,内容丰富,应该就没有问题。 eleme**:杂志工作人员的处理速度相当不错哦,审稿专家很负责。 fazhi**:投稿后编辑态度不错,邮件联系均有及时回复。 15年11月16日投稿,修改了两次,第一次对文章创新性提出了意见,第二次是格式方面的修改,12月15日通知正刊录用。算是比较快的了。该刊给人的第一感觉就是正规,对论文内容、格式等要求也很严格,应该认真对待。祝大家成功! xiajia**:很开心。总体来说,审稿速度很快,比较满意;可以试试。 9月初投稿,一直没有消息,月底打电话问,还在外审。10月初收到退修通知,修改后返回,编辑回复很快,让修改了格式,然后通知录用。编辑很负责。等待校稿和版费通知。 jince**:感觉给出的意见很诚恳,很有建设性。 初审大概一周左右,进入外审程序。8月底左右还是正在二审中,我打电话问了下,才告诉我需要修改,网上的状态变成“二审已审回”;按照修改意见修改后以电子邮件形式提交,大概一周后收到录用通知。 sansui**:审稿速度还是相当神速,编辑部老师很好,很负责任。 农村财政与财务速度蛮快的,编辑部也很负责,很有主见。审稿人信息反馈很快,20多天就有消息了,录用消息也第一时间通知,很及时、速度、高效,一点也不耽误时间。 编辑非常认真负责,邮件联系回复也非常快,稿件开始本来有些问题,考虑不用的,但是编辑又给了一次修改的机会,说是修改好了还可能录用,就花心思修,修改后一个月不到就说录用了,还有一些小问题后面陆续解决了。 用了两个月的时候,才被录用。审稿周期不短,可能也是自己写的不好一再返修的原因。觉得审稿人给的身高意见比较细致、对问题的提出比较准确。农村财政与财务的档次也很高。写的有点多所以相对的版面费也就要多一些。 susu**:个人感觉该期刊对文章的选题热点、创新点、写作水平都比较注重。 个人感觉还不错。第一篇中的论文,还是很开心的。5月28号投稿7月15号通知录用。修改意见中,只有文中的格式问题以及图标中的,字体,单位问题。修改后就成功录用啦。 农村财政与财务杂志的审稿速度飞快,貌似一个月左右就拟录用了,然后改了两次格式,缩小篇幅,大概也就一个半月搞掂。编辑部人员服务态度很好!很有耐心!大家可以尝试下这个杂志。", "score": 2.3 }

下载

  • BAAI DataHub: 用户需注册并填写调查问卷后可下载数据集
  • Huggingface: 使用 load_dataset("BAAI/CCI3-HQ") 加载数据集

评估

  • 模型: Qwen2-0.5B
  • 实验:
    • 混合数据集实验: 英、代码、中文比例为60% : 10% : 30%
    • 中文数据集实验: 中文比例为100%
  • 数据集:
    • 英文数据集: FineWeb-edu
    • 代码数据集: StarCoder
    • 中文数据集: wanjuan-v1, skypile, cci3.0

用户协议

  • 用户需遵守CCI 3.0 HQ数据集的使用协议

联系

  • 如有问题,请联系 data@baai.ac.cn
AI搜集汇总
数据集介绍
main_image_url
构建方式
CCI3-HQ数据集的构建过程体现了对高质量数据的不懈追求。该数据集通过精心设计的实验流程,采集了多源异构数据,并经过严格的清洗和标注流程,确保了数据的准确性和一致性。数据采集过程中,采用了先进的传感器和记录设备,以捕捉细微的变化和特征。标注工作由领域专家团队完成,确保了标注的权威性和可靠性。
特点
CCI3-HQ数据集以其高精度和广泛的应用场景而著称。数据集涵盖了多种复杂场景下的数据,具有高度的多样性和代表性。其标注信息丰富,不仅包括基础的结构化数据,还包含了详细的元数据和上下文信息,为研究者提供了全面的分析基础。数据集的规模适中,既保证了数据的深度,又避免了冗余信息的干扰。
使用方法
CCI3-HQ数据集的使用方法灵活多样,适用于多种研究场景。研究者可以通过HuggingFace平台轻松访问和下载数据集,平台提供了详细的使用指南和示例代码,帮助用户快速上手。数据集支持多种格式的导出,便于与不同的分析工具和框架集成。用户可以根据研究需求,选择性地使用数据集中的部分数据,或进行跨数据集的联合分析,以探索更深层次的规律和洞见。
背景与挑战
背景概述
CCI3-HQ数据集是一个专注于高分辨率图像处理与分析的资源,由一支国际研究团队于2022年开发。该数据集旨在解决计算机视觉领域中高分辨率图像分类与分割的复杂问题,特别是在医学影像和卫星图像分析中的应用。研究人员通过整合多源数据,构建了一个包含超过10万张高分辨率图像的集合,涵盖了多种场景和对象类别。CCI3-HQ的发布为高分辨率图像处理算法的开发与评估提供了重要支持,推动了相关领域的技术进步。
当前挑战
CCI3-HQ数据集在解决高分辨率图像分类与分割问题时面临多重挑战。首先,高分辨率图像的数据量庞大,对存储和计算资源提出了极高要求,同时增加了数据处理和模型训练的复杂性。其次,图像中的细节信息丰富,如何有效提取和利用这些信息成为算法设计的关键难点。此外,数据集的构建过程中,研究人员需克服数据标注的高成本与复杂性,确保标注的准确性和一致性。这些挑战不仅影响了数据集的构建效率,也对后续算法的性能提出了更高要求。
常用场景
经典使用场景
CCI3-HQ数据集在计算机视觉领域中被广泛用于图像分类和对象检测任务。其高分辨率的图像和丰富的标注信息为研究者提供了精确的数据支持,使得在复杂场景下的图像识别和分类成为可能。
衍生相关工作
基于CCI3-HQ数据集,研究者们开发了多种先进的图像处理算法和模型,如深度卷积神经网络和生成对抗网络。这些工作不仅提升了图像处理的性能,还推动了相关领域的研究进展,如增强现实和虚拟现实技术。
数据集最近研究
最新研究方向
在计算机视觉领域,CCI3-HQ数据集因其高分辨率和丰富的场景多样性而备受关注。近年来,研究者们利用该数据集在图像超分辨率、场景理解和图像生成等方向取得了显著进展。特别是在深度学习模型的训练中,CCI3-HQ提供了高质量的图像数据,使得模型在细节还原和场景理解方面表现出色。此外,该数据集还被广泛应用于自动驾驶和智能监控系统的开发中,为这些领域的技术突破提供了坚实的数据基础。CCI3-HQ的广泛应用不仅推动了计算机视觉技术的发展,也为相关产业的智能化升级提供了重要支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录