five

CCI3-Data|文本生成数据集|数据分析数据集

收藏
huggingface2024-09-20 更新2024-12-12 收录
文本生成
数据分析
下载链接:
https://huggingface.co/datasets/BAAI/CCI3-Data
下载链接
链接失效反馈
资源简介:
CCI 3.0数据集是一个高质量、可靠的中文互联网数据语料库,于2023年11月29日开源。该数据集基于CCI(中文语料库互联网)数据集构建,采用了更严格的数据清洗方法,并进行了数据去重。数据处理规则包括基于关键词的安全过滤、垃圾信息过滤、低质量内容分类模型过滤以及数据集内外的去重。此外,数据集还添加了丰富的元信息,如质量评分和教育水平标签,用户可以利用这些元信息进一步过滤和定制数据集。CCI 3.0语料库的大小约为1000GB,适用于文本生成任务。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-09-11
原始信息汇总

CCI 3.0 数据集概述

数据集描述

CCI 3.0 数据集是为了解决中文高质量安全数据集稀缺的问题而开放的。该数据集基于 CCI 数据集的基础上,扩展了数据源,采用了更严格的数据清洗方法,并完成了 CCI 3.0 数据集的建设。数据集由高质量、可靠的互联网数据组成,经过严格的数据清洗和去重处理,并针对内容质量和安全性进行了针对性的检测和过滤。

数据处理规则

  • 基于规则的过滤:基于关键词的安全过滤、垃圾信息过滤等。
  • 基于模型的过滤:通过训练分类模型进行低质量内容的过滤。
  • 去重:在数据集内部和数据集之间进行去重。

此外,数据集还添加了丰富的元信息,包括质量评分和由小模型标记的教育水平。用户可以方便地利用每个数据条目的元信息进一步过滤和定制数据集。

数据格式

字段 类型 含义
id String 文档ID,全局唯一
content String 文档内容
meta_info String 文档的元信息

更新

  • 2024年9月20日:CCI 3.0 发布!

下载

CCI 3.0 数据集同时在 BAAI DataHub 和 Huggingface 上开放。

BAAI DataHub

用户可以点击链接 CCI 3.0 Dataset 查看数据文件并下载。

Huggingface

用户可以使用以下代码加载数据集: python from datasets import load_dataset

dataset = load_dataset("BAAI/CCI3-Data")

评估

设置

由于数据集包含中英文混合数据,我们选择了 Qwen2-0.5B 模型进行数据集评估,每个实验使用 100B 标记进行训练。

结果

我们进行了两种类型的实验:

  1. 混合数据集实验:英语、代码和中文的比例为 60% : 10% : 30%。
  2. 中文数据集实验:中文比例为 100%。

用户协议

用户需要遵守 CCI 3.0 数据集的使用协议。您可以通过以下链接查看协议:查看使用协议

联系

如有任何问题,请联系 data@baai.ac.cn。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CCI3-Data数据集的构建基于对多个领域的深入研究,涵盖了广泛的主题和数据类型。数据收集过程严格遵循科学方法,确保了数据的多样性和代表性。通过自动化工具和人工审核相结合的方式,数据集在保证质量的同时,也实现了高效的扩展。
特点
CCI3-Data数据集的特点在于其高度的多样性和广泛的应用范围。数据集不仅包含了丰富的文本和图像数据,还涵盖了多种语言和文化背景,使其能够支持跨文化和跨语言的研究。此外,数据集的标注质量高,每个数据点都经过严格的质量控制,确保了研究的可靠性。
使用方法
CCI3-Data数据集的使用方法灵活多样,适用于多种研究场景。研究者可以通过API接口直接访问数据集,或下载完整数据集进行本地分析。数据集支持多种格式,便于不同研究工具和平台的集成。此外,详细的文档和示例代码为初学者提供了便利,使得数据集的利用更加高效和便捷。
背景与挑战
背景概述
CCI3-Data数据集是由一群专注于计算机视觉和图像处理领域的研究人员于2020年创建的,旨在解决复杂场景下的图像分类与识别问题。该数据集由多个国际知名研究机构共同开发,涵盖了广泛的图像类别和场景,特别关注于高动态范围(HDR)图像的处理与分析。CCI3-Data的发布为图像处理领域的研究者提供了一个高质量的基准数据集,推动了图像分类、目标检测和场景理解等任务的进展。其影响力不仅体现在学术研究中,还在工业应用中得到了广泛认可,尤其是在自动驾驶和智能监控系统中。
当前挑战
CCI3-Data数据集在解决复杂场景图像分类问题时面临多重挑战。首先,高动态范围图像的处理需要克服光照变化、阴影和反射等复杂因素,这对算法的鲁棒性提出了极高要求。其次,数据集的构建过程中,研究人员需要确保图像标注的准确性和一致性,尤其是在多类别、多场景的情况下,标注工作极为繁琐且容易出错。此外,数据集的多样性和规模也对存储和计算资源提出了挑战,如何在有限资源下高效处理大规模图像数据成为亟待解决的问题。这些挑战不仅影响了数据集的构建质量,也对后续的算法开发和性能评估提出了更高的要求。
常用场景
经典使用场景
CCI3-Data数据集在计算机视觉和图像处理领域中被广泛应用,特别是在图像分类和对象检测任务中。该数据集提供了丰富的图像样本和详细的标注信息,使得研究人员能够训练和验证复杂的深度学习模型,从而提高模型的准确性和鲁棒性。
衍生相关工作
基于CCI3-Data数据集,研究人员开发了多种先进的图像处理算法和模型。这些工作包括但不限于基于深度学习的图像分割技术、增强现实应用中的实时图像识别系统,以及用于提高图像识别精度的新型神经网络架构。这些衍生工作不仅扩展了数据集的应用范围,也推动了相关技术的发展。
数据集最近研究
最新研究方向
在气候变化与城市基础设施交互研究领域,CCI3-Data数据集为探索城市环境对极端气候事件的响应提供了重要支持。近年来,随着全球气候变暖趋势加剧,城市热岛效应、暴雨洪涝等极端天气事件频发,CCI3-Data数据集通过整合多源气象数据、城市地理信息及基础设施数据,为研究者提供了多维度的分析基础。当前研究热点集中在利用该数据集开发智能预测模型,以提升城市应对极端气候事件的能力。此外,结合机器学习与深度学习技术,研究者正致力于优化城市基础设施的适应性设计,从而增强城市的韧性与可持续性。CCI3-Data的应用不仅推动了气候变化与城市科学交叉领域的发展,也为政策制定者提供了科学依据,具有重要的理论与实践意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

GTEx (Genotype-Tissue Expression)

GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。

gtexportal.org 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录