five

BAAI-CCI 2.0|中文语料库数据集|预训练数据集数据集

收藏
智源2024-04-19 更新2024-04-12 收录
中文语料库
预训练数据集
下载链接:
https://data.baai.ac.cn/details/BAAI-CCI2
下载链接
链接失效反馈
资源简介:
进一步扩充数据来源,并迭代了数据处理规则,构建了CCI2.0 - 一个规模为500GB的高质量中文互联网语料库
提供机构:
智源研究院
创建时间:
2024-04-19
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

GTEx (Genotype-Tissue Expression)

GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。

gtexportal.org 收录