IndustryCorpus2|行业模型训练数据集|数据处理数据集
收藏IndustryCorpus2 数据集概述
数据集基本信息
- 许可证: Apache 2.0
- 语言: 中文、英文
- 数据规模:
- 中文数据: 1TB
- 英文数据: 2.2TB
数据集更新与迭代
- 数据源: 引入更多高质量数据源,如pile、bigcode、open-web-math等数学和代码数据。
- 行业类别系统: 结合国家统计局制定的国民经济行业分类体系(20类)和世界知识体系,重新设计行业类别,设置31个行业类别,基本覆盖当前主流行业。
- 数据语义质量筛选: 采用规则过滤+模型过滤方案,大幅提升整体数据质量。
- 数据质量分层: 根据质量评估分数对数据进行分层组织,分为高、中、低三个层次。
行业数据分布
- 数据大小: 3276GB
- 主要行业数据分布:
- 学科教育: 340.9GB
- 体育: 262.5GB
- 时政-政务-行政: 271.5GB
- 法律-司法: 238.5GB
- 医学-健康-心理-中医: 271.7GB
- 影视-娱乐: 209.4GB
数据质量分层
- 数据质量分布:
- 中文和英文数据质量分布趋势基本相同,中等质量数据最多,其次是高质量数据,低质量数据最少。
- 英文数据中高质量数据的比例高于中文数据。
行业类别分类
- 行业类别数量: 31个
- 数据构建:
- 数据来源: 预训练语料采样和开源文本分类数据,其中预训练语料占比90%。
- 标签构建: 使用LLM模型对数据进行多次分类判断,选择多次判断一致的数据作为训练数据。
- 数据规模: 36K
数据质量评估
- 低质量数据过滤: 去除极低质量数据,将可用数据分为低、中、高三个独立组,便于模型训练时的数据匹配和组合。
- 数据构建:
- 数据来源: 预训练语料随机采样。
- 标签构建: 设计数据评分规则,使用LLM模型进行多轮评分,选择多轮评分差异小于2的数据。
- 数据规模: 20k评分数据,中英文比例1:1。
模型训练
- 模型选择: 使用0.5B规模模型,比较beg-m3和qwen-0.5b,最终实验显示bge-m3整体性能最佳。
- 模型超参数: base bge-m3,全参数训练,lr=1e-5,batch_size=64,max_length = 2048。
- 模型评估: 在验证集上,模型和GPT4在样本质量判断上的一致率为90%。
高质量数据训练效益
- 训练效率提升: 使用高质量数据训练的模型在14B tokens时即可达到使用50B普通数据训练的模型性能。
- 模型效果提升: 在模型训练的退火阶段加入筛选后的高质量数据和指令数据,模型性能得到显著提升。

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
QM9
该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。
arXiv 收录
ABIDE Dataset
ABIDE(自闭症脑成像数据交换)数据集包含1112个数据集,包括539个来自ASD个体的数据和573个来自典型控制者的数据(年龄7-64岁,跨组中位数14.7岁)。数据集涉及17个国际站点,包括静息状态fMRI(R-fMRI)、解剖数据集和表型数据集。
github 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录