IndustryCorpus2|行业模型训练数据集|数据处理数据集
收藏IndustryCorpus2 数据集概述
数据集基本信息
- 许可证: Apache 2.0
- 语言: 中文、英文
- 数据规模:
- 中文数据: 1TB
- 英文数据: 2.2TB
数据集更新与迭代
- 数据源: 引入更多高质量数据源,如pile、bigcode、open-web-math等数学和代码数据。
- 行业类别系统: 结合国家统计局制定的国民经济行业分类体系(20类)和世界知识体系,重新设计行业类别,设置31个行业类别,基本覆盖当前主流行业。
- 数据语义质量筛选: 采用规则过滤+模型过滤方案,大幅提升整体数据质量。
- 数据质量分层: 根据质量评估分数对数据进行分层组织,分为高、中、低三个层次。
行业数据分布
- 数据大小: 3276GB
- 主要行业数据分布:
- 学科教育: 340.9GB
- 体育: 262.5GB
- 时政-政务-行政: 271.5GB
- 法律-司法: 238.5GB
- 医学-健康-心理-中医: 271.7GB
- 影视-娱乐: 209.4GB
数据质量分层
- 数据质量分布:
- 中文和英文数据质量分布趋势基本相同,中等质量数据最多,其次是高质量数据,低质量数据最少。
- 英文数据中高质量数据的比例高于中文数据。
行业类别分类
- 行业类别数量: 31个
- 数据构建:
- 数据来源: 预训练语料采样和开源文本分类数据,其中预训练语料占比90%。
- 标签构建: 使用LLM模型对数据进行多次分类判断,选择多次判断一致的数据作为训练数据。
- 数据规模: 36K
数据质量评估
- 低质量数据过滤: 去除极低质量数据,将可用数据分为低、中、高三个独立组,便于模型训练时的数据匹配和组合。
- 数据构建:
- 数据来源: 预训练语料随机采样。
- 标签构建: 设计数据评分规则,使用LLM模型进行多轮评分,选择多轮评分差异小于2的数据。
- 数据规模: 20k评分数据,中英文比例1:1。
模型训练
- 模型选择: 使用0.5B规模模型,比较beg-m3和qwen-0.5b,最终实验显示bge-m3整体性能最佳。
- 模型超参数: base bge-m3,全参数训练,lr=1e-5,batch_size=64,max_length = 2048。
- 模型评估: 在验证集上,模型和GPT4在样本质量判断上的一致率为90%。
高质量数据训练效益
- 训练效率提升: 使用高质量数据训练的模型在14B tokens时即可达到使用50B普通数据训练的模型性能。
- 模型效果提升: 在模型训练的退火阶段加入筛选后的高质量数据和指令数据,模型性能得到显著提升。

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Global Volcano Database
全球火山数据库包含有关全球火山的信息,包括火山的位置、类型、历史喷发记录、海拔高度等详细数据。该数据集旨在为地质学家、环境科学家和应急管理机构提供有关火山活动的全面信息。
volcano.si.edu 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录