IndustryCorpus_mathematics|数学数据集|预训练数据集数据集
收藏数据集概述
数据集基本信息
- 许可证:Apache 2.0
- 语言:中文、英文
- 数据量:1TB 中文数据,2.4TB 英文数据
- 任务类别:文本生成
数据集构建
- 原始数据来源:WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 原始数据量:超过 100TB
- 处理后数据量:3.4TB
- 行业分类:18个行业类别
- 数据处理操作:22个行业数据处理操作符
数据处理方法
- 基于规则的过滤:繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 基于模型的过滤:行业分类语言模型,准确率80%
- 数据去重:MinHash文档级去重
数据标注
- 中文数据标注:12种标签,包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等
数据集验证
- 模型训练:继续预训练、SFT、DPO训练
- 性能提升:客观性能提升20%,主观胜率82%
行业分类数据量
行业类别 | 数据量 (GB) | 行业类别 | 数据量 (GB) |
---|---|---|---|
编程 | 4.1 | 政治 | 326.4 |
法律 | 274.6 | 数学 | 5.9 |
教育 | 458.1 | 体育 | 442 |
金融 | 197.8 | 文学 | 179.3 |
计算机科学 | 46.9 | 新闻 | 564.1 |
技术 | 333.6 | 影视 | 162.1 |
旅游 | 82.5 | 医学 | 189.4 |
农业 | 41.6 | 汽车 | 40.8 |
情感 | 31.7 | 人工智能 | 5.6 |
总计 (GB) | 3386.5 |

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录