chinese-fineweb-edu|教育数据集|自然语言处理数据集
收藏Chinese Fineweb Edu 数据集介绍
概述
Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
筛选方法
数据集通过以下步骤进行筛选和处理:
- 教育价值评估:使用Opencsg的csg-wukong-enterprise企业版大模型对样本进行教育价值评估,给出0-5的评分。
- 打分模型训练:利用100k条高评分样本训练BERT模型,用于对更大规模的预训练数据集进行文本打分。
- 数据筛选:使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。
- MinHash去重:采用MinHash算法对数据进行去重处理,确保数据的独特性。
原始数据来源
数据集的原始数据来源包括:
打分模型
使用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型,对每条预训练样本进行0-5分的评分。数据集包含100k条数据及其得分,形成fineweb_edu_classifier_chinese_data
,并训练了一个中文Bert模型 fineweb_edu_classifier_chinese
。
许可协议
使用 Chinese Fineweb Edu 数据集需要遵循 OpenCSG 社区许可证,支持商业用途。如用于商业用途,需发送邮件至 lorraineg@opencsg.com,并获得许可。

开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录