chinese-fineweb-edu|教育数据集|自然语言处理数据集
收藏Chinese Fineweb Edu 数据集介绍
概述
Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
筛选方法
数据集通过以下步骤进行筛选和处理:
- 教育价值评估:使用Opencsg的csg-wukong-enterprise企业版大模型对样本进行教育价值评估,给出0-5的评分。
- 打分模型训练:利用100k条高评分样本训练BERT模型,用于对更大规模的预训练数据集进行文本打分。
- 数据筛选:使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。
- MinHash去重:采用MinHash算法对数据进行去重处理,确保数据的独特性。
原始数据来源
数据集的原始数据来源包括:
打分模型
使用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型,对每条预训练样本进行0-5分的评分。数据集包含100k条数据及其得分,形成fineweb_edu_classifier_chinese_data
,并训练了一个中文Bert模型 fineweb_edu_classifier_chinese
。
许可协议
使用 Chinese Fineweb Edu 数据集需要遵循 OpenCSG 社区许可证,支持商业用途。如用于商业用途,需发送邮件至 lorraineg@opencsg.com,并获得许可。

flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
ERIC (Education Resources Information Center)
ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。
eric.ed.gov 收录
历下区高层次人才生活补贴拟发放人员数据
历下区高层次人才生活补贴拟发放人员数据,主要内容包括姓名、年份、序号、用人单位、人才类别、发放金额(元)等信息。
山东公共数据开放网 收录
Weibo Dataset
V1版本包含了2023年上半年来自微博平台的2,106条新闻数据。其中包含1,000条假新闻和1,067条真实新闻。数据集包含新闻传播的评论数据,包含用户和评论信息。V2版本包含了来自中国微博社交媒体平台的11,329条新闻。其中包含5,661条假新闻和5,668条真实新闻。与V1版本相比,V2版本在V1的基础上扩大了数据量。同时,V2提供了新闻的多模态数据,包括新闻帖子、评论集合、图片、视频和声音信息。因此,V2提供了更真实的社交网络环境模拟,从而支持下游任务。
github 收录
Global Firepower Index (GFI)
Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。
www.globalfirepower.com 收录