five

chinese-fineweb-edu|教育数据集|自然语言处理数据集

收藏
huggingface2024-08-29 更新2024-12-12 收录
教育
自然语言处理
下载链接:
https://huggingface.co/datasets/opencsg/chinese-fineweb-edu
下载链接
链接失效反馈
资源简介:
Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
创建时间:
2024-08-26
原始信息汇总

Chinese Fineweb Edu 数据集介绍

概述

Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集包含约90M条高质量的中文文本数据,总大小约为300GB。

筛选方法

数据集通过以下步骤进行筛选和处理:

  1. 教育价值评估:使用Opencsg的csg-wukong-enterprise企业版大模型对样本进行教育价值评估,给出0-5的评分。
  2. 打分模型训练:利用100k条高评分样本训练BERT模型,用于对更大规模的预训练数据集进行文本打分。
  3. 数据筛选:使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。
  4. MinHash去重:采用MinHash算法对数据进行去重处理,确保数据的独特性。

原始数据来源

数据集的原始数据来源包括:

打分模型

使用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型,对每条预训练样本进行0-5分的评分。数据集包含100k条数据及其得分,形成fineweb_edu_classifier_chinese_data,并训练了一个中文Bert模型 fineweb_edu_classifier_chinese

许可协议

使用 Chinese Fineweb Edu 数据集需要遵循 OpenCSG 社区许可证,支持商业用途。如用于商业用途,需发送邮件至 lorraineg@opencsg.com,并获得许可。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese Fineweb Edu 数据集的构建过程体现了对教育领域文本数据的高度重视。首先,通过OpenCSG的csg-wukong-enterprise模型对样本进行教育价值评估,筛选出约100k条高质量数据。随后,利用这些数据训练BERT模型,进一步对大规模预训练数据集进行打分,仅保留得分大于4的高质量文本。最后,采用MinHash算法进行去重处理,确保数据的独特性和多样性。整个构建过程严格遵循数据筛选和质量控制的标准,确保了数据集的可靠性和适用性。
特点
Chinese Fineweb Edu 数据集以其高质量和多样性著称,专为教育领域的自然语言处理任务设计。数据集包含约90M条高质量中文文本,总大小约为300GB。其特点在于通过严格的筛选和去重流程,确保了数据的高教育价值和内容质量。数据集涵盖了多个主流中文预训练数据源,如CCI2-Data、SkyPile-150B等,融合了不同领域和来源的数据,提升了数据集的广泛适用性和全面性。这种多样化的数据来源使得模型在面对复杂教育场景时,能够保持卓越的表现。
使用方法
Chinese Fineweb Edu 数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过HuggingFace平台直接加载数据集,或通过GitHub获取相关代码和资源。数据集支持商业用途,但需遵循OpenCSG社区许可证和Apache 2.0许可证的条款。对于研究人员和开发者,数据集提供了高质量的训练数据,可用于教育领域的文本生成、分类等任务。此外,OpenCSG计划开源数据集和打分模型,进一步推动社区的发展和合作。
背景与挑战
背景概述
Chinese Fineweb Edu 数据集是由OpenCSG社区精心构建的高质量中文预训练语料库,专为教育领域的自然语言处理任务设计。该数据集创建于2023年,旨在通过严格的筛选和去重流程,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。数据集包含约90M条高质量的中文文本数据,总大小约为300GB。其核心研究问题在于如何通过高质量的教育相关数据提升中文语言模型在教育领域的表现。该数据集的发布为中文教育领域的自然语言处理研究提供了重要的数据支持,推动了相关技术的进步。
当前挑战
Chinese Fineweb Edu 数据集在构建过程中面临多重挑战。首先,数据筛选的挑战在于如何从海量的原始数据中准确识别出具有高教育价值的内容。为此,研究人员采用了基于BERT模型的打分机制,并结合MinHash算法进行去重处理,以确保数据的独特性和多样性。其次,数据集的构建依赖于多个主流中文预训练数据集,如CCI2-Data、SkyPile-150B等,如何有效整合这些数据源并保持其一致性也是一个重要挑战。此外,数据集的规模和质量对模型训练的效果具有显著影响,如何在保证数据质量的同时提升数据集的规模,是未来需要进一步解决的问题。
常用场景
经典使用场景
在自然语言处理领域,Chinese Fineweb Edu 数据集广泛应用于教育相关的文本生成任务。其高质量的中文语料库为模型提供了丰富的教育内容,涵盖了从基础教育到高等教育的多样化文本。通过该数据集,研究人员能够训练出在教育场景下表现优异的语言模型,特别是在生成教育材料、解答学生问题以及自动化教学辅助系统等方面展现出卓越的效果。
实际应用
在实际应用中,Chinese Fineweb Edu 数据集被广泛用于开发智能教育系统、在线学习平台以及教育内容生成工具。例如,基于该数据集训练的模型可以自动生成符合教学标准的教材、练习题和解答,极大地减轻了教师的工作负担。此外,该数据集还支持个性化学习推荐系统的开发,帮助学生根据自身学习进度和需求获取定制化的学习资源。
衍生相关工作
Chinese Fineweb Edu 数据集的发布催生了一系列相关研究工作,特别是在教育领域的自然语言处理任务中。基于该数据集,研究人员开发了多个高效的教育文本生成模型和评估工具。例如,OpenCSG 团队利用该数据集训练了专门用于教育文本分类的 BERT 模型,并在多个中文教育评测基准上取得了显著的效果提升。这些工作不仅推动了教育技术的进步,还为其他领域的中文自然语言处理研究提供了宝贵的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

历下区高层次人才生活补贴拟发放人员数据

历下区高层次人才生活补贴拟发放人员数据,主要内容包括姓名、年份、序号、用人单位、人才类别、发放金额(元)等信息。

山东公共数据开放网 收录

Weibo Dataset

V1版本包含了2023年上半年来自微博平台的2,106条新闻数据。其中包含1,000条假新闻和1,067条真实新闻。数据集包含新闻传播的评论数据,包含用户和评论信息。V2版本包含了来自中国微博社交媒体平台的11,329条新闻。其中包含5,661条假新闻和5,668条真实新闻。与V1版本相比,V2版本在V1的基础上扩大了数据量。同时,V2提供了新闻的多模态数据,包括新闻帖子、评论集合、图片、视频和声音信息。因此,V2提供了更真实的社交网络环境模拟,从而支持下游任务。

github 收录

Global Firepower Index (GFI)

Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。

www.globalfirepower.com 收录