chinese-fineweb-edu|教育数据集|自然语言处理数据集

huggingface2024-08-29 更新2024-12-12 收录

教育

自然语言处理

下载链接：

https://huggingface.co/datasets/opencsg/chinese-fineweb-edu

下载链接

链接失效反馈

资源简介：

Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料数据集，专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程，利用少量数据训练打分模型进行评估，从海量的原始数据中提取出高价值的教育相关内容，确保数据的质量和多样性。最终，数据集包含约90M条高质量的中文文本数据，总大小约为300GB。

创建时间：

2024-08-26

原始信息汇总

Chinese Fineweb Edu 数据集介绍

概述

Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集，专为教育领域的自然语言处理任务设计。该数据集包含约90M条高质量的中文文本数据，总大小约为300GB。

筛选方法

数据集通过以下步骤进行筛选和处理：

教育价值评估：使用Opencsg的csg-wukong-enterprise企业版大模型对样本进行教育价值评估，给出0-5的评分。
打分模型训练：利用100k条高评分样本训练BERT模型，用于对更大规模的预训练数据集进行文本打分。
数据筛选：使用训练好的BERT模型对原始数据进行全面打分，仅保留得分大于4的数据。
MinHash去重：采用MinHash算法对数据进行去重处理，确保数据的独特性。

原始数据来源

数据集的原始数据来源包括：

打分模型

使用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型，对每条预训练样本进行0-5分的评分。数据集包含100k条数据及其得分，形成fineweb_edu_classifier_chinese_data，并训练了一个中文Bert模型 fineweb_edu_classifier_chinese。

许可协议

使用 Chinese Fineweb Edu 数据集需要遵循 OpenCSG 社区许可证，支持商业用途。如用于商业用途，需发送邮件至 lorraineg@opencsg.com，并获得许可。

AI搜集汇总

数据集介绍

构建方式

Chinese Fineweb Edu 数据集的构建过程体现了对教育领域文本数据的高度重视。首先，通过OpenCSG的csg-wukong-enterprise模型对样本进行教育价值评估，筛选出约100k条高质量数据。随后，利用这些数据训练BERT模型，进一步对大规模预训练数据集进行打分，仅保留得分大于4的高质量文本。最后，采用MinHash算法进行去重处理，确保数据的独特性和多样性。整个构建过程严格遵循数据筛选和质量控制的标准，确保了数据集的可靠性和适用性。

特点

Chinese Fineweb Edu 数据集以其高质量和多样性著称，专为教育领域的自然语言处理任务设计。数据集包含约90M条高质量中文文本，总大小约为300GB。其特点在于通过严格的筛选和去重流程，确保了数据的高教育价值和内容质量。数据集涵盖了多个主流中文预训练数据源，如CCI2-Data、SkyPile-150B等，融合了不同领域和来源的数据，提升了数据集的广泛适用性和全面性。这种多样化的数据来源使得模型在面对复杂教育场景时，能够保持卓越的表现。

使用方法

Chinese Fineweb Edu 数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以通过HuggingFace平台直接加载数据集，或通过GitHub获取相关代码和资源。数据集支持商业用途，但需遵循OpenCSG社区许可证和Apache 2.0许可证的条款。对于研究人员和开发者，数据集提供了高质量的训练数据，可用于教育领域的文本生成、分类等任务。此外，OpenCSG计划开源数据集和打分模型，进一步推动社区的发展和合作。

背景与挑战

背景概述

Chinese Fineweb Edu 数据集是由OpenCSG社区精心构建的高质量中文预训练语料库，专为教育领域的自然语言处理任务设计。该数据集创建于2023年，旨在通过严格的筛选和去重流程，从海量的原始数据中提取出高价值的教育相关内容，确保数据的质量和多样性。数据集包含约90M条高质量的中文文本数据，总大小约为300GB。其核心研究问题在于如何通过高质量的教育相关数据提升中文语言模型在教育领域的表现。该数据集的发布为中文教育领域的自然语言处理研究提供了重要的数据支持，推动了相关技术的进步。

当前挑战

Chinese Fineweb Edu 数据集在构建过程中面临多重挑战。首先，数据筛选的挑战在于如何从海量的原始数据中准确识别出具有高教育价值的内容。为此，研究人员采用了基于BERT模型的打分机制，并结合MinHash算法进行去重处理，以确保数据的独特性和多样性。其次，数据集的构建依赖于多个主流中文预训练数据集，如CCI2-Data、SkyPile-150B等，如何有效整合这些数据源并保持其一致性也是一个重要挑战。此外，数据集的规模和质量对模型训练的效果具有显著影响，如何在保证数据质量的同时提升数据集的规模，是未来需要进一步解决的问题。

常用场景

经典使用场景

在自然语言处理领域，Chinese Fineweb Edu 数据集广泛应用于教育相关的文本生成任务。其高质量的中文语料库为模型提供了丰富的教育内容，涵盖了从基础教育到高等教育的多样化文本。通过该数据集，研究人员能够训练出在教育场景下表现优异的语言模型，特别是在生成教育材料、解答学生问题以及自动化教学辅助系统等方面展现出卓越的效果。

实际应用

在实际应用中，Chinese Fineweb Edu 数据集被广泛用于开发智能教育系统、在线学习平台以及教育内容生成工具。例如，基于该数据集训练的模型可以自动生成符合教学标准的教材、练习题和解答，极大地减轻了教师的工作负担。此外，该数据集还支持个性化学习推荐系统的开发，帮助学生根据自身学习进度和需求获取定制化的学习资源。

衍生相关工作

Chinese Fineweb Edu 数据集的发布催生了一系列相关研究工作，特别是在教育领域的自然语言处理任务中。基于该数据集，研究人员开发了多个高效的教育文本生成模型和评估工具。例如，OpenCSG 团队利用该数据集训练了专门用于教育文本分类的 BERT 模型，并在多个中文教育评测基准上取得了显著的效果提升。这些工作不仅推动了教育技术的进步，还为其他领域的中文自然语言处理研究提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM（Prognostics and Health Management）开源数据集，涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景，包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法，数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据，涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

中国车牌识别数据集（7类，33万张）

这是一个高质量、平衡的中国车牌识别数据集，包含了33万张各类中国车牌的图片。数据集经过精心设计，确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区收录