five

chinese-fineweb-edu-v2|教育数据集|自然语言处理数据集

收藏
huggingface2024-10-19 更新2024-12-12 收录
教育
自然语言处理
下载链接:
https://huggingface.co/datasets/opencsg/chinese-fineweb-edu-v2
下载链接
链接失效反馈
资源简介:
Chinese Fineweb Edu V2是专为教育领域自然语言处理(NLP)任务设计的高质量中文预训练数据集。该数据集包含188M条数据,约420B tokens,优化了打分模型和数据筛选方法,包含多种类型的中文文本和25%的英文数据,提升了跨语言理解能力。
创建时间:
2024-10-13
原始信息汇总

Chinese Fineweb Edu Dataset V2

概述

  • 语言: 中文
  • 任务类别: 文本生成
  • 许可证: Apache 2.0
  • 数据规模: 10B<n<100B
  • 数据量: 188M条数据,约420B tokens

特点

  • 打分模型升级: 采用csg-wukong-enterprise V2模型,具有更大的参数量和更深层次的语义理解能力。
  • 数据多样性: 包含书籍、新闻、博客等多种类型的中文文本,并引入25%的英文数据,增强跨语言理解能力。
  • 数据筛选优化: 通过优化的Prompt设计,确保筛选出具有教育价值和实用性的文本。
  • 数据来源扩展: 新增Industry2、CCI3、michao、wanjuan1.0、wudao和ChineseWebText等高质量数据集,覆盖更广泛的行业和领域。

许可协议

  • 使用许可: 遵循OpenCSG社区许可证和Apache 2.0许可证。
  • 商业用途: 需发送邮件至lorraineg@opencsg.com并获得许可。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese Fineweb Edu Dataset V2 的构建过程采用了先进的自然语言处理技术,特别是在数据筛选和评分模型上进行了显著优化。数据集通过OpenCSG csg-wukong-enterprise V2模型进行数据筛选,该模型训练数据涵盖书籍、新闻、博客等多种文本类型,并包含25%的英文数据。在数据筛选过程中,使用了精心设计的Prompt来评估文本的教育价值、写作质量和实用性,确保筛选出的文本具有高质量和高教育价值。最终,数据集包含188百万条数据,约4200亿个tokens,经过严格的去重和筛选处理,确保了数据的高质量和独特性。
特点
Chinese Fineweb Edu Dataset V2 的特点在于其大规模和高教育价值的文本数据。数据集不仅数量庞大,而且通过优化的评分模型和Prompt设计,确保了文本的高质量和实用性。数据集涵盖了广泛的教育领域,包括书籍、新闻、博客等多种文本类型,并引入了来自多个领域和来源的高质量数据,如Industry2、CCI3、michao等,增强了数据集的多样性和广泛适用性。此外,数据集还特别注重中文文本的理解和处理,提升了模型在中文文本上的表现。
使用方法
Chinese Fineweb Edu Dataset V2 主要用于训练大规模语言模型,特别是在教育领域的自然语言处理任务中表现出色。研究人员和开发者可以利用该数据集进行模型训练和优化,以提升模型在教育类文本上的理解和生成能力。数据集支持商业用途,但需遵循OpenCSG社区许可证和Apache 2.0许可证的条款。对于商业用途,需通过邮件联系OpenCSG社区并获得许可。数据集的开源发布将为中文NLP应用的发展提供丰富的资源和支持。
背景与挑战
背景概述
Chinese Fineweb Edu Dataset V2是由OpenCSG社区开发的高质量中文预训练数据集,专为教育领域的自然语言处理任务设计。该数据集于2023年发布,是初代Chinese Fineweb Edu的全面升级版,旨在为研究人员和开发者提供更加多样化和广泛适用的教育类语料资源。数据集规模达到188M条数据,约420B tokens,涵盖了书籍、新闻、博客等多种文本类型,并优化了数据筛选方式和打分模型,以确保其在教育领域的有效性和实用性。该数据集的发布为中文NLP应用的发展提供了坚实的基础,推动了教育领域自然语言处理技术的进步。
当前挑战
Chinese Fineweb Edu Dataset V2在构建过程中面临多重挑战。首先,数据筛选环节需要确保文本的教育价值和实用性,为此采用了OpenCSG csg-wukong-enterprise V2模型进行精准评估,但如何平衡数据多样性与质量仍是一个难题。其次,数据来源的扩展增加了数据集的复杂性,如何有效整合来自不同领域和来源的数据,并确保其一致性和适用性,是构建过程中的另一大挑战。此外,数据筛选的Prompt设计需要细致优化,以准确评估网页内容的教育价值、写作水平和实用性,这对模型的语义理解和情感分析能力提出了更高要求。这些挑战的解决为数据集的高质量和广泛应用提供了保障。
常用场景
经典使用场景
Chinese Fineweb Edu V2数据集在教育领域的自然语言处理任务中展现了其独特的价值。该数据集通过优化数据筛选方式和打分模型,提供了高质量的中文预训练语料资源,广泛应用于教育文本的生成、理解和分析任务。其大规模的数据量和多样化的文本类型,使其成为教育类NLP模型训练的理想选择。
实际应用
在实际应用中,Chinese Fineweb Edu V2数据集被广泛用于教育类智能系统的开发,如智能辅导系统、在线教育平台和自动化评分系统。其高质量的数据和多样化的文本类型,使得这些系统能够更好地理解和生成教育内容,提升用户体验和学习效果。此外,该数据集还为教育研究提供了丰富的语料资源,推动了教育技术的创新和发展。
衍生相关工作
Chinese Fineweb Edu V2数据集的发布,催生了一系列相关的研究和应用工作。基于该数据集,研究者开发了多个教育类NLP模型,如智能问答系统和个性化学习推荐系统。这些模型在教育领域的广泛应用,不仅提升了教学效率,还为教育公平和个性化学习提供了新的解决方案。此外,该数据集的开源和社区支持,进一步推动了教育技术领域的合作与创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录