five

Fineweb-Edu-Chinese-V2.2

收藏
Opencsg2026-04-27 更新2026-04-11 收录
下载链接:
https://www.opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2
下载链接
链接失效反馈
官方服务:
资源简介:
Chinese Fineweb Edu Dataset V2.2 提供高质量的中文教育领域数据,旨在解决中文开源社区中高质量教育语料稀缺的问题。它包含143.7万条指令-输出形式的问答对,其中纯问答对数据占用3.4GB,含原始上下文的数据占用14.6GB;此外,还提供了总计约1.5万亿Tokens的预训练语料,按质量分为三个等级,总计约2.27TB。这些数据通过OpenCSG自研打分器对大规模中文教育语料进行质量筛选,并利用DeepSeek V3.2模型从最优质的语料中蒸馏生成问答对,确保了回答内容的事实准确性。该数据集主要支持大模型的预训练、指令微调、问答生成和文本生成等任务。其授权许可遵循OpenCSG社区许可和Apache 2.0协议,支持商业用途,但商业使用需进行报备并获取许可。
创建时间:
2026-02-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作