five

Fineweb-Edu-Chinese-V2.1

收藏
魔搭社区2026-05-23 更新2025-07-26 收录
下载链接:
https://modelscope.cn/datasets/opencsg/Fineweb-Edu-Chinese-V2.1
下载链接
链接失效反馈
官方服务:
资源简介:
# **Chinese Fineweb Edu Dataset V2.1** [[中文]](#chinese) [[English]](#english) <a id="english"></a> <p align="center"> <img width="600px" alt="OpenCSG" src="./logo.png"> </p> <p align="center"><a href="https://opencsg.com/models">[OpenCSG Community]</a> <a href="https://github.com/yuyijiong/fineweb-edu-chinese">[👾github]</a> <a href="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/HU6vz21qKTEmUBCWqCFh9.jpeg">[wechat]</a> <a href="https://twitter.com/OpenCsg">[Twitter]</a> </p> </div> [📖Technical Report](https://arxiv.org/abs/2501.08197) The **Chinese Fineweb Edu Dataset V2.1** is an enhanced version of the V2 dataset, designed specifically for natural language processing (NLP) tasks in the education sector. This version introduces two new data sources, **map-cc** and **opencsg-cc**, and retains data with scores ranging from 2 to 3. The dataset entries are organized into different folders based on their scores, allowing for flexible selection of data according to time and computational power requirements during training. # Expanded Data Sources #### Key Features 1. **New Data Sources**: - **map-cc** - **opencsg-cc** 2. **Score-Based Data Organization**: - Data entries are categorized into different folders based on their scores: - **4-5**: High-quality educational content with clear and coherent writing. - **3-4**: Suitable educational content with some minor issues in coherence or relevance. - **2-3**: Potentially useful educational content with notable limitations. 3. **Data Volume**: - **4-5**: 70 GB, approximately 46 billion tokens, 17,790,513 lines. - **3-4**: 800 GB, approximately 530 billion tokens, 289,975,835 lines. - **2-3**: 1.4 TB, approximately 930 billion tokens, 649,842,063 lines. 4. **Flexible Training**: - The dataset organization allows for selective use of data based on the available time and computational resources. - Researchers and developers can choose specific score ranges to train their models, optimizing for different scenarios. #### Data Distribution by Score <div style="display: flex; justify-content: center; gap: 20px; flex-wrap: wrap;"> <div> <p align="center">score: 4-5</p> <img width="300px" alt="experiment" src="./v21_45_source_stats.png"> </div> <div> <p align="center">score: 3-4</p> <img width="300px" alt="experiment" src="./v21_34_source_stats.png"> </div> <div> <p align="center">score: 2-3</p> <img width="300px" alt="experiment" src="./v21_23_source_stats.png"> </div> </div> **We warmly invite developers and researchers interested in this field to follow and engage with the community, working together to advance the technology. Stay tuned for the open-source release of the dataset!** ## License Agreement Usage of the Chinese Fineweb Edu dataset requires adherence to the OpenCSG Community License. The Chinese Fineweb Edu dataset supports commercial use. If you plan to use the OpenCSG model or its derivatives for commercial purposes, you must comply with the terms and conditions outlined in the OpenCSG Community License as well as the Apache 2.0 License. For commercial use, please send an email to lorraineg@opencsg.com and obtain permission. <a id="chinese"></a> <p> </p> [📖Technical Report](https://arxiv.org/abs/2501.08197) # Chinese Fineweb Edu V2.1数据集介绍 <p align="center"> <img width="600px" alt="OpenCSG" src ="./logo.png"> </p> <p align="center"><a href="https://opencsg.com/models">[OpenCSG 社区]</a> <a href="https://github.com/yuyijiong/fineweb-edu-chinese">[👾github]</a> <a href="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/HU6vz21qKTEmUBCWqCFh9.jpeg">[微信]</a> <a href="https://twitter.com/OpenCsg">[推特]</a> </p> </div> **Chinese Fineweb Edu Dataset V2.1** 是 V2 数据集的增强版本,专为教育领域的自然语言处理(NLP)任务设计和优化。此版本引入了两个新的数据源 **map-cc** 和 **opencsg-cc**,并保留了评分为 2 到 3 的数据。数据条目根据评分存储在不同的文件夹中,用户可以根据时间和计算资源的需求灵活选择训练数据。 ## 数据筛选范围扩大 1. **新增数据源**: - **map-cc** - **opencsg-cc** 2. **基于评分的数据组织**: - 数据条目按评分存储在不同的文件夹中: - **4-5**:高质量的教育内容,写作清晰且连贯。 - **3-4**:适合教育使用的内容,可能在连贯性或相关性方面存在一些小问题。 - **2-3**:潜在有用的教育内容,但存在明显的局限性。 3. **数据量**: - **4-5**:70 GB,约 46 亿 tokens,17,790,513 行。 - **3-4**:800 GB,约 530 亿 tokens,289,975,835 行。 - **2-3**:1.4 TB,约 930 亿 tokens,649,842,063 行。 4. **灵活的训练**: - 数据集的组织允许用户根据可用时间和计算资源选择特定评分范围的数据进行训练,优化不同场景下的使用。 #### 按评分的数据分布 <div style="display: flex; justify-content: space-between; align-items: center; gap: 20px;"> <div style="text-align: left;"> <p>score: 4-5</p> <img width="300px" alt="experiment" src="./v21_45_source_stats.png"> </div> <div style="text-align: center;"> <p>score: 3-4</p> <img width="300px" alt="experiment" src="./v21_34_source_stats.png"> </div> <div style="text-align: right;"> <p>score: 2-3</p> <img width="300px" alt="experiment" src="./v21_23_source_stats.png"> </div> </div> **我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待数据集的开源发布!** ## 许可协议 使用 Chinese Fineweb Edu V2数据集需要遵循 OpenCSG 社区许可证。Chinese Fineweb Edu V2数据集支持商业用途。如果您计划将 OpenCSG 模型或其衍生产品用于商业目的,您必须遵守 OpenCSG 社区许可证以及 Apache 2.0 许可证中的条款和条件。如用于商业用途,需发送邮件至 lorraineg@opencsg.com,并获得许可。 ## Citation ``` @misc{yu2025opencsgchinesecorpusseries, title={OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training}, author={Yijiong Yu and Ziyun Dai and Zekun Wang and Wei Wang and Ran Chen and Ji Pei}, year={2025}, eprint={2501.08197}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.08197}, } ```

# **中文FineWeb Edu数据集V2.1** [[中文]](#chinese) [[English]](#english) <a id="english"></a> <p align="center"> <img width="600px" alt="OpenCSG" src="./logo.png"> </p> <p align="center"><a href="https://opencsg.com/models">[OpenCSG社区]</a> <a href="https://github.com/yuyijiong/fineweb-edu-chinese">[👾GitHub]</a> <a href="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/HU6vz21qKTEmUBCWqCFh9.jpeg">[微信]</a> <a href="https://twitter.com/OpenCsg">[Twitter]</a> </p> </div> [📖技术报告](https://arxiv.org/abs/2501.08197) **中文FineWeb Edu数据集V2.1**是V2版本数据集的增强版,专为教育领域的自然语言处理(Natural Language Processing,NLP)任务设计。该版本新增了两个数据源:**map-cc**与**opencsg-cc**,并保留了评分为2至3的数据。数据集条目按评分划分至不同文件夹,便于训练时根据时间与算力需求灵活选取数据。 # 扩展数据源 #### 核心特性 1. **新增数据源**: - **map-cc** - **opencsg-cc** 2. **基于评分的数据组织方式**: 数据集条目按评分分类存储至不同文件夹: - **4-5分**:写作清晰连贯的高质量教育内容。 - **3-4分**:具备一定教育适配性,但在连贯性或相关性上存在少量瑕疵的内容。 - **2-3分**:存在明显局限性,但仍具备潜在应用价值的教育内容。 3. **数据规模**: - **4-5分**:70 GB,约460亿Token(Token),共17,790,513行。 - **3-4分**:800 GB,约5300亿Token,共289,975,835行。 - **2-3分**:1.4 TB,约9300亿Token,共649,842,063行。 4. **灵活训练适配**: 该数据集的组织形式允许使用者根据可用时间与计算资源,选择性使用特定评分区间的数据。研究人员与开发者可根据不同场景需求选取对应评分范围的数据训练模型,实现训练流程优化。 #### 按评分划分的数据分布 <div style="display: flex; justify-content: center; gap: 20px; flex-wrap: wrap;"> <div> <p align="center">score: 4-5</p> <img width="300px" alt="实验数据分布" src="./v21_45_source_stats.png"> </div> <div> <p align="center">score: 3-4</p> <img width="300px" alt="实验数据分布" src="./v21_34_source_stats.png"> </div> <div> <p align="center">score: 2-3</p> <img width="300px" alt="实验数据分布" src="./v21_23_source_stats.png"> </div> </div> **我们诚挚邀请该领域的开发者与研究者关注并加入社区,携手推动技术进步。敬请期待本数据集的开源发布!** ## 许可协议 使用中文FineWeb Edu数据集需遵守OpenCSG社区许可证。本数据集支持商业用途。若您计划将OpenCSG模型或其衍生产品用于商业场景,必须同时遵守OpenCSG社区许可证与Apache 2.0许可证的相关条款。商业用途需发送邮件至lorraineg@opencsg.com并获得授权。 <a id="chinese"></a> <p> </p> [📖技术报告](https://arxiv.org/abs/2501.08197) # 中文FineWeb Edu V2.1数据集介绍 <p align="center"> <img width="600px" alt="OpenCSG" src="./logo.png"> </p> <p align="center"><a href="https://opencsg.com/models">[OpenCSG社区]</a> <a href="https://github.com/yuyijiong/fineweb-edu-chinese">[👾GitHub]</a> <a href="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/HU6vz21qKTEmUBCWqCFh9.jpeg">[微信]</a> <a href="https://twitter.com/OpenCsg">[Twitter]</a> </p> </div> **中文FineWeb Edu数据集V2.1**是V2版本数据集的增强版,专为教育领域的自然语言处理(NLP)任务设计优化。该版本新增了**map-cc**与**opencsg-cc**两个数据源,并保留了评分为2至3的数据。数据集条目按评分存储至不同文件夹,使用者可根据时间与计算资源需求灵活选择训练数据。 ## 扩展数据源 1. **新增数据源**: - **map-cc** - **opencsg-cc** 2. **基于评分的数据组织**: - 数据条目按评分存储在不同的文件夹中: - **4-5分**:高质量的教育内容,写作清晰且连贯。 - **3-4分**:具备一定教育适配性的内容,但在连贯性或相关性上存在少量瑕疵。 - **2-3分**:存在明显局限性,但仍具备潜在应用价值的教育内容。 3. **数据规模**: - **4-5分**:70 GB,约460亿Token,共17,790,513行。 - **3-4分**:800 GB,约5300亿Token,共289,975,835行。 - **2-3分**:1.4 TB,约9300亿Token,共649,842,063行。 4. **灵活训练适配**: - 数据集的组织允许使用者根据可用时间和计算资源选择特定评分范围的数据进行训练,优化不同场景下的使用效果。 #### 按评分的数据分布 <div style="display: flex; justify-content: space-between; align-items: center; gap: 20px;"> <div style="text-align: left;"> <p>score: 4-5</p> <img width="300px" alt="实验数据分布" src="./v21_45_source_stats.png"> </div> <div style="text-align: center;"> <p>score: 3-4</p> <img width="300px" alt="实验数据分布" src="./v21_34_source_stats.png"> </div> <div style="text-align: right;"> <p>score: 2-3</p> <img width="300px" alt="实验数据分布" src="./v21_23_source_stats.png"> </div> </div> **我们诚邀对该领域感兴趣的开发者和研究者关注并加入社区,携手推动技术进步。敬请期待数据集的开源发布!** ## 许可协议 使用中文FineWeb Edu数据集需遵守OpenCSG社区许可证。本数据集支持商业用途。若您计划将OpenCSG模型或其衍生产品用于商业场景,必须同时遵守OpenCSG社区许可证与Apache 2.0许可证的相关条款。商业用途需发送邮件至lorraineg@opencsg.com并获得授权。 ## 引用 @misc{yu2025opencsgchinesecorpusseries, title={OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training}, author={Yijiong Yu and Ziyun Dai and Zekun Wang and Wei Wang and Ran Chen and Ji Pei}, year={2025}, eprint={2501.08197}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.08197}, }
提供机构:
maas
创建时间:
2025-07-15
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Chinese Fineweb Edu Dataset V2.1是专为教育NLP任务优化的增强数据集,引入了map-cc和opencsg-cc两个新数据源,并按评分(4-5、3-4、2-3)组织数据,其中2-3评分数据量达1.4TB,支持灵活训练选择。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作