five

PowerInfer/PowerCoding

收藏
Hugging Face2025-07-27 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/PowerInfer/PowerCoding
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了约2590亿个令牌的预训练数据,通过Qwen2.5-14B-Instruct、Qwen 2.5-32B-Instruct和Qwen 2.5-Coder-32B生成。使用了MGA风格和persona-driven数据合成方法,基于Yulan、Stack-V2和Pile数据集创建了多样化的综合训练数据。数据集主要使用Apache 2.0许可证提供。

This dataset contains approximately 259 billion tokens of pretrain data generated using Qwen2.5-14B-Instruct, Qwen 2.5-32B-Instruct, and Qwen 2.5-Coder-32B. It employs an MGA-style and persona-driven data synthesis methodology to create diverse and comprehensive training data mainly from the Yulan, Stack-V2, and Pile datasets. The dataset is provided under the Apache 2.0 license.
提供机构:
PowerInfer
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作