five

DeepCtrl-sft-data 匠数科技大模型sft数据集

收藏
OpenDataLab2026-06-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/deepctrl-sft-data
下载链接
链接失效反馈
官方服务:
资源简介:
用于大模型SFT的包含10M条数据的中文数据集和包含2M条数据的英文数据集。随后,我们按照任务内容将其分为50类,并获得了每一类数据的关键词。

A Chinese dataset containing 10 million data entries and an English dataset containing 2 million data entries, both intended for supervised fine-tuning (SFT) of large language models (LLMs). Subsequently, we categorized them into 50 classes according to their task contents, and extracted the keywords for each category.
提供机构:
OpenDataLab
创建时间:
2024-04-30
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DeepCtrl-sft-data是由匠数科技整理的高质量大模型SFT数据集,包含超过12M条中英文样本,用于指令微调任务。数据集经过严格的格式统一、清洗和内容审核,分为50个任务类别,并提供了类别关键词,支持大模型训练和研究。数据来源于多个开源数据集,采用Apache 2.0许可证,旨在提供安全、统一的训练资源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务