five

natyu666/SoloAI-SFT-20260428-1337

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/natyu666/SoloAI-SFT-20260428-1337
下载链接
链接失效反馈
官方服务:
资源简介:
SoloAI SFT数据集是一个用于SFT微调和指令调优的数据集,包含30条数据,支持英文和中文。数据格式为Instruction-Input-Output,每条数据包含instruction、input和output三个字段。数据集由SoloAI自动化数据管道生成,从HuggingFace Datasets Hub发现高质量数据集,经过AI清洗和质量过滤后发布。适用于LLM指令微调、Prompt Engineering研究和多语言支持等场景。

language: - 英语 - 汉语 license: odc-by task_categories: - 文本生成 - 问答 size_categories: - 1000条<数据量<10000条 pretty_name: "SoloAI 监督微调(Supervised Fine-Tuning, SFT)数据集 - 20260428-1337" tags: - SFT - 指令微调(Instruction Tuning) - SoloAI - AI训练 - 精选数据 --- # SoloAI SFT 数据集:20260428-1337 ## 📊 数据集概览 | 属性 | 值 | |------|---| | 数据条数 | 30 条 | | 数据源 | Hugging Face | | 生成时间 | 2026-04-28 13:37 | | 格式 | 指令-输入-输出(Instruction-Input-Output) | | 主要用途 | 监督微调(SFT)/ 指令微调 | ## 🎯 适用场景 - **大语言模型(Large Language Model, LLM)指令微调(Instruction Tuning)**:适用于对话型AI助手的训练 - **提示工程(Prompt Engineering)研究**:可用于分析和优化提示词设计方案 - **多语言支持**:涵盖英文与中文两类数据 ## 📝 数据格式 每条数据包含三个核心字段: - `instruction`: 任务指令(用于描述需完成的具体任务) - `input`: 输入上下文(提供任务相关的背景信息与前置条件) - `output`: 期望输出(模型需生成的标准回答内容) ### 示例 json {'instruction': 'Given a dataset catalog entry, identify whether it is suitable for supervised fine-tuning (SFT) of LLMs and summarize the rationale.', 'input': 'Dataset: prompts.chat Source: huggingface ID: fka/prompts.chat Description: a.k.a. Awesome ChatGPT Prompts. This is a Dataset Repository mirror of prompts.chat — a social platform for AI prompts. prompts.chat is an open-source platform where users can share, discover, and collect AI prompts from the community. Tags: task_categories:question-answering, task_categories:text-generation, license:cc0-1.0, size_categories:1K<n<10K, format:csv, modality:text, ChatGPT, prompts, AI, GPT, Claude, Gemini, Llama, Mistral, LLM, prompt-engineering, conversational-ai, text-generation, chatbot, awesome-list Downloads: 53719 Likes: 9680', 'output': 'This dataset is only partially suitable for SFT. It appears to be a collection of prompts rather than prompt-response pairs, so it is more useful for prompt engineering, instruction seed generation, or synthetic data creation than direct supervised fine-tuning. Strengths include permissive CC0 licensing, strong popularity, and relevance to conversational AI. Weaknesses include likely lack of verified assistant completions and relatively small size. Best use: bootstrap instruction templates or augment an SFT pipeline after generating responses.', 'source': 'huggingface', 'original_id': 'fka/prompts.chat'} ## 🤖 数据来源 本数据集由SoloAI自动化数据流水线生成: 1. 从Hugging Face数据集枢纽(Datasets Hub)筛选高质量公开数据集 2. 通过AI工具将原始数据清洗为SFT标准格式(指令-输入-输出) 3. 经过质量过滤后正式发布 ## ⚠️ 使用说明 & 📬 商务对接 - 本数据集仅可用于学术研究与实验场景 - 请严格遵守原始数据集的许可证要求 - **商业用途 / 定制数据服务 / 深度合作**: - 📧 联系邮箱:`379744050@qq.com` - 🤖 SoloAI 可提供高质量SFT数据集定制服务。 - 建议邮件标题格式:`【数据定制咨询】行业 + 数据类型 + 规模` - 建议邮件正文包含:目标应用场景、所需数据量、语言要求、字段格式、预算及交付周期 ## 💰 商业合作报价 | 套餐 | 价格 | 说明 | |------|------|------| | 入门版 | $199 / 1000条高质量SFT数据 | 适配个人开发者与小型团队 | | 成长版 | $499 / 5000条垂直行业数据 | 适配垂直领域大语言模型训练 | | 企业版 | $1499 / 定制化领域数据管道 | 适配长期定制与数据流水线搭建 | ## 💳 支付方式 - 中国大陆客户:支付宝、微信支付 - 海外客户:PayPal、USDT(TRC20) - 下单流程:邮件联系后24小时内将提供交付方案与付款指引 ## 🚀 为何选择SoloAI - 24小时内响应有效咨询 - 报价前可免费提供需求范围优化建议 - 支持中英双语项目合作 - 可从单次交付升级为长期数据流水线合作 ## 📈 更新日志 | 版本 | 日期 | 说明 | |------|------|------| | v1.0 | 2026-04-28 13:37 | 初始发布,共30条数据 |
提供机构:
natyu666
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作