five

yukeef57/cyber-feng-sft

收藏
Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/yukeef57/cyber-feng-sft
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - zh pretty_name: Cyber Feng SFT Dataset tags: - text - conversational - chinese - sft - instruction-tuning task_categories: - text-generation size_categories: - 1K<n<10K --- # Cyber Feng SFT Dataset 这是 `Cyber Feng` 项目的清洗后 SFT 数据集,主要用于训练“峰哥式”中文问答 / 单口风格 LoRA。 ## 项目链接 - GitHub 仓库:`https://github.com/f57y/CYBER_FENG` - 配套 LoRA 权重:`https://huggingface.co/yukeef57/cyber-feng-lora` - 推荐底座模型:`Qwen/Qwen2.5-7B-Instruct` ## 数据概览 - 总样本数:1321 - Train:1113 - Validation:96 - Test:112 - 类型:`qa` + `monologue` - 语言:中文 按当前切分统计: - Train 唯一来源数:40 - Validation 唯一来源数:5 - Test 唯一来源数:5 ## 数据结构 每条样本为一行 JSON,字段结构如下: ```json { "id": "sample-id", "source": "source-name", "type": "qa", "messages": [ {"role": "system", "content": "系统提示词"}, {"role": "user", "content": "用户问题"}, {"role": "assistant", "content": "峰哥风格回答"} ] } ``` 说明: - `type` 目前主要是 `qa` 或 `monologue` - `messages` 采用聊天式结构,最后一条固定为 `assistant` - 训练脚本默认只学习 assistant 回复部分 ## 文件说明 - `train.jsonl`:训练集 - `val.jsonl`:验证集 - `test.jsonl`:测试集 - `stats.json`:切分与统计摘要 ## 数据来源与处理方式 数据来自公开直播切片 / 转录内容的人工筛选与清洗,再统一转成聊天式 SFT 数据。 项目脚本会执行以下步骤: 1. 整理问答类与单口类模板样本 2. 转成统一的 `messages` 结构 3. 按 `source` 切分 `train / val / test` 4. 输出统计信息到 `stats.json` ## 如何下载 ```bash mkdir -p data/training/sft hf download yukeef57/cyber-feng-sft --repo-type dataset --local-dir data/training/sft ``` ## 如何用于训练 ```bash python3 scripts/train_qlora.py \ --model-name-or-path Qwen/Qwen2.5-7B-Instruct \ --train-data-path data/training/sft/train.jsonl \ --eval-data-path data/training/sft/val.jsonl \ --output-dir data/training/runs/qwen25-7b-fengge-lora ``` ## 使用边界与注意事项 - 这不是通用中文对话数据集,而是强风格化角色数据。 - 数据中可能包含攻击性、羞辱式表达、强判断和夸张语气。 - 如果你要做公开产品或商业化场景,建议重新审查数据来源、表达风格、人格风险与分发边界。 - 使用前请自行确认原始素材、底座模型和二次发布行为是否符合你的目标场景要求。

--- 语言: - 中文 展示名称:Cyber Feng 监督微调(Supervised Fine-Tuning,SFT)数据集 标签: - 文本 - 对话式 - 中文 - SFT - 指令微调(Instruction Tuning) 任务类别: - 文本生成 样本规模: - 1000 < 样本数 < 10000 --- # Cyber Feng 监督微调数据集 本数据集为`Cyber Feng`项目经清洗后的监督微调数据集,主要用于训练具备「峰哥式」风格的中文问答/单口类低秩自适应(Low-Rank Adaptation,LoRA)模型。 ## 项目链接 - GitHub 仓库:`https://github.com/f57y/CYBER_FENG` - 配套 LoRA 权重文件:`https://huggingface.co/yukeef57/cyber-feng-lora` - 推荐基座模型:`Qwen/Qwen2.5-7B-Instruct` ## 数据概览 - 总样本量:1321 - 训练集(Train):1113 - 验证集(Validation):96 - 测试集(Test):112 - 数据类型:问答(Question Answering,QA) + 独白(Monologue) - 语言:中文 按当前数据集划分统计: - 训练集唯一来源数:40 - 验证集唯一来源数:5 - 测试集唯一来源数:5 ## 数据结构 每条样本为一行JSON格式数据,其字段结构如下: json { "id": "sample-id", "source": "source-name", "type": "qa", "messages": [ {"role": "system", "content": "系统提示词"}, {"role": "user", "content": "用户问题"}, {"role": "assistant", "content": "峰哥风格回答"} ] } 说明: - `type` 字段当前主要取值为 `qa` 或 `monologue` - `messages` 采用对话式结构,且最后一条消息的角色固定为 `assistant`(助手) - 训练脚本默认仅学习助手回复部分的参数 ## 文件说明 - `train.jsonl`:训练集文件 - `val.jsonl`:验证集文件 - `test.jsonl`:测试集文件 - `stats.json`:数据集划分与统计摘要文件 ## 数据来源与处理方式 本数据集的数据来源于公开直播切片/转录内容,经人工筛选与清洗后,统一转换为对话式监督微调数据集。 项目脚本将执行以下处理步骤: 1. 整理问答类与单口类模板样本 2. 转换为统一的 `messages` 结构 3. 按 `source` 字段进行训练集、验证集、测试集的划分 4. 将统计信息输出至 `stats.json` 文件 ## 下载方式 bash mkdir -p data/training/sft hf download yukeef57/cyber-feng-sft --repo-type dataset --local-dir data/training/sft ## 训练使用方法 bash python3 scripts/train_qlora.py --model-name-or-path Qwen/Qwen2.5-7B-Instruct --train-data-path data/training/sft/train.jsonl --eval-data-path data/training/sft/val.jsonl --output-dir data/training/runs/qwen25-7b-fengge-lora ## 使用边界与注意事项 - 本数据集并非通用中文对话数据集,而是强风格化的角色专用数据。 - 数据中可能包含攻击性、羞辱性表达、强判断性语句及夸张语气。 - 若用于公开产品或商业化场景,建议重新审查数据来源、表达风格、人格风险与分发边界。 - 使用前请自行确认原始素材、基座模型及二次发布行为是否符合目标场景的合规要求。
提供机构:
yukeef57
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作