yukeef57/cyber-feng-sft

Name: yukeef57/cyber-feng-sft
Creator: yukeef57
Published: 2026-04-08 03:46:42
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/yukeef57/cyber-feng-sft

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - zh pretty_name: Cyber Feng SFT Dataset tags: - text - conversational - chinese - sft - instruction-tuning task_categories: - text-generation size_categories: - 1K<n<10K --- # Cyber Feng SFT Dataset 这是 `Cyber Feng` 项目的清洗后 SFT 数据集，主要用于训练“峰哥式”中文问答 / 单口风格 LoRA。 ## 项目链接 - GitHub 仓库：`https://github.com/f57y/CYBER_FENG` - 配套 LoRA 权重：`https://huggingface.co/yukeef57/cyber-feng-lora` - 推荐底座模型：`Qwen/Qwen2.5-7B-Instruct` ## 数据概览 - 总样本数：1321 - Train：1113 - Validation：96 - Test：112 - 类型：`qa` + `monologue` - 语言：中文按当前切分统计： - Train 唯一来源数：40 - Validation 唯一来源数：5 - Test 唯一来源数：5 ## 数据结构每条样本为一行 JSON，字段结构如下： ```json { "id": "sample-id", "source": "source-name", "type": "qa", "messages": [ {"role": "system", "content": "系统提示词"}, {"role": "user", "content": "用户问题"}, {"role": "assistant", "content": "峰哥风格回答"} ] } ``` 说明： - `type` 目前主要是 `qa` 或 `monologue` - `messages` 采用聊天式结构，最后一条固定为 `assistant` - 训练脚本默认只学习 assistant 回复部分 ## 文件说明 - `train.jsonl`：训练集 - `val.jsonl`：验证集 - `test.jsonl`：测试集 - `stats.json`：切分与统计摘要 ## 数据来源与处理方式数据来自公开直播切片 / 转录内容的人工筛选与清洗，再统一转成聊天式 SFT 数据。项目脚本会执行以下步骤： 1. 整理问答类与单口类模板样本 2. 转成统一的 `messages` 结构 3. 按 `source` 切分 `train / val / test` 4. 输出统计信息到 `stats.json` ## 如何下载 ```bash mkdir -p data/training/sft hf download yukeef57/cyber-feng-sft --repo-type dataset --local-dir data/training/sft ``` ## 如何用于训练 ```bash python3 scripts/train_qlora.py \ --model-name-or-path Qwen/Qwen2.5-7B-Instruct \ --train-data-path data/training/sft/train.jsonl \ --eval-data-path data/training/sft/val.jsonl \ --output-dir data/training/runs/qwen25-7b-fengge-lora ``` ## 使用边界与注意事项 - 这不是通用中文对话数据集，而是强风格化角色数据。 - 数据中可能包含攻击性、羞辱式表达、强判断和夸张语气。 - 如果你要做公开产品或商业化场景，建议重新审查数据来源、表达风格、人格风险与分发边界。 - 使用前请自行确认原始素材、底座模型和二次发布行为是否符合你的目标场景要求。

--- 语言： - 中文展示名称：Cyber Feng 监督微调（Supervised Fine-Tuning，SFT）数据集标签： - 文本 - 对话式 - 中文 - SFT - 指令微调（Instruction Tuning）任务类别： - 文本生成样本规模： - 1000 < 样本数 < 10000 --- # Cyber Feng 监督微调数据集本数据集为`Cyber Feng`项目经清洗后的监督微调数据集，主要用于训练具备「峰哥式」风格的中文问答/单口类低秩自适应（Low-Rank Adaptation，LoRA）模型。 ## 项目链接 - GitHub 仓库：`https://github.com/f57y/CYBER_FENG` - 配套 LoRA 权重文件：`https://huggingface.co/yukeef57/cyber-feng-lora` - 推荐基座模型：`Qwen/Qwen2.5-7B-Instruct` ## 数据概览 - 总样本量：1321 - 训练集（Train）：1113 - 验证集（Validation）：96 - 测试集（Test）：112 - 数据类型：问答（Question Answering，QA） + 独白（Monologue） - 语言：中文按当前数据集划分统计： - 训练集唯一来源数：40 - 验证集唯一来源数：5 - 测试集唯一来源数：5 ## 数据结构每条样本为一行JSON格式数据，其字段结构如下： json { "id": "sample-id", "source": "source-name", "type": "qa", "messages": [ {"role": "system", "content": "系统提示词"}, {"role": "user", "content": "用户问题"}, {"role": "assistant", "content": "峰哥风格回答"} ] } 说明： - `type` 字段当前主要取值为 `qa` 或 `monologue` - `messages` 采用对话式结构，且最后一条消息的角色固定为 `assistant`（助手） - 训练脚本默认仅学习助手回复部分的参数 ## 文件说明 - `train.jsonl`：训练集文件 - `val.jsonl`：验证集文件 - `test.jsonl`：测试集文件 - `stats.json`：数据集划分与统计摘要文件 ## 数据来源与处理方式本数据集的数据来源于公开直播切片/转录内容，经人工筛选与清洗后，统一转换为对话式监督微调数据集。项目脚本将执行以下处理步骤： 1. 整理问答类与单口类模板样本 2. 转换为统一的 `messages` 结构 3. 按 `source` 字段进行训练集、验证集、测试集的划分 4. 将统计信息输出至 `stats.json` 文件 ## 下载方式 bash mkdir -p data/training/sft hf download yukeef57/cyber-feng-sft --repo-type dataset --local-dir data/training/sft ## 训练使用方法 bash python3 scripts/train_qlora.py --model-name-or-path Qwen/Qwen2.5-7B-Instruct --train-data-path data/training/sft/train.jsonl --eval-data-path data/training/sft/val.jsonl --output-dir data/training/runs/qwen25-7b-fengge-lora ## 使用边界与注意事项 - 本数据集并非通用中文对话数据集，而是强风格化的角色专用数据。 - 数据中可能包含攻击性、羞辱性表达、强判断性语句及夸张语气。 - 若用于公开产品或商业化场景，建议重新审查数据来源、表达风格、人格风险与分发边界。 - 使用前请自行确认原始素材、基座模型及二次发布行为是否符合目标场景的合规要求。

提供机构：

yukeef57

5,000+

优质数据集

54 个

任务类型

进入经典数据集