RikkaBotan/Cute_Synthetic_smoltalk_jp_sft
收藏Hugging Face2025-11-24 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/RikkaBotan/Cute_Synthetic_smoltalk_jp_sft
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
# **DeepSeek Cute-Style Synthetic Conversation Dataset 132k**
This dataset is a **synthetic Japanese conversational dataset** created by combining:
* **User messages from the llm-jp/magpie-sft-v1.0 dataset**
* **Assistant responses generated with DeepSeek**
The assistant responses are written in **a soft, cute, gentle girl-like tone**, designed to provide a warm and friendly conversational style.
---
## **✨ Overview**
This dataset contains multi-turn conversational samples in JSON format.
Each conversation follows a simple structure:
```json
[
{ "role": "user", "content": "..." },
{ "role": "assistant", "content": "..." }
]
```
All content is in **Japanese**, and the assistant side consistently uses a **かわいくて柔らかな口調 (cute and gentle style)**.
---
## **🎯 Purpose**
This dataset is intended for:
* **Supervised Fine-Tuning (SFT)** of small Japanese LLMs
* Training models to adopt **cute, friendly, soft-spoken personalities**
* Enhancing models with **natural conversational abilities** using Japanese data
It is especially suited for developers who want their models to respond with kindness, softness, and an approachable tone.
---
## **📚 Source & Construction**
* **User messages** are derived from the public dataset
**llm-jp/magpie-sft-v1.0**
* **Assistant messages** are generated using **DeepSeek**, designed to keep:
* friendly and warm tone
* natural and soft Japanese
* slightly girlish and cute speaking style
Synthetic generation ensures:
* no copyrighted sources
* consistent personality
* cleaner training data compared to scraped corpora
---
## **📏 Dataset Language**
* **Language:** Japanese (日本語)
* **Assistant style:** Soft, gentle and cute
---
## **📦 Format**
You can load the dataset using 🤗 Datasets:
```python
from datasets import load_dataset
ds = load_dataset("RikkaBotan/Cute_Synthetic_smoltalk_jp_sft")
```
Each entry has:
* `text` : a JSON-formatted list of conversation turns
suitable for immediate use in SFT training.
---
## **💡 Example Usage for SFT**
* Training chat-style Japanese LLMs
* Persona fine-tuning (cute / soft / friendly characters)
* Creating lightweight conversational agents
---
## **📄 License**
Follow the licenses of the source dataset (**magpie-sft**) and generation policies of DeepSeek.
Thus, license is Apache 2.0
---
# **DeepSeek かわいい口調・合成会話データセット 13万サンプル**
このデータセットは、以下を組み合わせて作成した **日本語の合成会話データセット** です。
* **llm-jp/magpie-sft-v1.0 のユーザーメッセージ**
* **DeepSeek によって生成されたアシスタント応答**
アシスタント側の応答は、**柔らかくてかわいらしい女の子のような口調**で統一されています。
---
## **✨ 概要**
本データセットは、マルチターンの会話サンプルを JSON 形式で収録しています。
各会話は次のようなシンプルな構造です。
```json
[
{ "role": "user", "content": "..." },
{ "role": "assistant", "content": "..." }
]
```
すべて **日本語**で書かれており、アシスタント側は常に
**かわいく柔らかい口調**(ふんわりした優しい話し方)で応答します。
---
## **🎯 目的**
このデータセットは以下の用途を想定しています。
* 日本語小規模 LLM の **SFT(Supervised Fine-Tuning)**
* かわいくて柔らかい性格の **ペルソナ調整**
* 自然で優しい日本語の **会話能力向上**
* フレンドリーで親しみやすいモデルの構築
特に、**優しくてふわっとした口調のモデル**を作りたい開発者に向いています。
---
## **📚 データ元と生成方法**
* **ユーザーメッセージ**
公開データセット **llm-jp/magpie-sft-v1.0** から抽出
* **アシスタントメッセージ**
DeepSeek によって生成し、以下のスタイルで統一
* フレンドリーで温かい話し方
* 自然で柔らかな日本語
* 少し女の子らしい、かわいい口調
合成生成を用いることで:
* 著作権の問題がない
* ペルソナが一貫している
* スクレイピングデータよりも綺麗で統一的
といった特徴があります。
---
## **📏 データセット言語**
* **言語:** 日本語(Japanese)
* **アシスタントの口調:** 柔らかくて優しい、かわいらしい
---
## **📦 データ形式**
🤗 Datasets から以下のように読み込めます。
```python
from datasets import load_dataset
ds = load_dataset("RikkaBotan/Cute_Synthetic_smoltalk_jp_sft")
```
各エントリには以下が含まれます:
* `text` : SFT でそのまま使用できる、会話ターンを JSON 形式で格納した文字列
---
## **💡 SFT 用途例**
* 日本語チャットモデルの学習
* かわいい/優しい/フレンドリーなキャラのペルソナ調整
* 軽量な会話エージェント構築
---
## **📄 ライセンス**
元データセット(magpie-sft)のライセンスおよび DeepSeek の生成方針に従います。
そのため、本データセットは **Apache 2.0** で公開されています。
# 🌸 About us
Japanese independent researcher having shy and pampered personality. Twin-tail hair is a charm point. Interested in nlp. Usually using python and C.

提供机构:
RikkaBotan



