five

RikkaBotan/Cute_Synthetic_smoltalk_jp_sft

收藏
Hugging Face2025-11-24 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/RikkaBotan/Cute_Synthetic_smoltalk_jp_sft
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- # **DeepSeek Cute-Style Synthetic Conversation Dataset 132k** This dataset is a **synthetic Japanese conversational dataset** created by combining: * **User messages from the llm-jp/magpie-sft-v1.0 dataset** * **Assistant responses generated with DeepSeek** The assistant responses are written in **a soft, cute, gentle girl-like tone**, designed to provide a warm and friendly conversational style. --- ## **✨ Overview** This dataset contains multi-turn conversational samples in JSON format. Each conversation follows a simple structure: ```json [ { "role": "user", "content": "..." }, { "role": "assistant", "content": "..." } ] ``` All content is in **Japanese**, and the assistant side consistently uses a **かわいくて柔らかな口調 (cute and gentle style)**. --- ## **🎯 Purpose** This dataset is intended for: * **Supervised Fine-Tuning (SFT)** of small Japanese LLMs * Training models to adopt **cute, friendly, soft-spoken personalities** * Enhancing models with **natural conversational abilities** using Japanese data It is especially suited for developers who want their models to respond with kindness, softness, and an approachable tone. --- ## **📚 Source & Construction** * **User messages** are derived from the public dataset **llm-jp/magpie-sft-v1.0** * **Assistant messages** are generated using **DeepSeek**, designed to keep: * friendly and warm tone * natural and soft Japanese * slightly girlish and cute speaking style Synthetic generation ensures: * no copyrighted sources * consistent personality * cleaner training data compared to scraped corpora --- ## **📏 Dataset Language** * **Language:** Japanese (日本語) * **Assistant style:** Soft, gentle and cute --- ## **📦 Format** You can load the dataset using 🤗 Datasets: ```python from datasets import load_dataset ds = load_dataset("RikkaBotan/Cute_Synthetic_smoltalk_jp_sft") ``` Each entry has: * `text` : a JSON-formatted list of conversation turns suitable for immediate use in SFT training. --- ## **💡 Example Usage for SFT** * Training chat-style Japanese LLMs * Persona fine-tuning (cute / soft / friendly characters) * Creating lightweight conversational agents --- ## **📄 License** Follow the licenses of the source dataset (**magpie-sft**) and generation policies of DeepSeek. Thus, license is Apache 2.0 --- # **DeepSeek かわいい口調・合成会話データセット 13万サンプル** このデータセットは、以下を組み合わせて作成した **日本語の合成会話データセット** です。 * **llm-jp/magpie-sft-v1.0 のユーザーメッセージ** * **DeepSeek によって生成されたアシスタント応答** アシスタント側の応答は、**柔らかくてかわいらしい女の子のような口調**で統一されています。 --- ## **✨ 概要** 本データセットは、マルチターンの会話サンプルを JSON 形式で収録しています。 各会話は次のようなシンプルな構造です。 ```json [ { "role": "user", "content": "..." }, { "role": "assistant", "content": "..." } ] ``` すべて **日本語**で書かれており、アシスタント側は常に **かわいく柔らかい口調**(ふんわりした優しい話し方)で応答します。 --- ## **🎯 目的** このデータセットは以下の用途を想定しています。 * 日本語小規模 LLM の **SFT(Supervised Fine-Tuning)** * かわいくて柔らかい性格の **ペルソナ調整** * 自然で優しい日本語の **会話能力向上** * フレンドリーで親しみやすいモデルの構築 特に、**優しくてふわっとした口調のモデル**を作りたい開発者に向いています。 --- ## **📚 データ元と生成方法** * **ユーザーメッセージ** 公開データセット **llm-jp/magpie-sft-v1.0** から抽出 * **アシスタントメッセージ** DeepSeek によって生成し、以下のスタイルで統一 * フレンドリーで温かい話し方 * 自然で柔らかな日本語 * 少し女の子らしい、かわいい口調 合成生成を用いることで: * 著作権の問題がない * ペルソナが一貫している * スクレイピングデータよりも綺麗で統一的 といった特徴があります。 --- ## **📏 データセット言語** * **言語:** 日本語(Japanese) * **アシスタントの口調:** 柔らかくて優しい、かわいらしい --- ## **📦 データ形式** 🤗 Datasets から以下のように読み込めます。 ```python from datasets import load_dataset ds = load_dataset("RikkaBotan/Cute_Synthetic_smoltalk_jp_sft") ``` 各エントリには以下が含まれます: * `text` : SFT でそのまま使用できる、会話ターンを JSON 形式で格納した文字列 --- ## **💡 SFT 用途例** * 日本語チャットモデルの学習 * かわいい/優しい/フレンドリーなキャラのペルソナ調整 * 軽量な会話エージェント構築 --- ## **📄 ライセンス** 元データセット(magpie-sft)のライセンスおよび DeepSeek の生成方針に従います。 そのため、本データセットは **Apache 2.0** で公開されています。 # 🌸 About us Japanese independent researcher having shy and pampered personality. Twin-tail hair is a charm point. Interested in nlp. Usually using python and C. ![RikkaBotan_Logo](https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/vo4azDEv3SZNVDB6O609i.png)
提供机构:
RikkaBotan
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作