namjanghee/korean-role-playing

Name: namjanghee/korean-role-playing
Creator: namjanghee
Published: 2026-04-30 16:57:42
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/namjanghee/korean-role-playing

下载链接

链接失效反馈

官方服务：

资源简介：

korean-role-playing是一个基于韩语的角色扮演对话数据集，包含四个子集：gf-persona-data（基于恋人关系的角色扮演对话）、youtube-couple-data（基于韩国情侣YouTube视频字幕的真实对话）、general-roleplay-data（从英语Smoltalk数据集重构的韩语一般角色扮演数据）和exa-data（基于LG EXAONE风格的角色扮演对话）。数据集旨在支持韩语角色扮演AI的开发，包括多轮对话和角色一致性评估等任务。所有数据均为韩语，适用于角色扮演和多轮对话生成等自然语言处理任务。

korean-role-playing is a Korean-based role-playing dialogue dataset consisting of four subsets: gf-persona-data (role-playing dialogues based on lover relationships), youtube-couple-data (real couple dialogues based on subtitles from Korean couple YouTube videos), general-roleplay-data (general role-playing data reconstructed in Korean from the English Smoltalk dataset), and exa-data (role-playing dialogues based on LG EXAONE-style personas). The dataset aims to support the development of Korean role-playing AIs, including tasks such as multi-turn dialogue and persona consistency evaluation. All data is in Korean and is suitable for natural language processing tasks such as role-playing and multi-turn dialogue generation.

提供机构：

namjanghee

搜集汇总

数据集介绍

构建方式

korean-role-playing数据集通过多种策略构建，涵盖四个子集。gf-persona-data基于预设的恋人关系角色场景与对话结构进行人工设计；youtube-couple-data从韩国情侣YouTube视频中提取字幕，经过对话单元分割与配对清洗而成；general-roleplay-data利用gpt-4o-mini模型将英文Smoltalk子集中的角色扮演数据翻译并重构为韩语；exa-data则围绕LG EXAONE风格的角色设定，借助gpt-4o生成符合特定 personas 的互动对话。所有子集均采用统一的对话字段格式，并经过人工与自动化相结合的清洗流程，确保数据质量。

使用方法

数据集以HuggingFace Datasets格式提供，包含train单一分割，可通过load_dataset函数加载四个子集。开发者可针对角色扮演对话生成、多轮响应一致性评测或人格保持能力测试等任务，构建微调或评估流程。建议依据子集特性分别处理：如gf-persona-data适用于恋爱关系模拟，youtube-couple-data适合真实对话风格学习。使用时需注意数据中可能存在的性别角色预设与模型生成偏差，并参考Apache 2.0许可进行学术或商业引用。

背景与挑战

背景概述

korean-role-playing数据集由Jaeyoon Jung和Jeongjin Lee于2025年在Hugging Face KREW社区创建，旨在弥补韩国语角色扮演对话数据的匮乏。随着大语言模型在个性化交互与虚拟角色扮演领域的应用拓展，已有数据多集中于英语环境，难以适应韩国语用户对自然、情境化角色对话的需求。该数据集整合四个子集——涵盖恋人关系个性对话、YouTube情侣真实对话、通用角色扮演及基于EXA体系的虚构角色交互，为韩国语角色驱动型对话系统提供了多场景标注资源，对推动韩国语人格一致性与多轮对话评估研究具有重要价值。

当前挑战

该数据集面临的核心挑战在于多源异构数据的质量平衡与泛化能力。一方面，部分子集依赖大模型（如GPT-4o）生成内容，虽经人工精炼，仍存在响应风格单一、创作痕迹明显的问题，与真实对话的多样性存在差距。另一方面，数据聚焦于特定人际关系（如恋人角色），可能导致模型在超出该范围的对话中产生性别或关系偏倚，限制了其对更广泛角色情境的适应力。构建过程中，从YouTube字幕提取对话需克服噪声与话题漂移的挑战，而将英文角色扮演数据转化为韩国语则需谨慎处理语义一致性与文化适配问题，以确保语料的自然度与领域代表性。

常用场景

经典使用场景

在自然语言处理与对话系统研究领域，korean-role-playing数据集为构建具备角色扮演能力的韩国语大语言模型提供了关键支撑。该数据集涵盖四种典型交互场景：恋人角色扮演人格对话、YouTube情侣真实字幕对话、基于Smoltalk重构的通用角色扮演语料，以及LG EXAONE风格化角色扮演对话。研究者可利用其多轮对话结构，训练模型在特定人格设定下生成语境一致、风格自然的回应，尤其适用于韩国语角色对话生成与多轮交互一致性优化任务。

解决学术问题

该数据集有效弥补了韩国语角色扮演对话资源的稀缺性，解决了现有英语中心数据集在跨语言迁移中产生的文化语境错位与表达生硬问题。它为评估和提升大语言模型在预设人格条件下的对话一致性、情感共鸣能力及语境适应性提供了标准化的训练与测试基础。通过涵盖浪漫关系、日常闲聊与专业角色等多元场景，学术研究得以系统探索模型在细粒度人格维持、情感表达自然度及多话题转换中的表现瓶颈。

实际应用

在实际产业部署中，该数据集可用于开发韩国语虚拟伴侣、游戏NPC对话系统及个性化客服助手。例如，基于gf-persona-data可构建具备情感记忆的AI女友角色；利用youtube-couple-data则能训练出模仿真实情侣互动模式的对话引擎，提升用户沉浸感。general-roleplay-data和exa-data则适用于虚拟偶像的实时对话生成或企业虚拟品牌代言人的角色化交互，显著增强韩国语交互产品的真实性与用户黏性。

数据集最近研究