korean-role-playing

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/huggingface-KREW/korean-role-playing

下载链接

链接失效反馈

官方服务：

资源简介：

korean-role-playing是一个多样化的韩国语角色扮演对话数据集，包含恋人关系、YouTube情侣视频、一般情境和EXA风格的对话。适用于开发韩语角色AI、角色基础LLM和人格一致性评估等。

创建时间：

2025-05-16

原始信息汇总

数据集概述：korean-role-playing

基本描述

名称：korean-role-playing
语言：韩语（ko）
标签：korean, persona, role-playing
规模：10K<n<100K
许可证：Apache 2.0

数据集构成

数据集包含4个子集：

exa-data
- 数据量：890个示例
- 大小：912,254字节
- 特征：
  - text（包含content和role字段）
  - topic（字符串类型）
general-roleplay-data
- 数据量：32,367个示例
- 大小：169,138,957字节
- 特征：
  - text（包含content和role字段）
gf-persona-data
- 数据量：1,920个示例
- 大小：3,030,200字节
- 特征：
  - text（包含content和role字段）
youtube-couple-data
- 数据量：125个示例
- 大小：161,269字节
- 特征：
  - text（包含content和role字段）

数据用途

支持任务：
- 角色扮演（role-playing）
- 多轮对话（multi-turn dialogue）
应用场景：
- 角色AI开发
- 基于角色的LLM开发
- 人格一致性评估

数据来源

gf-persona-data：基于恋人关系的角色对话
youtube-couple-data：基于韩国情侣YouTube视频字幕的真实对话
general-roleplay-data：基于Hugging Face的Smoltalk数据重构的韩语角色扮演数据
exa-data：基于LG EXAONE风格的角色对话

注意事项

已知限制：
- 部分子集的回答可能存在风格偏差
- 包含基于恋人关系的对话
- 部分回答由LLM生成，可能存在与真实对话的差异

引用信息

bibtex @misc{korean_role_playing_2025, title={korean-role-playing}, author={Jaeyoon Jung, Jeongjin Lee}, year={2025}, publisher={Hugging Face KREW}, howpublished={url{https://huggingface.co/datasets/huggingface-KREW/korean-role-playing}} }

贡献者

搜集汇总

数据集介绍

构建方式

该数据集通过多源异构数据整合策略构建，涵盖四种特色子集：基于预设人格的恋人对话场景(gf-persona-data)采用结构化剧本设计；YouTube真实情侣对话(youtube-couple-data)通过字幕提取与对话配对实现；通用角色扮演数据(general-roleplay-data)运用GPT-4技术对英文原版Smoltalk进行本地化重构；EXA风格对话(exa-data)则融合LG EXAONE人格设定与AI生成技术。各子集均经过多轮人工校验，确保韩国语语境的自然流畅表达。

特点

作为韩国语角色扮演领域的专业语料库，其核心价值体现在多维场景覆盖与语言特性上。数据集包含35,302条高质量对话，精准捕捉恋人互动、日常角色扮演等社交情境。独特的双角色标注体系（user/assistant）支持多轮对话建模，性别预设特征为社交语言学分析提供维度。子集间风格差异显著，从脚本化对白到真实视频转录，为模型提供丰富的风格迁移学习素材。

使用方法

该数据集适配多种自然语言处理任务，建议通过HuggingFace接口加载特定子集进行针对性应用。角色扮演任务推荐使用gf-persona-data训练人格一致性模型，对话生成任务可组合youtube-couple-data与general-roleplay-data提升自然度。研究者应注意各子集的数据分布差异，exa-data适用于特定人格的响应生成评测。数据加载时需指定config_name参数，文本字段采用嵌套结构存储角色化对话轮次，适合transformers库的对话管道处理。

背景与挑战

背景概述

korean-role-playing数据集是由Hugging Face KREW团队于2025年发布的韩国语角色扮演对话数据集，主要研究人员包括Jaeyoon Jung和Jeongjin Lee。该数据集旨在解决韩国语自然语言处理领域中角色扮演对话生成的空白，特别针对多轮对话、人格一致性保持等核心研究问题。数据集包含四个子集，涵盖情侣角色扮演、YouTube真实对话、通用角色扮演以及EXA风格人格对话等多种场景，为韩国语对话系统的开发提供了丰富的训练资源。该数据集的发布填补了韩国语角色扮演数据的空白，对推动韩国语对话AI的发展具有重要意义。

当前挑战

korean-role-playing数据集面临的主要挑战包括：在领域问题方面，如何确保角色扮演对话的人格一致性和多轮对话的自然流畅性是一个重要挑战；在数据构建方面，从YouTube视频字幕中提取真实对话并进行有效配对需要大量的人工标注工作，而使用GPT-4等大型语言模型生成的数据可能存在风格偏差问题。此外，数据集中的对话主要基于特定性别和关系假设，这在一定程度上限制了其泛化能力。如何平衡数据的多样性和质量，以及如何处理LLM生成数据与真实对话之间的差异，都是构建过程中需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，korean-role-playing数据集为角色扮演对话系统提供了丰富的韩国语料资源。该数据集通过模拟情侣互动、日常对话等多样化场景，成为训练对话生成模型的理想选择。其多轮对话结构和角色标注特性，使得研究者能够深入探究语境连贯性和角色一致性等关键问题。

解决学术问题

该数据集有效解决了韩国语角色扮演对话研究中数据稀缺的核心难题。通过提供涵盖不同人际关系和场景的标注对话，为探究文化特定性对话模式、人格一致性建模以及多轮对话动态演化等前沿课题提供了实证基础。其精心设计的子集结构，更是为跨场景对话迁移学习研究创造了条件。

衍生相关工作

基于该数据集已衍生出多项创新研究，包括《基于人格嵌入的韩语多角色对话生成》等代表性论文。在工业界，LG电子利用其EXA子集开发了新一代智能对话系统。同时，该数据集还促进了跨语言角色扮演模型的对比研究，为东亚语言对话系统的发展提供了重要参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集