five

ChloeLynn/Nemotron-Personas-Korea

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ChloeLynn/Nemotron-Personas-Korea
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Personas-Korea是一个基于韩国真实人口统计、地理和个性特征分布的开源合成人物数据集(CC BY 4.0)。它旨在广泛反映韩国人口的多样性和特征,是首个大规模韩语人物数据集。数据集包含姓名、性别、年龄、婚姻状况、教育水平、职业和居住地区等属性,这些属性基于韩国统计信息服务中心(KOSIS)、韩国最高法院、国民健康保险公团、农村经济研究院和NAVER Cloud的官方统计数据合成。该数据集支持韩国模型开发者开发包含重要地区特定人口统计和文化背景的主权AI系统。数据集可用于扩大主权AI模型开发的合成数据多样性,缓解数据和模型偏见,并提高模型响应的多样性。数据集由NVIDIA Corporation使用NeMo Data Designer企业级合成数据生成复合AI系统创建,并利用专有的概率图模型(PGM)、Apache-2.0许可的google/gemma-4-31B-it模型以及Data Designer中包含的验证和评估方法。数据集可免费用于商业和非商业用途。

Nemotron-Personas-Korea is an open-source persona dataset (CC BY 4.0) synthesized based on real-world demographic, geographic, and personality trait distributions of South Korea. It is designed to broadly reflect the diversity and characteristics of the South Korean population. As the first large-scale Korean-language persona dataset, it includes attributes such as name, sex, age, marital status, education level, occupation, and region of residence, all synthesized using official statistics from the Korean Statistical Information Service (KOSIS), the Supreme Court of Korea, the National Health Insurance Service, and the Korea Rural Economic Institute, and NAVER Cloud. The dataset supports South Korean model builders in developing Sovereign AI systems that incorporate important region-specific demographics and cultural context. This dataset can be used to expand the diversity of synthetic data for sovereign AI model development, mitigate data and model bias, and improve the diversity of model responses. The dataset was created by NVIDIA Corporation using NeMo Data Designer, an enterprise-grade compound AI system for synthetic data generation, leveraging a proprietary probabilistic graphical model (PGM), the Apache-2.0 licensed google/gemma-4-31B-it model, and the validation and evaluation methods included in Data Designer. The dataset is freely available for both commercial and non-commercial use.
提供机构:
ChloeLynn
搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-Personas-Korea数据集是首个大规模韩语合成角色数据集,其构建方法根植于韩国真实的人口统计学与地理分布。该数据集依托NVIDIA的NeMo Data Designer复合AI系统,融合了自研的概率图模型(PGM)与google/gemma-4-31B-it模型。构建过程中,研究者从韩国统计厅(KOSIS)、大法院、国民健康保险公团、农村经济研究院及NAVER Cloud等官方渠道获取种子数据,涵盖性别、年龄、婚姻状况、教育水平、职业、居住地等多元属性,并基于这些实际分布进行合成,确保角色在年龄(如老年层)、区域(如农村)等维度上忠实反映韩国人口全貌。
特点
该数据集的核心特色在于其无与伦比的多样性与代表性。它包含700万个角色,分布于100万条记录中,覆盖26个字段,包括7种角色类型(职业、体育、艺术、旅行、烹饪、家庭、简要)及丰富的自然语言属性(如文化背景、技能专长、职业抱负)。数据集依据韩国实际人口结构精心设计,呈现出典型的“壶形”年龄分布,精准刻画出低生育率与老龄化并存的现状,并细致反映了晚婚趋势、家庭类型生命周期转换(从核心家庭到空巢再到独居)以及高龄女性占比高等社会现象。
使用方法
使用该数据集时,开发者可直接从HuggingFace加载,它专为提升主权AI(Sovereign AI)系统性能而设计。具体而言,数据集可用于扩大合成数据的多样性,缓解模型训练中的数据缺失与偏差,并增强模型响应的丰富性。用户既可直接将其用于语言模型的微调与生成任务,亦可利用NeMo Data Designer平台进一步扩展。建议结合提供的丰富上下文属性(如教育、职业、居住地)进行精准角色条件化,从而在韩国特定文化语境下生成更具地域性和社会真实性的AI交互内容。
背景与挑战
背景概述
Nemotron-Personas-Korea是由NVIDIA于2026年4月20日发布的大规模韩语合成人格数据集,旨在为韩国主权人工智能(Sovereign AI)系统开发提供扎根于真实人口分布的多样化人格数据。该数据集基于韩国统计厅(KOSIS)、大法院、国民健康保险公团等官方统计数据,通过NeMo Data Designer复合AI系统与概率图模型(PGM)生成,包含100万条记录与700万个人格画像,覆盖17个道市及252个区县。作为首个大规模韩语人格数据集,它显著提升了在年龄、地域、职业等维度上对韩国真实人口分布的代表性,为缓解数据与模型偏差、提升合成数据多样性提供了关键资源。
当前挑战
该数据集主要面临三方面挑战:首先,在领域问题层面,现有合成人格数据集普遍存在人口代表性不足的问题,例如对高龄层、农村地区及特定职业群体的覆盖缺失,导致基于此类数据训练的模型可能产生系统性偏差,难以应用于反映地域与文化特性的主权AI系统;其次,在构建过程中,由于公共数据有限且时效性不足,PGM模型需引入变量间独立性假设(如职业分配时各因素独立影响),无法建模性别与专业等交互效应;此外,韩国公共数据中缺乏对性别(gender)与生理性别(sex)的区分统计,使得数据集无法反映性别相关的社会维度,限制了其全面性。
常用场景
经典使用场景
Nemotron-Personas-Korea 数据集的核心应用在于为韩国本土生成式大语言模型提供高度拟真且多样性丰富的人物角色(Persona)数据。研究人员可利用其中涵盖的26个字段,包括职业、年龄、教育背景、居住地及七种角色描述(如职业、体育、艺术等),精确地模拟韩国不同社会群体的语言风格与行为偏好。该数据集尤其适用于构建主权AI(Sovereign AI)系统,通过在模型微调或合成数据生成阶段注入基于真实人口统计分布的角色信息,显著提升模型对韩国特定文化语境、地域特征及社会多元性的理解与表征能力。
衍生相关工作
该数据集衍生出一系列基于概率图模型与复合AI系统的合成数据方法论。其底层使用NeMo Data Designer框架,整合了私有PGM模型与gemma-4-31B-it语言模型,开创了“统计分布驱动+大语言模型生成”的混合范式。该工作启发了后续针对特定亚文化群体(如青年独居者、多代同堂家庭)的精细角色数据集构建,并推动了Persona-Driven RLHF(基于角色偏好的强化学习)技术的发展。长期来看,它作为主权AI基准测试的参照集,可用于评估模型对韩国少数群体及地域特性的理解深度。
数据集最近研究
最新研究方向
基于韩国真实人口分布构建的大规模韩语合成人格数据集Nemotron-Personas-Korea,为复和AI系统在主权人工智能(Sovereign AI)领域的落地提供了关键支撑。该数据集通过概率图模型与官方统计资料(如KOSIS、大法院)深度融合,精准刻画了韩国各年龄层、地域、职业及家庭结构的人口特征,尤其强化了对高龄层与农村地区的覆盖,显著缓解了现有数据集的代表性偏差。结合NVIDIA NeMo Data Designer平台,该数据集正被用于训练更具文化敏感性与响应多样性的韩语大语言模型,并在减少模型遗忘与偏见方面展现出前沿价值。其发布恰逢韩国加速构建本土AI生态的热点时期,为保障数据主权、推动模型与地方需求的精准对齐提供了基础性资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作