Nemotron-Personas-Korea

github2026-04-27 更新2026-04-28 收录

下载链接：

https://github.com/civilian7/korean-people-persona

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个韩语人物角色数据集，包含约100万行数据，分布在9个parquet文件中。数据集包含多种人物角色描述，如职业/工作角色、体育/运动角色、艺术/文化角色等，并保证所有列无缺失值。

This is a Korean character dataset comprising approximately 1 million rows of data distributed across 9 Parquet files. The dataset includes diverse character descriptions covering occupational/work roles, sports/athletic roles, artistic/cultural roles, and more, with all columns guaranteed to have no missing values.

创建时间：

2026-04-27

原始信息汇总

数据集概述：korean-people-persona

基本信息

数据集名称: korean-people-persona
原始来源: NVIDIA 的 HuggingFace 数据集 nvidia/Nemotron-Personas-Korea
许可证: 遵循原始数据集页面的许可证条款
数据格式: 原始数据为 9 个 Parquet 文件，已转换为 SQLite 数据库
数据总量: 共 1,000,000 行，每个文件约 111,112 行
缺失值: 所有列无缺失值（NOT NULL 保证）

数据内容与结构

主表 `persona`

类别	列名	说明	示例
标识	`uuid`	32 字符十六进制字符串（无连字符），主键	`03b4f36a18e6469386d0286dddd513c8`
核心描述	`persona`	1-2 句核心摘要	`"농촌 지역에서 평생 농업 일을 해온 70대 남성으로..."`
领域细分	`professional_persona`	职业/工作相关描述
	`sports_persona`	体育/运动相关描述
	`arts_persona`	艺术/文化相关描述
	`travel_persona`	旅行相关描述
	`culinary_persona`	饮食文化/烹饪相关描述
	`family_persona`	家庭关系相关描述
背景描述	`cultural_background`	文化/成长背景
	`skills_and_expertise`	技能/专业描述
	`hobbies_and_interests`	兴趣爱好描述
	`career_goals_and_ambitions`	未来目标/抱负
关键词列表	`skills_and_expertise_list`	技能关键词（JSON 数组）	`["엑셀 활용","문서 작성"]`
	`hobbies_and_interests_list`	兴趣关键词（JSON 数组）	`["등산","낚시"]`
人口统计	`sex`	性别：`남자` / `여자`
	`age`	年龄（整数）
	`marital_status`	婚姻状态（4 种）：`미혼` / `기혼` / `이혼` / `사별`
	`military_status`	兵役状态（2 种）：`군필` / `해당없음`
	`family_type`	家庭类型（39 种）：`배우자와 자녀`、`1인 가구` 等
	`housing_type`	居住类型（6 种）：`아파트`、`단독주택` 等
	`education_level`	最高学历（7 种）：`초등학교` ~ `대학원`
	`bachelors_field`	学士学位专业领域
	`occupation`	职业（自由文本）
地区	`district`	市郡区	`강남-서초`
	`province`	市道（17 种）	`서울`、`경기`
	`country`	国家（唯一值：`대한민국`）	`대한민국`

数据库索引

索引名称	列	用途
`idx_persona_demo`	`(sex, age)`	性别/年龄分布查询
`idx_persona_region`	`(province, district)`	区域筛选
`idx_persona_edu_occ`	`(education_level, occupation)`	学历/职业分析
`idx_persona_family`	`(family_type, marital_status)`	家庭/婚姻分析

全文搜索表 `persona_fts`

技术: 使用 SQLite FTS5 虚拟表，外部内容方式索引
索引列: 10 个韩语描述列（professional_persona、sports_persona、arts_persona、travel_persona、culinary_persona、family_persona、cultural_background、skills_and_expertise、hobbies_and_interests、career_goals_and_ambitions）
分词器: unicode61，带 2/3/4 字符前缀索引
建议: 搜索时使用 등산* 形式的前缀匹配

磁盘占用估计

原始 Parquet 文件：约 1 ~ 2 GB
SQLite 主表 + 索引：约 1.5 ~ 2.5 GB
FTS5（含前缀索引）：额外 1 ~ 3 GB
总计：约 3 ~ 5 GB

工具与使用方式

MCP 服务器

提供 MCP (Model Context Protocol) 服务器，兼容 Claude Desktop、Cursor、Cline 等 MCP 代理工具。暴露的工具包括：

工具	说明
`search_persona(query, fields, filters, limit, full)`	FTS5 全文搜索 + 人口统计筛选组合（BM25 排序）
`get_persona(uuid)`	通过 uuid 查询单个完整人物画像
`sample_persona(filters, n, full)`	条件随机抽样
`aggregate(group_by, filters, limit)`	人口统计 GROUP BY 计数
`stats()`	全数据集统计信息及可用列说明

直接 SQL 查询示例

全文搜索 + 筛选：使用 persona_fts MATCH 结合 sex、age 等条件进行 BM25 排序查询
JSON 数组展开：使用 json_each() 展开 *_list 列
人口分布统计：使用 GROUP BY 进行地区、性别等维度聚合

构建流程

下载数据：从 HuggingFace 下载 9 个 Parquet 文件
创建数据库：新建 persona.db，创建表结构和索引
数据加载：逐个读取 Parquet 文件，规范化后批量插入（每个文件一个事务）
列表列处理：使用 ast.literal_eval 解析后转换为 JSON 字符串
FTS 构建：创建 FTS5 虚拟表并一次性 INSERT ... SELECT 填充
优化：执行 ANALYZE 和 optimize 操作

注意：所有 country 列值均为 대한민국（韩国），为该数据集单一取值。

搜集汇总

数据集介绍

构建方式

在人工智能与社会科学交叉领域，高质量的人物画像数据是构建拟人化语言模型与合成用户模拟器的关键基石。Nemotron-Personas-Korea 数据集源自 NVIDIA 发布的 HuggingFace 仓库，包含了约 100 万行、共计 9 个 parquet 文件的韩国人口统计与人格描述信息。构建过程中，每个样本都从原始 parquet 文件中提取，并通过一套标准化的转换工具集被导入至 SQLite 数据库。该工具集利用 pyarrow 与 huggingface_hub 库进行数据读取与下载，随后对每条记录执行严格的字段归一化处理——例如将 Python 风格的列表字符串转换为 JSON 数组格式——并将结果按照预定义的 STRICT 表结构逐批次写入 persona 主表。为了支持高效的全文检索，系统额外创建了一个基于 FTS5 的外部内容虚拟表 persona_fts，对 10 个长文本叙述字段进行索引，并配置 unicode61 分词器以适配韩语的多字符前缀匹配需求。

特点

该数据集最显著的特征在于其多维度的属性覆盖与精细化的结构设计。每条人物画像不仅包含核心的 1-2 句概要描述，还从职业、体育、艺术、旅行、饮食文化、家庭关系等六个专门领域提供了深入的人格侧写，同时辅以文化背景、技能专长、兴趣爱好以及职业目标等细粒度文本描述。人口统计方面，数据集中涵盖了性别、年龄、婚姻状况、兵役状态、家庭类型、居住形式、教育水平、学士专业、职业、居住地（区县及省/市）等十余项分类变量，所有字段均保持严格非空约束。尤为突出的是，兴趣爱好和技能专长字段同时提供了自然语言叙述与 JSON 关键词列表两种形式，既方便语义理解也便于结构化检索。此外，数据集包含的索引设计（如性别-年龄联合索引、区域索引、学历-职业索引）显著提升了基于人口分组的聚合查询性能，使得研究人员能够快速获取特定人群的分布特征。

使用方法

该数据集的使用方法灵活多样，既支持传统的 SQL 直接查询，也原生集成了现代化 AI 智能体交互协议。对于偏好底层操控的用户，可以通过 SQLite 命令行或编程接口对 persona 主表与 persona_fts 全文搜索表执行任意查询，例如利用 BM25 算法对韩语文本进行相关性排序搜索，或通过 json_each 函数展开 JSON 数组以实现关键词过滤。更为先进的是，该仓库提供了一个基于 MCP（Model Context Protocol）的标准服务器，能够被 Claude Desktop、Cursor、Cline 等支持 MCP 的智能体直接调用。研究人员仅需配置简单的 JSON 注册信息，即可让 AI 助手自主执行 search_persona、sample_persona、aggregate 等内置工具函数，完成从语义检索、分层抽样到人口统计聚合的全流程操作。对于 Python 开发者而言，还可以在代码中直接导入 mcp_server 中的工具模块进行函数级调用，快速集成至自动化分析管线中。无论采用何种路径，用户都可以依据各个字段的语义与统计特性，构建出符合特定研究目标的模拟用户群组或市场调研样本。

背景与挑战

背景概述

Nemotron-Personas-Korea是英伟达（NVIDIA）于2024年发布的一个大规模、高精度的韩国人群合成画像数据集。该数据集由NVIDIA研究团队主导构建，包含约100万条高度结构化的个人画像记录，覆盖了职业、体育、艺术、旅行、烹饪、家庭、文化背景、技能、爱好及人口统计学等十余个维度。其核心研究问题在于为韩国本土的AI应用提供具有代表性、多样性与可控性的合成人口样本，以支撑大语言模型在本地化场景中的对齐、评估与微调。该数据集的出现，显著缓解了因真实韩国人口数据稀缺、隐私保护严格而导致的模型偏见与泛化能力不足问题，已成为韩国本土化AI研究的重要基础设施，在新闻生成、客服模拟、社会调查等任务中展现出广泛影响力。

当前挑战

该数据集对应的领域挑战主要来自两方面。其一，在合成人口画像领域，现有数据集往往缺乏对韩国特定文化、职业、家庭结构与社会关系的细致刻画，存在地域代表性不足与人口多样性缺失的问题，难以支撑大语言模型对韩国用户群体的精准理解与个性化模拟。其二，在构建过程中，团队面临多重技术障碍：需在无真实人口数据授权的情况下，通过合成生成技术确保数百万条画像在人口统计学分布、语言风格与文化背景上的真实性与一致性；同时要处理跨字段的语义协调问题，例如职业、教育、年龄与家庭类型之间的内在逻辑约束，防止生成违背社会常识的画像组合；此外，数据规模的膨胀也对分布式处理与质量控制流程提出了严峻挑战。

常用场景

经典使用场景

在韩国社会文化研究与自然语言处理交叉领域，Nemotron-Personas-Korea数据集提供了一百万个具有高度结构化人口统计学特征的合成韩国人物画像。其最经典的使用场景在于构建区域文化敏感型对话系统与个性化智能体模拟。研究者可利用该数据集内嵌的九大维度人格描述（职业、运动、艺术、旅行、饮食、家庭、文化背景、技能、兴趣），结合FTS5全文检索引擎与人口统计过滤器，精准抽取特定人群样本进行多轮对话生成、角色化文本创作与观点模拟实验。例如，可基于'年龄60岁以上、居住釜山的女性，爱好包括登山与韩国传统音乐'的精细条件检索目标画像，并将其注入大语言模型的系统提示中以模拟真实韩国人口群体的意见分布。

解决学术问题

该数据集系统性解决了韩国语境内细粒度人格建模与人口统计分析中数据稀缺的核心学术困境。传统研究常因真实用户数据的隐私限制与标注成本高昂，难以获得覆盖全年龄段、职业类别与地域分布的标准化人口画像语料。Nemotron-Personas-Korea通过合成数据方法，提供了包含性别、年龄、婚姻、兵役、家庭类型、住房、学历、职业、行政区划等17类结构化人口属性，以及10段长文本人格描述的百万级语料库，填补了韩语社会计算领域大规模、多维度、无缺失值基准数据集的空白。它使得研究者能够以可重复、可审计的方式开展关于韩国人群态度分布、区域文化差异量化分析、以及合成访谈数据效度验证等前沿课题，推动了以人口统计学约束为核心的语言模型评估方法论进步。

衍生相关工作

围绕Nemotron-Personas-Korea数据集，已衍生出若干具有创新性的学术与技术工作。其一，基于该数据集开发了标准化的SQLite转换工具链与FTS5全文索引方案，为大规模合成人格数据的高效管理与查询树立了可复用的工程范式。其二，该数据集催生了面向韩国文化语境的区域化AI智能体评估框架，研究者通过向大语言模型注入不同人格画像并进行一致性检验，系统性地评估模型对韩国社会阶层、地域差异与代际特征的模拟精读。其三，社区工作围绕该数据集构建了Model Context Protocol（MCP）服务器实现，使得Claude Desktop、Cursor等主流AI编码与对话工具能够直接调用数据库内的人格样本，推动了人格数据即服务的实用化进程。这些衍生工作共同构建了一个从数据合成、高效存储到AI原生交互的完整生态系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集