five

Nemotron-Personas-Japan

收藏
魔搭社区2025-12-04 更新2025-10-04 收录
下载链接:
https://modelscope.cn/datasets/nv-community/Nemotron-Personas-Japan
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Personas-Japan ========================================================================= <center> <img src="images/nemotron_personas_japan_approach.png" alt="Nemotron-Personas-Japan" width="400px"> <p><em>現実世界の分布に基づいたペルソナ生成のための複合AIアプローチ</em></p> </center> # データセット概要 (Dataset Overview) Nemotron-Personas-Japan は、日本における人口の多様性と豊かさを捉えることを目的とし、実世界の人口統計、地理的分布、性格特性の分布に基づいて合成的に生成されたペルソナのオープンソースデータセットです。名前、性別、年齢、背景、婚姻状況、学歴、職業、居住地などの統計に基づいて生成した初のデータセットされた [Nemotron-Personas](https://huggingface.co/datasets/nvidia/Nemotron-Personas) の日本語版です。本バージョンでは、日本語における多様なモデリングユースケースに適した高品質のペルソナを提供します Nemotron-Personas-Japan は、日本のモデル開発者が重要な地域固有の人口統計や文化的背景を取り入れた[ソブリンAI](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/)システムを開発することを支援します。本データセットは、日本の地理的・人口統計的な実分布を反映することで、合成データの多様性を高め、バイアスを軽減し、[model collapse](https://en.wikipedia.org/wiki/Model_collapse)(他モデルの出力を無条件に学習することで生じる劣化)を防ぎます。特に、過去のペルソナデータセットと比較して、年齢(例:高齢者ペルソナ)、地理(例:地方在住ペルソナ)、学歴、職業など、複数の軸で人口統計的分布をより代表するように設計されています。例えば、実際の名前、年齢、職業、文化的・教育的背景を含んだ高品質なマルチターン会話データを生成でき、そのデータにユニークな視点や切り口をもたらします。 本データセットは、合成データ生成のためのエンタープライズ向け複合AIシステム [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html) を用いて作成されました。独自の確率的グラフィカルモデル(PGM)、Apache-2.0 ライセンスの GPT-OSS-120B モデル、さらに Data Designer に組み込まれた拡張可能なバリデータや評価器群を活用しています。拡張版の Nemotron-Personas-Japan は、まもなく NeMo Data Designer 上で直接利用可能になります。 本データセットは商用利用可能です。 Nemotron-Personas-Japan is an open-source (CC BY 4.0) dataset of synthetically-generated personas grounded in real-world demographic, geographic, and personality trait distributions in Japan to capture the diversity and richness of the population. It is a variant of [Nemotron-Personas](https://huggingface.co/datasets/nvidia/Nemotron-Personas), which is the first dataset of its kind aligned with statistics for names, sex, age, background, marital status, education, occupation and location, among other attributes. This version of the dataset provides high-quality personas for a variety of modeling use-cases in Japanese. Nemotron-Personas-Japan supports Japanese model builders in developing [Sovereign AI](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) systems that incorporate important region-specific demographics and cultural context. The dataset improves diversity of synthetically-generated data, mitigates biases, and prevents [model collapse](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (degradation caused by uncurated training on another model's outputs) by reflecting Japan's real geographic and demographic distributions. In particular, the dataset is designed to be more representative of underlying demographic distributions along multiple axes, including age (e.g. older personas), geography (e.g., rural personas), education, occupation, etc., as compared to past persona datasets. As an example, one can produce high-quality multi-turn chat conversation data with real names, ages, occupation, cultural and education backgrounds, all of which bring unique perspectives and angles to that data. Produced using [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), an enterprise-grade compound AI system for synthetic data generation, the dataset leverages a proprietary Probabilistic Graphical Model (PGM) along with an Apache-2.0-licensed GPT-OSS-120B model and an ever-expanding set of validators and evaluators built into Data Designer. An extended version of Nemotron-Personas-Japan is available for use in NeMo Data Designer itself. This dataset is ready for commercial use. ## データセットに含まれないもの (What is NOT in the dataset) ペルソナに重点を置いているため、本データセットには NeMo Data Designer で利用可能な他のフィールド(氏名や合成住所など)は含まれていません。また、企業向けクライアントに関連性の高いペルソナ(例:金融、医療)も除外されています。エンタープライズユースケースをご検討の場合は、ぜひ[こちら](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/)までご連絡ください。 本データは実世界の分布を反映しているものの、完全に人工的に生成されたものです。氏名やペルソナ記述が実在の人物(生存・故人を問わず)に類似している場合でも、それは偶然の一致にすぎず、いかなる関連性も意図されておらず保証されるものではありません。 Given the emphasis on personas, the dataset excludes other fields available in NeMo Data Designer, e.g., first/last names and synthetic addresses. Also excluded are personas generally of relevance to enterprise clients (e.g., finance, healthcare). Please [reach out](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/) to explore enterprise use-cases. All data, while mirroring real-world distributions, is completely artificially generated. Any similarity in names or persona descriptions to actual persons, living or dead, is purely coincidental. # データセット作者 (Data Developer) NVIDIA Corporation # リリース日 (Release Date): 09/23/2025 # ライセンス (License/Terms of Use) このデータセットはCreative Commons Attribution 4.0 International License ([CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/legalcode))に基づいて提供されています。 This dataset is licensed under the Creative Commons Attribution 4.0 International License ([CC BY 4.0](https://creativecommons.org/licenses/by/4.0/legalcode)). # ユースケース (Use Case) Sovereign AIの開発、LLMのトレーニング、あるいは合成データの多様性向上、データ/モデルのバイアス軽減、model collapseの防止を目指す開発者 Developers working on Sovereign AI, training LLMs and/or looking to improve diversity of synthetically generated data, mitigate data/model biases, and prevent model collapse. # データバージョン (Data Version) 1.0 (09/23/2025) # 想定される利用方法 (Intended Use) Nemotron-Personas-Japan データセット は、オープンモデルを継続的に改善し、最先端技術をさらに前進させるためにコミュニティで活用されることを目的としています。データはあらゆるモデルの学習に自由に利用することができます。私たちはオープンソースコミュニティからのフィードバックを歓迎するとともに、開発者、研究者、データ愛好者の皆様に本データセットを探求し、その上に新たな成果を築いていただくことを期待しています。 Nemotron-Personas-Japan データセットは、日本の国勢調査における自己申告の人口統計データ分布に基づいて構築されています。そのため、本データセットの主な目的は、既存のペルソナ・データセットを用いた合成データ生成において不足しているデータや潜在的なバイアスを補正し、ソブリンAIの開発を支援することにあります。日本の人口構成に忠実で多様性を高めたデータを提供しているものの、利用可能なデータの制約やモデルの合理的な複雑性により、限界が存在します。これにより、いくつかの独立性の仮定を設ける必要があります。例えば、職業は居住地(都道府県)および性別が与えられた場合、学歴とは独立していると仮定しています。同様に、日本の国勢調査からは、生物学的性別とは独立したジェンダーに関する包括的な統計は得られません。今後の課題として、データの忠実性をさらに高める取り組みに委ねています。 The Nemotron-Personas dataset is intended to be used by the community to continue to improve open models and push the state of the art. The data may be freely used to train any model. We welcome feedback from the open-source community and invite developers, researchers, and data enthusiasts to explore the dataset and build upon it. The Nemotron-Personas-Japan dataset is grounded in distributions of self-reported demographic data in the Japanese census. As such, its primary goal is to support Sovereign AI development by combating missing data and/or potential biases present in model training data today, especially when it comes to existing persona datasets used in synthetic data generation. Despite the improved data diversity and fidelity to Japan's population, we are still limited by data availability and reasonable model complexity. This results in some necessary independence assumptions; for instance, that occupations are independent of education given location (prefecture) and sex. Similarly, comprehensive statistics on gender, independent of sex, are not available from the Japan Census. We leave further efforts to improve fidelity to future work. Note that the dataset is focused on adults only. # データセット詳細 (Dataset Details) 本データセットには以下が含まれています。 * 日本語で記録された 100万件のレコード(1レコードあたり6つのペルソナ → 合計600万ペルソナ) * 22フィールド:6つのペルソナフィールドと、公式の人口統計・労働統計に基づく16のコンテキストフィールド * 約14億トークン数(うちペルソナ関連トークン約8.5億) * 人口統計・地理・性格特性などの軸にまたがる包括的なデータ * 約95万件のユニークな名前 * 日本の労働人口を反映する1,500以上の職業カテゴリ * プロフェッショナル、スポーツ、芸術、旅行、料理など多様なペルソナタイプ * 文化的背景、スキルと専門性、目標と志向、趣味や関心といった自然言語のペルソナ属性 Nemotron-Personas-Japan は、日本の公式人口統計および労働統計に整合させつつ、AI トレーニングにおいて重要な領域へ拡張することを目的に設計されました。具体的には次のような点を反映しています: * 教育:国の統計では学位レベルが大きく分類されていますが、モデルが異なる教育経路を反映できるよう、より細分化を導入しました。 * 職業:自営業や専門職種などの追加カテゴリを取り入れ、学習に用いる職業スペクトラムを拡大しました。 * ライフステージ:統計上はあまり表に出ない学生、退職者、失業状態といったシナリオをモデリングし、より現実的なペルソナを表現できるようにしました。 * 文化的特性:日本の社会的・文化的特徴を組み込み、AI システムが地域固有の規範をより正確に反映できるようにしました。 * デジタルデバイド:年齢層ごとのデジタルリテラシーの差を考慮し、日本における実際のテクノロジー利用状況を反映しました。 これらの拡張は公共データという強固な基盤の上に構築されており、統計的に裏付けられ、文化的に代表性を持ちつつ、合成的でプライバシー保護され、かつオープンであるペルソナを創出することを可能にしています。 The dataset contains: * 1M records in Japanese with 6 personas/record → 6M personas total * 22 fields: 6 persona fields, and 16 contextual fields grounded in official demographic and labor statistics * ~1.4B tokens total, including ~850M persona tokens * Comprehensive coverage across demographic, geographic, and personality trait axes * ~950k unique names * 1500+ occupation categories reflecting Japan's workforce * A variety of persona types: professional, sports, arts, travel, culinary * Natural language persona attributes: cultural background, skills & expertise, goals & ambitions, hobbies & interests. Nemotron-Personas-Japan was designed to align with Japan's official demographic and labor statistics, while extending them into areas important for AI training. In practice, this meant: * Education: Where degree levels are grouped in national statistics, we introduced finer distinctions so models can reflect different educational pathways. * Occupations: We incorporated additional categories (such as business owners and specialized trades) to broaden the occupational spectrum used in training. * Life Stages: We included student, retirement, and unemployment status information which are important for realistic personas. * Cultural Traits: To ensure authenticity, we included Japanese social and cultural characteristics that help AI systems better reflect local norms. * Digital Divide: We accounted for different levels of digital literacy across age groups to reflect real-world technology usage patterns in Japan. These extensions build on a strong foundation of public data, helping create personas that are both statistically grounded and culturally representative, while remaining synthetic, privacy-preserving, and open. ## シードデータ (Seed Data) 日本の人口における社会人口学的および地理的な多様性と複雑性を捉えるために、Nemotron-Personas-Japan は以下の情報を利用しました: * 総務省統計局が公開している国[勢調査](https://www.stat.go.jp/data/jinsui/2024np/index.html) * [名字由来net](http://Myoji-Yurai.net) が提供した日本人の名字・名前データ In order to capture the socio-demographic and geographic diversity and complexity of Japan's population, Nemotron-Personas-Japan leveraged * [population census data](https://www.stat.go.jp/data/jinsui/2024np/index.html) published by the Statistics Bureau of Japan (e-Stat) * name data provided by [Myoji-Yurai.net](http://Myoji-Yurai.net) (名字由来net) to reflect realistic first and last name distributions in Japan. ## スキーマ (Schema) 本データセットには合計22のフィールドが含まれています。内訳は、ペルソナ関連フィールドが6つ、文脈関連フィールドが16つです。研究者にとって、多くの文脈関連フィールドは特定のペルソナを絞り込む際に有用であり、これは既存のデータセットでは困難とされてきた点です。 <center> <img src="images/nemotron_personas_japan_schema_ja.png" width="700px"> </center> The dataset includes 22 fields: 6 persona fields and 16 contextual fields shown below. Researchers will find many contextual fields useful in zoning in on specific personas, which is challenging to do with existing datasets. <center> <img src="images/nemotron_personas_japan_schema_en.png" width="700px"> </center> ## フィールド数&トークン数 (Field & Token Counts) グローバルIDを除いて14億トークン(うち8.5億はペルソナトークン)、100万件のレコードと22カラムにわたり、。データは日本の47都道府県すべてを網羅しています。 1.4B tokens (850 persona tokens) across 1M records and 22 columns, excluding the globally unique identifier. Note that data covers all 47 prefectures in Japan. <center> <img src="images/nemotron_personas_japan_field_stats.png" width="500px"> </center> # データセット記述と品質評価 (Dataset Description & Quality Assessment) 以下、データセットの多様性とパターンの品質を確認するため、さまざまな観点からの分析を示しています。 The analysis below provides a breakdown across various axes of the dataset to emphasize the built-in diversity and pattern complexity of data. 氏名 (Names) 本データセットはペルソナに焦点を当てているため、氏名は専用のフィールドとしては提供されていません。しかし、ペルソナ合成には、[名字由来net](https://myoji-yurai.net/) によって提供された 20,000 件のユニークな名前と 97,000 件のユニークな姓が組み込まれています。 Since the focus of this dataset is on personas, names aren't provided as dedicated fields. However, infused into persona generation are 20,000 unique first names, 97,000 unique last names provided by [Myoji-Yurai.net](http://Myoji-Yurai.net). ## 年齢分布 (Age Distribution) 日本のペルソナにおける年齢分布は、国全体の実際の人口構造を反映しており、中高年層が大きな割合を占め、若年層に向かって徐々に減少していくという特徴があります。この分布では若者が少なく、第一次および第二次ベビーブーム世代に大きな膨らみがあります。さらに、日本の女性は世界的に見ても非常に長寿であり、高齢者に占める女性の割合は高くなっています。 なお、このデータセットには 18 歳未満の未成年は含まれていません。 The age distribution of our Japanese personas mirrors the country's real demographic structure, characterized by a large proportion of people in the middle to older age groups and a gradual decline toward the younger cohorts. The distribution shows fewer young people and a significant expansion in the generations born during the baby boom and the second baby boom. Furthermore, Japanese women are exceptionally long-lived by global standards, and the proportion of women among the elderly is high. Note that minors under 18 are excluded from this dataset. <center> <img src="images/nemotron_personas_japan_age_group_distribution.png" width="600px"> </center> ## 年齢層別の婚姻状況 (Marital Status by Age Group) 以下のヒートマップは、各年齢層における人々の割合を示しており、(1) 未婚、(2) 既婚、(3) 離婚、(4) 死別 の4つに分類しています。日本においては、人生の過程に沿って婚姻状況がどのように変化していくかが表れており、30代半ばまでは「未婚」が優勢ですが、その後「既婚」が徐々に増加し、「離婚」はほぼ横ばい、「死別」は高齢期に入って顕著になります。これらの要素はいずれも、日本のライフスタイルやペルソナを理解するうえで重要な示唆を与えます。 The heatmap below displays the fraction of people for each age cohort who are (1) never married, (2) currently married, (3) divorced, or (4) widowed. It highlights how marital status shifts over the life course in Japan, with “never married” dominating until mid 30s, when “married” start climbing gradually, “divorced” being flat, and “widowed” being much more pronounced in later life stages. All of these considerations are of relevance to informing life experiences and personas in Japan. <center> <img src="images/nemotron_personas_japan_marital_status_distribution.png" width="600px"> </center> ## 年齢層別の学歴水準 (Education Level by Age Group) 以下のヒートマップは、年齢層ごとの学歴達成のパターンを示しています。たとえば、学士号、修士号、博士号を取得している人の割合は、若い世代と高齢世代とで異なっており、教育機会へのアクセスや社会規範の歴史的な変化を反映しています。 The heatmap below captures patterns of educational attainment across age cohorts. For example, the proportion of people holding bachelor's, master's, or doctoral degrees differs between younger age groups and older age groups, reflecting historical shifts in access and in social norms. <center> <img src="images/nemotron_personas_japan_education_distribution.png" width="600px"> </center> ## 学歴の地理的特徴 (Geographic Intricacies of Education Attainment) このデータセットの一部は、地理的要因が教育水準に影響を与え、ひいてはペルソナの記述にも反映されることを示しています。コロプレスマップは、各都道府県ごとに25歳以上の住民のうち学士号以上を取得している人の割合を示しています。私たちの検証では、いかなるLLMもこの精度のデータを生成することはできませんでした。 This slice of our dataset demonstrates how geography informs education and therefore persona descriptions. The choropleth map shows, for each prefecture, the share of residents ages 25 and older who hold at least a bachelor's degree. No LLM in our testing was able to generate data of this fidelity. <center> <img src="images/nemotron_personas_japan_education_map.png" width="700px"> </center> ## 職業カテゴリ (Occupational Categories) 以下のツリーマップは、ペルソナの職業に関して本データセットが持つ豊かさを示しています。本データセットには、1,500を超える職業カテゴリが含まれており、さらに人口統計や地理的分布に基づいて補足されています。この図は、基本的な職業カテゴリのみを示しています。 The treemap below reflects the richness of our dataset with respect to professional occupations of personas. Represented in our dataset are over 1,500 occupation categories that are further informed by demographic and geographic distributions. This figure only shows basic occupation categories. <center> <img src="images/nemotron_personas_japan_occupation_tree_map.png" width="600px"> </center> ## ペルソナの多様性 (Persona diversity) 上記の属性(およびその他多数の属性)は、最終的に生成される合成ペルソナの多様性に影響を与えます。例として、以下の分析では職業ペルソナの記述における多数のクラスターを示しています。これらのクラスターは、埋め込み表現をクラスタリングし、次元削減によって2次元に投影することで識別されています。 The attributes above (and many more) ultimately affect the diversity of the synthetic personas being generated. As an example, the analysis below highlights a multitude of clusters within professional persona descriptions. These clusters are identified by clustering embeddings and reducing dimensionality to 2D. <center> <img src="images/nemotron_personas_japan_professional_personas_clustering.png" width="600px"> </center> # 使い方 (How to use it) 以下のコードを実行することで、このデータセットを読み込むことができます。 You can load the dataset with the following lines of code. ```python from datasets import load_dataset nemotron_personas = load_dataset("nvidia/Nemotron-Personas-Japan", "train") ``` # データセット特性 (Dataset Characterization) ## データ収集方法 (Data Collection Method) * ハイブリッド: 人手・合成・自動 (Hybrid: Human, Synthetic, Automated) ## ラベル方法 (Labeling Method) * 該当なし (Not Applicable) ## データセットフォーマット (Dataset Format) * テキスト (Text) ## データ規模 (Dataset Quantification) * レコード数: 100万 (600万ペルソナ) (Record counts: 1M records (6M personas)) * ストレージサイズ (Total data storage): 1.73 GB # 倫理的考慮事項 (Ethical Considerations): NVIDIA は、[信頼できる AI](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) は共有すべき責任であると考えており、幅広い AI アプリケーションの開発を可能にするための方針や実践を確立しています。本モデルをダウンロードまたは利用する際は、利用規約に従うとともに、開発者は自社のモデルチームと協力し、本モデルが対象となる業界やユースケースの要件を満たし、想定外の不正使用に対応できるようにしてください。 セキュリティ上の脆弱性や NVIDIA AI に関する懸念事項は、[こちら](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)にご報告ください。 NVIDIA believes [Trustworthy AI](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications. When downloaded or used in accordance with our terms of service, developers should work with their internal teams to ensure this dataset meets requirements for the relevant industry and use case and addresses unforeseen product misuse. Please report security vulnerabilities or NVIDIA AI concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). # 引用 (Citation) 本データを利用する際には以下を引用してください。 If you find the data useful, please cite: ``` @software{nvidia/Nemotron-Personas-Japan, author = {Fujita, Atsunori and Gong, Vincent and Ogushi, Masaya and Yamamoto, Kotaro and Suhara, Yoshi and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-Japan}: Synthetic Personas Aligned to Real-World Distributions}, month = {September}, year = {2025}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan} } ```

# Nemotron-Personas-Japan ========================================================================= <center> <img src="images/nemotron_personas_japan_approach.png" alt="Nemotron-Personas-Japan" width="400px"> <p><em>基于真实世界分布的人格画像生成复合AI方案</em></p> </center> ## 数据集概览 Nemotron-Personas-Japan 旨在捕捉日本人口的多样性与丰富性,是一套基于真实世界人口统计、地理分布、性格特征分布合成生成的人格画像开源数据集。它是首个依托姓名、性别、年龄、背景、婚姻状况、学历、职业、居住地等统计信息构建的[Nemotron-Personas](https://huggingface.co/datasets/nvidia/Nemotron-Personas)日语版本。本版本可为日语领域的多样化建模用例提供高质量人格画像。 Nemotron-Personas-Japan 可助力日本模型开发者开发融入重要地域特定人口统计与文化背景的[主权AI(Sovereign AI)](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/)系统。本数据集通过还原日本真实的地理与人口统计分布,提升合成数据的多样性、缓解偏差,并防止[模型坍塌(model collapse)](https://en.wikipedia.org/wiki/Model_collapse)(即无差别学习其他模型输出所导致的性能退化)。与过往人格画像数据集相比,本数据集在年龄(如老年人格画像)、地理(如乡村居住人格画像)、学历、职业等多个维度均更贴合真实人口统计分布。例如,可生成包含真实姓名、年龄、职业、文化与教育背景的高质量多轮对话数据,为数据赋予独特视角与切入点。 本数据集依托用于合成数据生成的企业级复合AI系统[NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html)构建,利用专有概率图模型(PGM)、Apache-2.0许可的GPT-OSS-120B模型,以及Data Designer内置的可扩展验证器与评估器套件。扩展版Nemotron-Personas-Japan即将可直接在NeMo Data Designer上使用。 本数据集支持商用。 ## 数据集未包含内容 由于本数据集聚焦人格画像,因此未包含NeMo Data Designer中可用的其他字段(如姓名、合成地址等)。同时排除了与企业客户高度相关的人格画像(如金融、医疗领域相关)。若您希望探索企业级用例,请通过[此链接](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/)联系我们。 本数据虽反映真实世界分布,但完全为人工合成。若姓名或人格画像描述与实际人物(无论在世或已故)存在相似性,纯属巧合,无意且不保证存在任何关联。 ## 数据集开发者 NVIDIA Corporation(英伟达公司) ## 发布日期 2025年9月23日 ## 许可协议 本数据集基于知识共享署名4.0国际许可协议([CC BY 4.0](https://creativecommons.org/licenses/by/4.0/legalcode))提供。 ## 适用场景 面向开发主权AI、训练大语言模型(LLM),或希望提升合成数据多样性、缓解数据/模型偏差、防止模型坍塌的开发者。 ## 数据版本 1.0(2025年9月23日) ## 预期用途 Nemotron-Personas-Japan 数据集旨在供社区用于持续改进开源模型,推动前沿技术发展。数据可自由用于任何模型的训练。我们欢迎开源社区的反馈,并邀请开发者、研究者与数据爱好者探索本数据集并在此基础上开展创新工作。 Nemotron-Personas-Japan 数据集基于日本人口普查中自我申报的人口统计数据分布构建。因此,其核心目标是弥补现有合成数据生成所用人格画像数据集在训练数据中存在的缺失数据与潜在偏差,助力主权AI开发。尽管本数据集提升了数据多样性并贴合日本人口结构,但仍受限于数据可得性与模型合理复杂度,因此需要做出若干必要的独立性假设。例如,假设在给定居住地(都道府县)与性别的前提下,职业与学历相互独立。类似地,日本人口普查未提供与生物学性别独立的性别全面统计数据。我们将后续工作留待进一步提升数据保真度。 请注意,本数据集仅包含成年人。 ## 数据集详情 本数据集包含以下内容: * 日语记录100万条,每条记录包含6个人格画像,总计600万个人格画像 * 22个字段:6个人格画像字段,以及16个基于官方人口统计与劳动统计的上下文字段 * 总Token数约14亿(其中人格画像相关Token约8.5亿) * 覆盖人口统计、地理、性格特征等多个维度的全面数据 * 约95万个独特姓名 * 1500余个反映日本劳动力市场的职业类别 * 多样化的人格画像类型:职场人士、体育、艺术、旅行、烹饪等 * 自然语言人格画像属性:文化背景、技能与专长、目标与志向、兴趣爱好等。 Nemotron-Personas-Japan 旨在贴合日本官方人口统计与劳动统计数据,并拓展至AI训练中的关键领域。具体体现在以下方面: * 教育:国家统计中对学位等级的分类较为宽泛,我们引入了更细致的区分,使模型能够反映不同的教育路径。 * 职业:我们新增了个体经营、专业工种等类别,拓展了训练所用的职业光谱。 * 人生阶段:我们纳入了学生、退休、失业等状态信息,以实现更真实的人格画像表达。 * 文化特征:为确保真实性,我们纳入了日本社会与文化特征,帮助AI系统更准确地反映本地规范。 * 数字鸿沟:我们考虑了不同年龄层的数字素养差异,以反映日本真实的技术使用模式。 这些拓展基于公共数据的坚实基础,助力生成兼具统计可靠性与文化代表性的合成、隐私保护且开源的人格画像。 ### 种子数据 为捕捉日本人口的社会人口学与地理多样性及复杂性,Nemotron-Personas-Japan 利用了以下数据源: * 日本总务省统计局发布的[人口普查数据](https://www.stat.go.jp/data/jinsui/2024np/index.html) * [名字由来net(Myoji-Yurai.net)](http://Myoji-Yurai.net)提供的日本人姓名数据,以反映日本真实的姓名分布。 ### 数据模式 本数据集共包含22个字段:6个人格画像字段与16个上下文字段。对于研究者而言,众多上下文字段可用于精准筛选特定人格画像,这是现有数据集难以实现的。 <center> <img src="images/nemotron_personas_japan_schema_ja.png" width="700px"> </center> The dataset includes 22 fields: 6 persona fields, and 16 contextual fields shown below. Researchers will find many contextual fields useful in zoning in on specific personas, which is challenging to do with existing datasets. <center> <img src="images/nemotron_personas_japan_schema_en.png" width="700px"> </center> ### 字段与Token统计 本数据集包含100万条记录、22个字段(不含全局唯一标识符),总Token数约14亿(其中人格画像相关Token约8.5亿)。数据覆盖日本全部47个都道府县。 <center> <img src="images/nemotron_personas_japan_field_stats.png" width="500px"> </center> ## 数据集描述与质量评估 以下分析从多个维度拆解本数据集,以凸显其内置的多样性与数据模式的复杂性。 ### 姓名 由于本数据集聚焦人格画像,因此未将姓名作为单独字段提供。但在人格画像生成过程中,我们融入了由[名字由来net(Myoji-Yurai.net)](http://Myoji-Yurai.net)提供的2万个独特名字与9.7万个独特姓氏。 ### 年龄分布 本数据集的日本人格画像年龄分布贴合日本真实人口结构,呈现中年与老年群体占比高、年轻群体占比逐步递减的特征。该分布中年轻群体占比较少,第一次与第二次婴儿潮世代占比显著。此外,日本女性的预期寿命在全球处于领先水平,老年群体中女性占比偏高。 请注意,本数据集未包含18岁以下的未成年人。 <center> <img src="images/nemotron_personas_japan_age_group_distribution.png" width="600px"> </center> ### 分年龄层婚姻状况 以下热图展示了各年龄层人群的婚姻状况占比,分为(1)未婚、(2)已婚、(3)离婚、(4)丧偶四类。该图体现了日本婚姻状况随人生历程的变化:35岁前以未婚为主,此后已婚占比逐步上升,离婚占比基本平稳,丧偶占比在老年阶段显著提升。上述要素均为理解日本生活方式与人格画像提供了重要参考。 <center> <img src="images/nemotron_personas_japan_marital_status_distribution.png" width="600px"> </center> ### 分年龄层学历水平 以下热图展示了各年龄层的学历达成模式。例如,持有学士、硕士、博士学位的人群占比在年轻世代与老年世代间存在差异,反映了教育机会获取与社会规范的历史变迁。 <center> <img src="images/nemotron_personas_japan_education_distribution.png" width="600px"> </center> ### 学历的地理特征 本数据集的该部分展示了地理因素如何影响教育水平,进而反映在人格画像描述中。该分区地图展示了日本各都道府县25岁及以上居民中持有学士学位及以上学历的占比。我们的测试显示,现有大语言模型均无法生成如此高保真度的数据。 <center> <img src="images/nemotron_personas_japan_education_map.png" width="700px"> </center> ### 职业类别 以下树形图展示了本数据集在人格画像职业维度上的丰富性。本数据集包含1500余个职业类别,并基于人口统计与地理分布进行补充。本图仅展示了基础职业类别。 <center> <img src="images/nemotron_personas_japan_occupation_tree_map.png" width="600px"> </center> ### 人格画像多样性 上述属性(以及其他众多属性)最终会影响合成人格画像的多样性。例如,以下分析展示了职业人格画像描述中的大量聚类,这些聚类通过对嵌入表示进行聚类并将维度降至二维后识别得到。 <center> <img src="images/nemotron_personas_japan_professional_personas_clustering.png" width="600px"> </center> ## 使用方法 可通过以下代码加载本数据集: python from datasets import load_dataset nemotron_personas = load_dataset("nvidia/Nemotron-Personas-Japan", "train") ## 数据集特性 ### 数据收集方式:混合方式:人工、合成、自动化 ### 标注方式:无适用项 ### 数据集格式:文本 ### 数据规模: * 记录数:100万条(600万个人格画像) * 总存储大小:1.73 GB ## 伦理考量 英伟达(NVIDIA)认为[可信AI(Trustworthy AI)](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/)是一项共同责任,我们已建立相关政策与实践,以支持各类AI应用的开发。在按照我们的服务条款下载或使用本数据集时,开发者应与内部团队协作,确保本数据集符合相关行业与用例的要求,并能够应对未预见的产品滥用问题。 请通过[此链接](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)报告安全漏洞或英伟达AI相关问题。 ## 引用 若您发现本数据有用,请引用以下内容: @software{nvidia/Nemotron-Personas-Japan, author = {Fujita, Atsunori and Gong, Vincent and Ogushi, Masaya and Yamamoto, Kotaro and Suhara, Yoshi and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-Japan}: Synthetic Personas Aligned to Real-World Distributions}, month = {September}, year = {2025}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan} }
提供机构:
maas
创建时间:
2025-09-25
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Nemotron-Personas-Japan是一个基于日本真实人口统计和地理分布合成的开源人物角色数据集,旨在提升数据多样性并减少偏见。它包含100万条记录(总计600万个人物角色)、22个字段和约14亿个令牌,覆盖日本所有47个都道府县,适用于Sovereign AI开发和LLM训练等场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作