Catsandmeowreuploads/Nemotron-Personas-France-reupload

Name: Catsandmeowreuploads/Nemotron-Personas-France-reupload
Creator: Catsandmeowreuploads
Published: 2026-03-26 02:29:31
License: 暂无描述

Hugging Face2026-03-26 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/Catsandmeowreuploads/Nemotron-Personas-France-reupload

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - text-generation language: - fr tags: - synthetic - personas - NVIDIA - French - datadesigner size_categories: - 1M<n<10M dataset_info: features: - name: uuid dtype: string - name: professional_persona dtype: string - name: sports_persona dtype: string - name: arts_persona dtype: string - name: travel_persona dtype: string - name: culinary_persona dtype: string - name: persona dtype: string - name: cultural_background dtype: string - name: skills_and_expertise dtype: string - name: skills_and_expertise_list dtype: string - name: hobbies_and_interests dtype: string - name: hobbies_and_interests_list dtype: string - name: career_goals_and_ambitions dtype: string - name: sex dtype: string - name: age dtype: int64 - name: marital_status dtype: string - name: household_type dtype: string - name: education_level dtype: string - name: occupation dtype: string - name: commune dtype: string - name: departement dtype: string - name: country dtype: string splits: - name: train num_bytes: 5785543495 num_examples: 1000000 download_size: 2906585620 dataset_size: 5785543495 configs: - config_name: default data_files: - split: train path: data/train-* --- # Notice This is a reupload of nemotron personas france, incase it ever gets deleted. If you request this dataset must be deleted, please say so in the community tab. # Notice (français) Ceci est un miroir de sauvegarde de Nemotron-Personas-France, au cas où l'original serait supprimé. Si vous êtes l'auteur et souhaitez demander la suppression de ce jeu de données, merci de laisser un message dans l'onglet Community. Nemotron-Personas-France ========================================================================= <center> <img src="images/nemotron_personas_france_approach.png" alt="Nemotron-Personas-France" width="400px"> Une approche d'IA composée pour des personas ancrés dans des distributions réelles A compound AI approach to personas grounded in real-world distributions </center> # Vue d'ensemble du jeu de données (Dataset Overview) Nemotron-Personas-France est un jeu de données en libre accès (CC BY 4.0) composé de personas générés de manière synthétique. Ce jeu de données s'appuie sur les distributions démographiques, géographiques et de traits de personnalité réels de la France afin de refléter la diversité et la richesse de la population française. Il s'agit d'une variante de [Nemotron-Personas-USA](https://huggingface.co/datasets/nvidia/Nemotron-Personas-USA), et du premier jeu de données français de ce type, aligné sur des statistiques de noms, sexe, âge, situation matrimoniale et profession, entre autres attributs. Cette version du jeu de données a été développée en collaboration avec [Pleias](https://pleias.fr/), une startup française spécialisée dans les données synthétiques, les modèles de raisonnement spécialisés et les solutions d'IA pour les secteurs fortement réglementés. Le jeu de données fournit des personas de haute qualité pour une variété de cas d'usage en modélisation, en français. Nemotron-Personas-France accompagne les développeurs de modèles français dans la création de systèmes d'[IA Souveraine](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) intégrant des données démographiques et un contexte culturel propres à la région. Le jeu de données améliore la diversité des données générées synthétiquement, atténue les biais et prévient l'[effondrement de modèle](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (dégradation causée par l'entraînement sur les sorties non filtrées d'un autre modèle) en reflétant les distributions géographiques et démographiques réelles de la France. En particulier, le jeu de données est conçu pour être plus représentatif des distributions démographiques sous-jacentes sur plusieurs axes — notamment l'âge (par tranche d'âge), la géographie (différents départements et communes), l'éducation et la profession — par rapport aux autres jeux de données de personas. Par exemple, il est possible de produire des données conversationnelles multi-tours de haute qualité avec des noms, âges, professions, parcours culturels et niveaux d'éducation réalistes, apportant des perspectives uniques et variées à ces données. Produit à l'aide de [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), un système d'IA composée de niveau entreprise pour la génération de données synthétiques, le jeu de données s'appuie sur un modèle graphique probabiliste (PGM) propriétaire, une version NVFP4 du modèle [NVIDIA Nemotron 3 Super](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4), ainsi qu'un ensemble en constante expansion de validateurs et d'évaluateurs intégrés à Data Designer. Une version étendue de Nemotron-Personas-France est disponible pour utilisation dans NeMo Data Designer. Ce jeu de données est prêt pour un usage commercial. – Nemotron-Personas-France is an open-source (CC BY 4.0) dataset of synthetically-generated personas. This dataset is grounded in real-world demographic, geographic and personality trait distributions in France to capture the diversity and richness of the French population. It is a variant of [Nemotron-Personas-USA](https://huggingface.co/datasets/nvidia/Nemotron-Personas-USA), and the first French dataset of its kind aligned with statistics for names, sex, age, marital status and occupation among other attributes. This version of the dataset was built in collaboration with [Pleias](https://pleias.fr/), a French startup providing synthetic data, specialized reasoning models, and AI solutions for highly-regulated industries. The dataset contains high-quality personas for a variety of modeling use-cases in French. Nemotron-Personas-France supports French model builders in developing [Sovereign AI](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) systems that incorporate important region-specific demographics and cultural context. The dataset improves diversity of synthetically-generated data, mitigates biases, and prevents [model collapse](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (degradation caused by uncurated training on another model's outputs) by reflecting France's real geographic and demographic distributions. In particular, the dataset is designed to be more representative of underlying demographic distributions along multiple axes, including age (e.g. age group), geography (e.g., various départements and communes), education, occupation, as compared to other persona datasets. As an example, one can produce high-quality, multi-turn chat conversation data with real names, ages, occupation, cultural and education backgrounds, all of which bring unique perspectives and angles to that data. Produced using [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), an enterprise-grade compound AI system for synthetic data generation, the dataset leverages a proprietary Probabilistic Graphical Model (PGM) along with an NVFP4 version of [NVIDIA Nemotron 3 Super](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4) model and an ever-expanding set of validators and evaluators built into Data Designer. An extended version of Nemotron-Personas-France is available for use in NeMo Data Designer itself. This dataset is ready for commercial use. ## Ce qui n'est pas inclus dans le jeu de données (What is NOT in the dataset) Étant donné l'accent mis sur les personas, le jeu de données exclut d'autres champs disponibles dans NeMo Data Designer, tels que les prénoms/noms de famille, l'origine culturelle des noms, les traits de personnalité, etc. Sont également exclues les personas généralement pertinentes pour les clients entreprises (par ex. finance, santé). Veuillez [nous contacter](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/) pour explorer les cas d'usage entreprises. Toutes les données, bien que reflétant les distributions du monde réel, sont entièrement générées artificiellement. Toute ressemblance entre les noms ou descriptions de personas et des personnes réelles, vivantes ou décédées, est purement fortuite. – Given the emphasis on personas, the dataset excludes other fields available in NeMo Data Designer, e.g., first/last names, name heritage, personality traits, etc. Also excluded are personas generally of relevance to enterprise clients (e.g., finance, healthcare). Please [reach out](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/) to explore enterprise use-cases. All data, while mirroring real-world distributions, is completely artificially generated. Any similarity in names or persona descriptions to actual persons, living or dead, is purely coincidental. # Développeur des données (Data Developer) [Pleias](https://pleias.fr/) & NVIDIA Corporation # Date de publication (Release Date) Hugging Face 03/15/2026 via https://huggingface.co/datasets/nvidia/Nemotron-Personas-France # Date de création du jeu de données (Dataset Creation Date) 03/15/2026 # Licence et conditions d'utilisation (License/Terms of Use) Ce jeu de données est distribué sous la [licence internationale Creative Commons Attribution 4.0](https://creativecommons.org/licenses/by/4.0/legalcode) (CC BY 4.0). – This dataset is licensed under the [Creative Commons Attribution 4.0 International License](https://creativecommons.org/licenses/by/4.0/legalcode) (CC BY 4.0). # Cas d'utilisation (Use Case) Les développeurs travaillant sur l'IA Souveraine, l'entraînement de LLM et/ou cherchant à améliorer la diversité des données générées synthétiquement, à atténuer les biais de données et de modèles, et à prévenir l'effondrement de modèle. – Developers working on Sovereign AI, training LLMs, and/or looking to improve diversity of synthetically generated data, mitigate data/model biases, and prevent model collapse. # Version des données (Data Version) 1.0 (03/15/2026) # Utilisation prévue (Intended Use) Le jeu de données Nemotron-Personas-France est destiné à être utilisé par la communauté pour continuer à améliorer les modèles ouverts et faire progresser l'état de l'art. Les données peuvent être librement utilisées pour entraîner tout modèle. Nous accueillons les retours de la communauté open source et invitons les développeurs, chercheurs et passionnés de données à explorer le jeu de données et à construire à partir de celui-ci. Le jeu de données Nemotron-Personas-France s'appuie sur les distributions issues du recensement français de 2025. Son objectif principal est de soutenir le développement de l'IA Souveraine en palliant le manque de données et/ou les biais potentiels présents dans les données d'entraînement actuelles, notamment en ce qui concerne les jeux de données de personas existants utilisés pour la génération de données synthétiques. Malgré l'amélioration de la diversité et de la fidélité des données par rapport à la population française, nous restons limités par la disponibilité des données, leur éventuelle obsolescence et la complexité raisonnable du modèle. Le jeu de données se concentre uniquement sur les adultes (18 ans et plus selon le droit français). – The Nemotron-Personas-France dataset is intended to be used by the community to continue to improve open models and push the state of the art. The data may be freely used to train any model. We welcome feedback from the open-source community and invite developers, researchers, and data enthusiasts to explore the dataset and build upon it. The Nemotron-Personas-France dataset is grounded in distributions from the 2025 French census. As such, its primary goal is to support Sovereign AI development by combating missing data and/or potential biases present in model training data today, especially when it comes to existing persona datasets used in synthetic data generation. Despite the improved data diversity and fidelity to France's population, we are still limited by data availability, current staleness of data, and reasonable model complexity. Note that the dataset is focused on adults only (18+ years by French Law). # Détails du jeu de données (Dataset Details) Le jeu de données contient : * 6 millions de personas en français répartis sur 1 million d'enregistrements * 22 champs : 6 champs de persona, 15 champs contextuels ancrés dans les statistiques démographiques et du travail officielles, et un identifiant unique * 1,5 milliard de tokens au total, dont 477 millions de tokens de personas * 100 départements (divisions administratives de la France) * 31 600 communes (standard + arrondissements) * 884 000 noms uniques * Une couverture complète des axes démographiques, géographiques et de traits de personnalité * Une variété de types de personas : professionnelle, sportive, artistique, voyage, et culinaire * Des attributs de personas en langage naturel : parcours culturel, compétences et expertise, objectifs de carrière et ambitions, loisirs et centres d'intérêt – The dataset contains: * 6M personas in French across 1M records * 22 fields: 6 persona fields, 15 contextual fields grounded in official demographic and labor statistics, and one unique identifier * 1.5B tokens total, including 477M persona tokens * 100 départements (administrative divisions of France) * 31.6k communes (standard + arrondissement) * 884k unique names * Comprehensive coverage across demographic, geographic, and personality trait axes * A variety of persona types: professional, sports, arts, travel, and culinary * Natural language persona attributes: cultural background, skills and expertise, goals and ambitions, hobbies and interests. ## Données sources (Seed Data) Afin de capturer la diversité et la complexité sociodémographiques et géographiques de la population française, Nemotron-Personas-France a exploité les ressources suivantes : * [Recensement de la France 2025](https://www.insee.fr/fr/statistiques/5359146) : données de recensement les plus récentes publiées par l'INSEE (« fichier complet »), l'Institut national de la statistique et des études économiques * [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685) : prénoms donnés aux enfants nés en France entre 1900 et 2022 * [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter) : noms de famille donnés aux enfants nés en France entre 1891 et 2000 – In order to capture the socio-demographic and geographic diversity and complexity of France's population, Nemotron-Personas-France leveraged the following resources: * [2025 census of France](https://www.insee.fr/fr/statistiques/5359146): most recent census data published by INSEE ("fichier complet"), the French National Institute of Statistics and Economic Studies * [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685): First names given to children born in France between 1900 and 2022 * [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter): Last names given to children born in France between 1891 and 2000 ## Structure des données (Schema) Le jeu de données comprend 22 champs, dont 6 champs de persona, 15 champs contextuels et un identifiant unique, comme illustré ci-dessous. L'ensemble riche d'attributs contextuels permet aux chercheurs de cibler et de conditionner précisément des personas spécifiques, une capacité difficile à obtenir avec les jeux de données existants. <center> <img src="images/nemotron_personas_france_schema_fr.png" width="700px"> </center> – The dataset includes 22 fields, comprising 6 persona fields, 15 contextual fields, and a unique identifier, as shown below. The rich set of contextual attributes enables researchers to precisely condition and target specific personas, a capability that is difficult to achieve with existing persona datasets. <center> <img src="images/nemotron_personas_france_schema_en.png" width="700px"> </center> ## Nombre de champs et de tokens (Field & Token Counts) 1,5 milliard de tokens (477 millions de tokens de personas) répartis sur 1 million d'enregistrements en français et 21 colonnes, hors identifiant unique global. Le jeu de données couvre l'ensemble des communes et départements de France. – 1.5B tokens (477M persona tokens) across 1M records in French and 21 columns, excluding the globally unique identifier. Note that the data provides comprehensive coverage across all communes and départements of France. <center> <img src="images/nemotron_personas_france_field_stats.png" width="500px"> </center> # Description du jeu de données et évaluation de la qualité (Dataset Description & Quality Assessment) L'analyse ci-dessous fournit une ventilation selon plusieurs axes du jeu de données afin de souligner la diversité intégrée et la complexité des distributions des données. – The analysis below provides a breakdown across various axes of the dataset to emphasize the built-in diversity and pattern complexity of data. ## Noms (Names) Le jeu de données étant centré sur les personas, les noms ne sont pas fournis en tant que champs dédiés. Cependant, la génération des personas intègre 48 517 prénoms uniques et 131 055 noms de famille uniques, issus du [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685) et du [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter). L'un des défis dans la construction de distributions de noms à partir de jeux de données publics orientés vers l'administration et les postes de direction est que la représentation diverge souvent de la démographie à l'échelle de la population. Pour y remédier, les personas d'origine non française ont été modélisés en utilisant les fréquences culturelles du registre SIREN (pour les associations nom/prénom), les données INSEE par année de naissance et les données INED/INSEE sur les taux d'immigration. Des probabilités d'origine culturelle ont été appliquées pour mieux capturer les schémas culturels et générationnels réalistes. – Since the focus of this dataset is on personas, names aren't provided as dedicated fields. However, infused into persona generation are 48,517 unique first names and 131,055 unique last names obtained from [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685) and [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter). One challenge in constructing name distributions from publicly available administrative and leadership-focused datasets is that representation often diverges from population-wide demographics. To address this, non-French-heritage personas were modeled using SIREN business-registry cultural frequencies (for name/surname associations), INSEE data by birth year and INED/INSEE data for immigration rates. We applied cultural heritage probabilities to better capture realistic cultural and generational patterns. ## Distribution par âge (Age Distribution) Les personas sont limités aux adultes (18 et plus), la majorité de la population se concentrant entre 20 et 65 ans, conformément à la granularité des données du recensement. Plusieurs analyses d'inférence ont été réalisées pour compenser les intervalles d'âge larges (typiquement 15-29 ans) issus des données originales du recensement français. La distribution par âge de Nemotron-Personas-France reflète la structure démographique réelle du pays. Après 70 ans, les effectifs diminuent régulièrement, bien que les personnes âgées et très âgées (90+) restent visiblement représentées. Les effectifs masculins et féminins restent comparables durant la vie active, tandis que la représentation féminine devient légèrement plus importante dans les tranches d'âge supérieures, reflétant la plus grande longévité des femmes. – Personas are limited to adults (18+), with the bulk of the population concentrated between 20-65 years, consistent with census reporting granularity. We performed several inference analyses to compensate for the broad age intervals (typically 15-29) from the original French census data. The age distribution of Nemotron-Personas-France mirrors the country's real demographic structure. Note that after age 70, counts decline steadily, though the elderly and very old (90+) remain visibly represented in the data. Male and female counts remain comparable through midlife, while female representation becomes slightly more prominent in older age groups, reflecting higher female longevity. <center> <img src="images/nemotron_personas_france_age_group_distribution.png" width="600px"> </center> ## Situation matrimoniale par tranche d'âge (Marital Status by Age Group) La carte thermique ci-dessous montre les proportions normalisées par âge de la situation matrimoniale en France. Les individus âgés de 18 à 24 ans sont majoritairement célibataires, les taux de mariage augmentant rapidement à partir de la trentaine jusqu'à la soixantaine, où le mariage reste le statut dominant jusqu'à environ 85-89 ans. La proportion de personnes veuves augmente fortement à partir de 75 ans, devenant dominante dans les cohortes les plus âgées. Le divorce reste un statut peu fréquent à tous les âges, avec une représentation modeste à partir de l'âge adulte moyen. – The heatmap below shows age-normalized proportions of marital status in France. Individuals aged 18–24 are predominantly single, with marriage rates increasing rapidly from 30s through the 60s and remaining the dominant status until approximately 85–89. The proportion of widowed individuals rises sharply from 75+, becoming dominant in the oldest cohorts. Divorce remains a low-frequency status across all ages, with modest representation beginning in mid-adulthood. <center> <img src="images/nemotron_personas_france_marital_status_distribution.png" width="600px"> </center> ## Type de ménage par tranche d'âge (Household Type by Age Group) La carte thermique ci-dessous montre les proportions normalisées par âge des types de ménages en France. Comme précédemment, les individus de 18-24 ans sont majoritairement seuls, tandis que les couples avec enfants deviennent le type de ménage le plus courant de la fin de la vingtaine jusqu'à la cinquantaine. À partir d'environ 55 ans, les couples sans enfants gagnent en prévalence, et les ménages composés d'une personne seule redeviennent dominants dans les cohortes les plus âgées. – The heatmap below shows age-normalized proportions of household types in France. As before, individuals aged 18-24 are predominantly single, while couples with children become the most common household type from the late 20s to the 50s. From about age 55 onward, couples without children grow in prevalence, and single-person households again become dominant in the oldest cohorts. <center> <img src="images/nemotron_personas_france_household_type_distribution.png" width="600px"> </center> ## Niveau d'éducation par tranche d'âge (Education Level by Age Group) Nemotron-Personas-France reflète également la composition éducative du pays. La carte thermique ci-dessous montre les proportions normalisées par âge des niveaux d'éducation parmi les tranches d'âge adultes. Les cohortes plus jeunes sont plus susceptibles de détenir des qualifications du secondaire supérieur ou de l'enseignement supérieur, tandis que les cohortes plus âgées sont plus fréquemment sans diplôme ou limitées à un certificat du primaire. Les diplômes avancés restent minoritaires mais se concentrent parmi les adultes en âge de travailler. – Nemotron-Personas-France also mirrors the country's educational composition. The heatmap below shows age-normalized proportions of education levels across adult age groups. Younger cohorts are more likely to hold upper-secondary or tertiary qualifications, while older cohorts are more frequently without a diploma or limited to primary certification. Advanced degrees remain a minority but are concentrated among working-age adults. <center> <img src="images/nemotron_personas_france_education_distribution.png" width="600px"> </center> ## Variations géographiques du niveau d'éducation (Geographic Intricacies of Education Attainment) Cette coupe de notre jeu de données illustre comment la géographie influence l'éducation et, par conséquent, les descriptions de personas. La carte choroplèthe montre la proportion de résidents âgés de 25 ans et plus titulaires d'un diplôme de l'enseignement supérieur par département en France, révélant des variations spatiales marquées autour de Paris et de quelques autres centres urbains par rapport à la moyenne nationale d'environ 22 %. – This slice of our dataset demonstrates how geography informs education and therefore persona descriptions. The choropleth map shows the share of residents aged 25 and over with tertiary degree by département in France, revealing marked spatial variation in higher educational attainment around Paris and a handful of other urban centers relative to the national average of ~22%. <center> <img src="images/nemotron_personas_france_education_map.png" width="700px"> </center> ## Catégories professionnelles (Occupational Categories) Le diagramme en barres ci-dessous montre la distribution des niveaux d'éducation au sein de chaque catégorie professionnelle, soulignant que les diplômes universitaires sont concentrés parmi les cadres et professions intellectuelles supérieures, tandis que les ouvriers sont plus susceptibles de détenir des qualifications professionnelles ou du secondaire inférieur. – The bar chart below shows the distribution of education levels within each occupational category, highlighting that university degrees are concentrated among managers and professionals, while manual workers are more likely to hold vocational or lower-secondary qualifications. <center> <img src="images/nemotron_personas_france_occupation.png" width="600px"> </center> # Comment l'utiliser (How to use it) Vous pouvez charger le jeu de données avec les lignes de code suivantes. – You can load the dataset with the following lines of code. ```python from datasets import load_dataset # Personas français / French personas nemotron_personas = load_dataset("nvidia/Nemotron-Personas-France") ``` # Caractérisation du jeu de données (Dataset Characterization) ## Méthode de collecte des données (Data Collection Method) * Hybride : humaine, synthétique, automatisée (Hybrid: Human, Synthetic, Automated) ## Méthode d'étiquetage (Labeling Method) * Non applicable (Not Applicable) ## Format du jeu de données (Dataset Format) * Chaînes de caractères et nombres entiers. La structure complète des données est fournie dans la section « Structure des données (Schema) » (Strings and integers. The full data schema is provided in the "Structure des données (Schema)" section) ## Quantification du jeu de données (Dataset Quantification) * Nombre d'enregistrements : 1 million d'enregistrements, soit 6 millions de personas (Record counts: 1M records (6M personas)) * Stockage total : 2,9 Go (Total data storage: 2.9 GB) # Considérations éthiques (Ethical Considerations) NVIDIA est convaincu que l'[IA de confiance](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) est une responsabilité partagée et a mis en place des politiques et des pratiques pour permettre le développement d'un large éventail d'applications d'IA. Lors du téléchargement ou de l'utilisation conformément à nos conditions de service, les développeurs doivent travailler avec leurs équipes internes pour s'assurer que ce jeu de données répond aux exigences de l'industrie et du cas d'usage concernés, et prend en compte les utilisations imprévues du produit. Veuillez signaler les vulnérabilités de sécurité ou les préoccupations liées à l'IA NVIDIA [ici](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). – NVIDIA believes [Trustworthy AI](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications. When downloaded or used in accordance with our terms of service, developers should work with their internal teams to ensure this dataset meets requirements for the relevant industry and use case and addresses unforeseen product misuse. Please report security vulnerabilities or NVIDIA AI concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). # Citation Si vous trouvez ces données utiles, veuillez citer : – If you find the data useful, please cite: ``` @software{nvidia/Nemotron-Personas-France, author = {Langlais, Pierre-Carl and Stasenko, Anastasia and Delobelle, Pieter and Detrois, Yannick and Delfino, Benedetta and Prayaga, Shyamala and Thadaka, Kirit and Jennings, Will and Sadeghi, Bardiya and Sharabiani, Ashton and Pawelec, Krzysztof and Praveen, Kiran and Vaidya, Utkarsh and Tramel, Eric and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-France: Synthetic Personas Aligned to Real-World Distributions for France}}, month = {March}, year = {2026}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-France} } ```

license: 知识共享署名4.0国际许可协议（CC BY 4.0） task_categories: - text-generation language: - fr tags: - synthetic - 人设（persona） - NVIDIA - 法语 - Data Designer size_categories: - 1M<n<10M dataset_info: features: - name: 通用唯一识别码（UUID） dtype: string - name: 职业人设 dtype: string - name: 体育人设 dtype: string - name: 艺术人设 dtype: string - name: 旅行人设 dtype: string - name: 烹饪人设 dtype: string - name: 人设（persona） dtype: string - name: 文化背景 dtype: string - name: 技能与专长 dtype: string - name: 技能与专长列表 dtype: string - name: 爱好与兴趣 dtype: string - name: 爱好与兴趣列表 dtype: string - name: 职业目标与抱负 dtype: string - name: 性别 dtype: string - name: 年龄 dtype: int64 - name: 婚姻状况 dtype: string - name: 家庭类型 dtype: string - name: 教育水平 dtype: string - name: 职业 dtype: string - name: 市镇 dtype: string - name: 省（法国行政分区） dtype: string - name: 国家 dtype: string splits: - name: 训练集 num_bytes: 5785543495 num_examples: 1000000 download_size: 2906585620 dataset_size: 5785543495 configs: - config_name: 默认配置 data_files: - split: 训练集 path: data/train-* --- # 注意事项本数据集为nemotron personas france的重新上传版本，以防原数据集被删除。若您要求删除本数据集，请在社区板块留言告知。 # 注意事项（法语版翻译）本文件为Nemotron-Personas-France的备份镜像，以防原数据集被删除。若您为原作者并希望申请删除本数据集，请在社区板块留言。 # Nemotron-Personas-France ========================================================================= <center> <img src="images/nemotron_personas_france_approach.png" alt="Nemotron-Personas-France" width="400px"> 基于真实世界分布的合成人设复合AI方案 A compound AI approach to personas grounded in real-world distributions </center> # 数据集概览 Nemotron-Personas-France是采用知识共享署名4.0国际许可协议（CC BY 4.0）的开源合成人设数据集。该数据集基于法国真实的人口统计、地理与人格特质分布构建，旨在还原法国人口的多样性与丰富性。本数据集是[Nemotron-Personas-USA](https://huggingface.co/datasets/nvidia/Nemotron-Personas-USA)的衍生版本，也是首个此类法语语种数据集，其属性对齐了姓名、性别、年龄、婚姻状况与职业等统计数据。本数据集由法国初创公司[Pleias](https://pleias.fr/)合作开发，该公司专注于合成数据、专用推理模型以及面向强监管行业的AI解决方案。本数据集提供高质量的法语人设，可用于各类建模场景。 Nemotron-Personas-France可助力法国模型开发者构建融合区域专属人口统计与文化背景的[主权人工智能（Sovereign AI）](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/)系统。该数据集通过还原法国真实的地理与人口分布，提升了合成数据的多样性，缓解了偏差问题，并可防止[模型坍塌（model collapse）](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14)（指在未经过滤的其他模型输出上训练导致的模型性能退化）。相较于其他同类人设数据集，本数据集在多个维度上更贴合底层人口统计分布，包括年龄（按年龄段划分）、地理（涵盖不同省与市镇）、教育水平与职业等。例如，可利用该数据集生成高质量的多轮对话数据，其中包含真实的姓名、年龄、职业、文化背景与教育水平，为数据带来独特多样的视角。本数据集基于[NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html)开发，该系统是一款企业级复合AI合成数据生成平台，依托专有概率图模型（Probabilistic Graphical Model, PGM）、采用NVFP4格式的[NVIDIA Nemotron 3 Super](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4)模型，以及集成在Data Designer中的不断扩展的验证与评估工具集。NeMo Data Designer本身还提供了扩展版的Nemotron-Personas-France数据集供使用。本数据集可直接用于商业用途。 ## 数据集未包含内容由于本数据集聚焦于人设，因此未包含NeMo Data Designer中可用的其他字段，例如姓名、姓氏的文化起源、人格特质等。此外，本数据集也未包含通常与企业客户相关的人设（如金融、医疗领域）。如需探索企业级使用场景，请[联系我们](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/)。所有数据虽还原了真实世界的分布，但均为完全人工合成。任何人设的姓名或描述与真实人士（无论在世或已故）的相似之处，均纯属巧合。 # 数据开发方 [Pleias](https://pleias.fr/) 与 NVIDIA Corporation（英伟达公司） # 发布日期 2026年3月15日，通过https://huggingface.co/datasets/nvidia/Nemotron-Personas-France 发布于Hugging Face平台 # 数据集创建日期 2026年3月15日 # 许可证与使用条款本数据集采用[知识共享署名4.0国际许可协议](https://creativecommons.org/licenses/by/4.0/legalcode)（CC BY 4.0）发布。 # 适用场景适用于从事主权人工智能开发、大语言模型（LLM）训练的开发者，以及希望提升合成数据多样性、缓解数据/模型偏差、防止模型坍塌的人员。 # 数据集版本 1.0（2026年3月15日） # 预期用途 Nemotron-Personas-France数据集旨在供社区用于改进开源模型并推动技术发展。数据可自由用于训练任何模型。我们欢迎开源社区的反馈，并邀请开发者、研究者与数据爱好者探索本数据集并基于其进行开发。 Nemotron-Personas-France数据集基于2025年法国人口普查的分布数据构建。其主要目标是通过弥补当前模型训练数据中缺失的数据或潜在偏差，尤其是在合成数据生成所用的现有同类人设数据集方面的不足，来支持主权人工智能的开发。尽管本数据集相较于法国人口数据提升了多样性与贴合度，但仍受限于数据可用性、当前数据的时效性以及合理的模型复杂度。本数据集仅针对成年人（符合法国法律规定的18岁及以上人群）。 # 数据集详情本数据集包含： * 100万条记录，共600万条法语人设数据 * 22个字段：6个人设字段、15个基于官方人口统计与劳动统计的上下文字段，以及1个唯一标识符 * 总令牌数15亿，其中人设相关令牌4.77亿 * 覆盖法国全部100个省（行政分区） * 覆盖31600个市镇（含标准市镇与区） * 88.4万个唯一姓名 * 全面覆盖人口统计、地理与人格特质维度 * 多种人设类型：职业、体育、艺术、旅行与烹饪 * 自然语言人设属性：文化背景、技能与专长、职业目标与抱负、爱好与兴趣 ## 源数据为还原法国人口的社会人口与地理多样性及复杂性，Nemotron-Personas-France采用了以下资源： * [2025年法国人口普查](https://www.insee.fr/fr/statistiques/5359146)：法国国家统计与经济研究所（INSEE）发布的最新普查数据（“完整文件”） * [姓名文件](https://www.insee.fr/fr/statistiques/7633685)：1900年至2022年间在法国出生的儿童所用的名字 * [姓氏文件](https://www.insee.fr/fr/statistiques/3536630#consulter)：1891年至2000年间在法国出生的儿童所用的姓氏 ## 数据结构本数据集包含22个字段，包括6个人设字段、15个上下文字段与1个唯一标识符，如下所示。丰富的上下文属性集使研究者能够精准定向与条件化特定人设，这是现有数据集难以实现的能力。 <center> <img src="images/nemotron_personas_france_schema_fr.png" width="700px"> </center> <center> <img src="images/nemotron_personas_france_schema_en.png" width="700px"> </center> ## 字段与令牌统计 15亿总令牌（其中人设相关令牌4.77亿），分布于100万条法语记录与21个列（不含全局唯一标识符）。本数据集全面覆盖法国所有市镇与省。 <center> <img src="images/nemotron_personas_france_field_stats.png" width="500px"> </center> # 数据集描述与质量评估以下分析将从多个维度拆解本数据集，以突出其内置的多样性与数据分布的复杂性。 ## 姓名由于本数据集聚焦于人设，因此未将姓名作为单独字段提供。但在人设生成过程中，集成了来自[姓名文件](https://www.insee.fr/fr/statistiques/7633685)与[姓氏文件](https://www.insee.fr/fr/statistiques/3536630#consulter)的48517个唯一名字与131055个唯一姓氏。从公共行政与领导力导向的数据集构建姓名分布时，面临的一大挑战是代表性往往与全人口统计情况存在偏差。为解决这一问题，非法国血统的人设采用了SIREN商业登记处的文化频率数据（用于姓名/姓氏关联）、按出生年份划分的INSEE数据以及INED/INSEE的移民率数据。我们应用了文化起源概率，以更好地还原真实的文化与代际模式。 ## 年龄分布人设仅限成年人（18岁及以上），大部分人群集中在20至65岁之间，与普查报告的粒度一致。我们开展了多项推断分析，以弥补原始法国普查数据中宽泛的年龄区间（通常为15-29岁）带来的问题。 Nemotron-Personas-France的年龄分布还原了该国真实的人口结构。70岁以后，人数持续下降，但老年与极高龄人群（90岁以上）仍在数据中有明显体现。在职年龄段的男女比例基本相当，而在更高年龄段，女性占比略高，这反映了女性的平均寿命更长。 <center> <img src="images/nemotron_personas_france_age_group_distribution.png" width="600px"> </center> ## 分年龄段婚姻状况以下热图展示了法国按年龄归一化的婚姻状况比例。18-24岁的人群大多未婚，结婚率从30多岁开始迅速上升，在60多岁时达到峰值，并在85-89岁之前保持主导地位。75岁以上的丧偶人群比例急剧上升，成为最年长群体的主导婚姻状况。离婚在所有年龄段均为低频率状态，在成年中期开始有适度占比。 <center> <img src="images/nemotron_personas_france_marital_status_distribution.png" width="600px"> </center> ## 分年龄段家庭类型以下热图展示了法国按年龄归一化的家庭类型比例。18-24岁的人群大多独居，而有子女的夫妇在20多岁末至50多岁期间成为最常见的家庭类型。约55岁以后，无子女夫妇的比例逐渐上升，而独居家庭在最年长群体中再次成为主导。 <center> <img src="images/nemotron_personas_france_household_type_distribution.png" width="600px"> </center> ## 分年龄段教育水平 Nemotron-Personas-France同样还原了该国的教育结构。以下热图展示了成年人群按年龄归一化的教育水平比例。年轻群体更有可能拥有高中以上或高等教育资格，而年长群体则更常见无文凭或仅持有初等教育证书。高级学位仍属少数，但集中在劳动年龄成年人中。 <center> <img src="images/nemotron_personas_france_education_distribution.png" width="600px"> </center> ## 教育水平的地理差异本数据集的这一部分展示了地理如何影响教育水平，进而影响人设描述。以下等值区域图展示了法国各省市25岁及以上人群拥有高等教育学位的比例，揭示了巴黎与其他少数城市中心的高等教育持有率相对于全国约22%的平均水平存在显著的空间差异。 <center> <img src="images/nemotron_personas_france_education_map.png" width="700px"> </center> ## 职业类别以下柱状图展示了各职业类别内部的教育水平分布，凸显了大学学位集中在管理与专业人士群体中，而体力劳动者更有可能持有职业教育或低等中等教育资格。 <center> <img src="images/nemotron_personas_france_occupation.png" width="600px"> </center> # 使用方法您可以通过以下代码加载本数据集。 python from datasets import load_dataset # 法国人设 / French personas nemotron_personas = load_dataset("nvidia/Nemotron-Personas-France") # 数据集特征描述 ## 数据收集方法混合模式：人工、合成、自动化 ## 标注方法不适用 ## 数据集格式字符串与整数。完整的数据结构详见“数据结构”部分。 ## 数据集量化统计 * 记录数：100万条记录，对应600万人设数据 * 总存储量：2.9 GB # 伦理考量 NVIDIA坚信[可信人工智能（Trustworthy AI）](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/)是一项共同责任，并已制定政策与实践规范，以支持广泛的AI应用开发。在按照我们的服务条款下载或使用本数据集时，开发者应与其内部团队协作，确保本数据集符合相关行业与使用场景的要求，并考虑到产品可能被意外滥用的情况。如需报告安全漏洞或NVIDIA AI相关问题，请[点击此处](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)。 # 引用方式若您认为本数据集对您的工作有帮助，请引用以下内容： @software{nvidia/Nemotron-Personas-France, author = {Langlais, Pierre-Carl and Stasenko, Anastasia and Delobelle, Pieter and Detrois, Yannick and Delfino, Benedetta and Prayaga, Shyamala and Thadaka, Kirit and Jennings, Will and Sadeghi, Bardiya and Sharabiani, Ashton and Pawelec, Krzysztof and Praveen, Kiran and Vaidya, Utkarsh and Tramel, Eric and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-France: Synthetic Personas Aligned to Real-World Distributions for France}}, month = {March}, year = {2026}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-France} }

提供机构：

Catsandmeowreuploads

5,000+

优质数据集

54 个

任务类型

进入经典数据集