nvidia/Nemotron-Personas-France

Name: nvidia/Nemotron-Personas-France
Creator: nvidia
Published: 2026-03-16 03:01:16
License: 暂无描述

Hugging Face2026-03-16 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/Nemotron-Personas-France

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - text-generation language: - fr tags: - synthetic - personas - NVIDIA - French - datadesigner size_categories: - 1M<n<10M dataset_info: features: - name: uuid dtype: string - name: professional_persona dtype: string - name: sports_persona dtype: string - name: arts_persona dtype: string - name: travel_persona dtype: string - name: culinary_persona dtype: string - name: persona dtype: string - name: cultural_background dtype: string - name: skills_and_expertise dtype: string - name: skills_and_expertise_list dtype: string - name: hobbies_and_interests dtype: string - name: hobbies_and_interests_list dtype: string - name: career_goals_and_ambitions dtype: string - name: sex dtype: string - name: age dtype: int64 - name: marital_status dtype: string - name: household_type dtype: string - name: education_level dtype: string - name: occupation dtype: string - name: commune dtype: string - name: departement dtype: string - name: country dtype: string splits: - name: train num_bytes: 5785543495 num_examples: 1000000 download_size: 2906585620 dataset_size: 5785543495 configs: - config_name: default data_files: - split: train path: data/train-* --- Nemotron-Personas-France ========================================================================= <center> <img src="images/nemotron_personas_france_approach.png" alt="Nemotron-Personas-France" width="400px"> Une approche d'IA composée pour des personas ancrés dans des distributions réelles A compound AI approach to personas grounded in real-world distributions </center> # Vue d'ensemble du jeu de données (Dataset Overview) Nemotron-Personas-France est un jeu de données en libre accès (CC BY 4.0) composé de personas générés de manière synthétique. Ce jeu de données s'appuie sur les distributions démographiques, géographiques et de traits de personnalité réels de la France afin de refléter la diversité et la richesse de la population française. Il s'agit d'une variante de [Nemotron-Personas-USA](https://huggingface.co/datasets/nvidia/Nemotron-Personas-USA), et du premier jeu de données français de ce type, aligné sur des statistiques de noms, sexe, âge, situation matrimoniale et profession, entre autres attributs. Cette version du jeu de données a été développée en collaboration avec [Pleias](https://pleias.fr/), une startup française spécialisée dans les données synthétiques, les modèles de raisonnement spécialisés et les solutions d'IA pour les secteurs fortement réglementés. Le jeu de données fournit des personas de haute qualité pour une variété de cas d'usage en modélisation, en français. Nemotron-Personas-France accompagne les développeurs de modèles français dans la création de systèmes d'[IA Souveraine](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) intégrant des données démographiques et un contexte culturel propres à la région. Le jeu de données améliore la diversité des données générées synthétiquement, atténue les biais et prévient l'[effondrement de modèle](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (dégradation causée par l'entraînement sur les sorties non filtrées d'un autre modèle) en reflétant les distributions géographiques et démographiques réelles de la France. En particulier, le jeu de données est conçu pour être plus représentatif des distributions démographiques sous-jacentes sur plusieurs axes — notamment l'âge (par tranche d'âge), la géographie (différents départements et communes), l'éducation et la profession — par rapport aux autres jeux de données de personas. Par exemple, il est possible de produire des données conversationnelles multi-tours de haute qualité avec des noms, âges, professions, parcours culturels et niveaux d'éducation réalistes, apportant des perspectives uniques et variées à ces données. Produit à l'aide de [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), un système d'IA composée de niveau entreprise pour la génération de données synthétiques, le jeu de données s'appuie sur un modèle graphique probabiliste (PGM) propriétaire, une version NVFP4 du modèle [NVIDIA Nemotron 3 Super](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4), ainsi qu'un ensemble en constante expansion de validateurs et d'évaluateurs intégrés à Data Designer. Une version étendue de Nemotron-Personas-France est disponible pour utilisation dans NeMo Data Designer. Ce jeu de données est prêt pour un usage commercial. – Nemotron-Personas-France is an open-source (CC BY 4.0) dataset of synthetically-generated personas. This dataset is grounded in real-world demographic, geographic and personality trait distributions in France to capture the diversity and richness of the French population. It is a variant of [Nemotron-Personas-USA](https://huggingface.co/datasets/nvidia/Nemotron-Personas-USA), and the first French dataset of its kind aligned with statistics for names, sex, age, marital status and occupation among other attributes. This version of the dataset was built in collaboration with [Pleias](https://pleias.fr/), a French startup providing synthetic data, specialized reasoning models, and AI solutions for highly-regulated industries. The dataset contains high-quality personas for a variety of modeling use-cases in French. Nemotron-Personas-France supports French model builders in developing [Sovereign AI](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) systems that incorporate important region-specific demographics and cultural context. The dataset improves diversity of synthetically-generated data, mitigates biases, and prevents [model collapse](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (degradation caused by uncurated training on another model's outputs) by reflecting France's real geographic and demographic distributions. In particular, the dataset is designed to be more representative of underlying demographic distributions along multiple axes, including age (e.g. age group), geography (e.g., various départements and communes), education, occupation, as compared to other persona datasets. As an example, one can produce high-quality, multi-turn chat conversation data with real names, ages, occupation, cultural and education backgrounds, all of which bring unique perspectives and angles to that data. Produced using [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), an enterprise-grade compound AI system for synthetic data generation, the dataset leverages a proprietary Probabilistic Graphical Model (PGM) along with an NVFP4 version of [NVIDIA Nemotron 3 Super](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4) model and an ever-expanding set of validators and evaluators built into Data Designer. An extended version of Nemotron-Personas-France is available for use in NeMo Data Designer itself. This dataset is ready for commercial use. ## Ce qui n'est pas inclus dans le jeu de données (What is NOT in the dataset) Étant donné l'accent mis sur les personas, le jeu de données exclut d'autres champs disponibles dans NeMo Data Designer, tels que les prénoms/noms de famille, l'origine culturelle des noms, les traits de personnalité, etc. Sont également exclues les personas généralement pertinentes pour les clients entreprises (par ex. finance, santé). Veuillez [nous contacter](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/) pour explorer les cas d'usage entreprises. Toutes les données, bien que reflétant les distributions du monde réel, sont entièrement générées artificiellement. Toute ressemblance entre les noms ou descriptions de personas et des personnes réelles, vivantes ou décédées, est purement fortuite. – Given the emphasis on personas, the dataset excludes other fields available in NeMo Data Designer, e.g., first/last names, name heritage, personality traits, etc. Also excluded are personas generally of relevance to enterprise clients (e.g., finance, healthcare). Please [reach out](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/) to explore enterprise use-cases. All data, while mirroring real-world distributions, is completely artificially generated. Any similarity in names or persona descriptions to actual persons, living or dead, is purely coincidental. # Développeur des données (Data Developer) [Pleias](https://pleias.fr/) & NVIDIA Corporation # Date de publication (Release Date) Hugging Face 03/15/2026 via https://huggingface.co/datasets/nvidia/Nemotron-Personas-France # Date de création du jeu de données (Dataset Creation Date) 03/15/2026 # Licence et conditions d'utilisation (License/Terms of Use) Ce jeu de données est distribué sous la [licence internationale Creative Commons Attribution 4.0](https://creativecommons.org/licenses/by/4.0/legalcode) (CC BY 4.0). – This dataset is licensed under the [Creative Commons Attribution 4.0 International License](https://creativecommons.org/licenses/by/4.0/legalcode) (CC BY 4.0). # Cas d'utilisation (Use Case) Les développeurs travaillant sur l'IA Souveraine, l'entraînement de LLM et/ou cherchant à améliorer la diversité des données générées synthétiquement, à atténuer les biais de données et de modèles, et à prévenir l'effondrement de modèle. – Developers working on Sovereign AI, training LLMs, and/or looking to improve diversity of synthetically generated data, mitigate data/model biases, and prevent model collapse. # Version des données (Data Version) 1.0 (03/15/2026) # Utilisation prévue (Intended Use) Le jeu de données Nemotron-Personas-France est destiné à être utilisé par la communauté pour continuer à améliorer les modèles ouverts et faire progresser l'état de l'art. Les données peuvent être librement utilisées pour entraîner tout modèle. Nous accueillons les retours de la communauté open source et invitons les développeurs, chercheurs et passionnés de données à explorer le jeu de données et à construire à partir de celui-ci. Le jeu de données Nemotron-Personas-France s'appuie sur les distributions issues du recensement français de 2025. Son objectif principal est de soutenir le développement de l'IA Souveraine en palliant le manque de données et/ou les biais potentiels présents dans les données d'entraînement actuelles, notamment en ce qui concerne les jeux de données de personas existants utilisés pour la génération de données synthétiques. Malgré l'amélioration de la diversité et de la fidélité des données par rapport à la population française, nous restons limités par la disponibilité des données, leur éventuelle obsolescence et la complexité raisonnable du modèle. Le jeu de données se concentre uniquement sur les adultes (18 ans et plus selon le droit français). – The Nemotron-Personas-France dataset is intended to be used by the community to continue to improve open models and push the state of the art. The data may be freely used to train any model. We welcome feedback from the open-source community and invite developers, researchers, and data enthusiasts to explore the dataset and build upon it. The Nemotron-Personas-France dataset is grounded in distributions from the 2025 French census. As such, its primary goal is to support Sovereign AI development by combating missing data and/or potential biases present in model training data today, especially when it comes to existing persona datasets used in synthetic data generation. Despite the improved data diversity and fidelity to France's population, we are still limited by data availability, current staleness of data, and reasonable model complexity. Note that the dataset is focused on adults only (18+ years by French Law). # Détails du jeu de données (Dataset Details) Le jeu de données contient : * 6 millions de personas en français répartis sur 1 million d'enregistrements * 22 champs : 6 champs de persona, 15 champs contextuels ancrés dans les statistiques démographiques et du travail officielles, et un identifiant unique * 1,5 milliard de tokens au total, dont 477 millions de tokens de personas * 100 départements (divisions administratives de la France) * 31 600 communes (standard + arrondissements) * 884 000 noms uniques * Une couverture complète des axes démographiques, géographiques et de traits de personnalité * Une variété de types de personas : professionnelle, sportive, artistique, voyage, et culinaire * Des attributs de personas en langage naturel : parcours culturel, compétences et expertise, objectifs de carrière et ambitions, loisirs et centres d'intérêt – The dataset contains: * 6M personas in French across 1M records * 22 fields: 6 persona fields, 15 contextual fields grounded in official demographic and labor statistics, and one unique identifier * 1.5B tokens total, including 477M persona tokens * 100 départements (administrative divisions of France) * 31.6k communes (standard + arrondissement) * 884k unique names * Comprehensive coverage across demographic, geographic, and personality trait axes * A variety of persona types: professional, sports, arts, travel, and culinary * Natural language persona attributes: cultural background, skills and expertise, goals and ambitions, hobbies and interests. ## Données sources (Seed Data) Afin de capturer la diversité et la complexité sociodémographiques et géographiques de la population française, Nemotron-Personas-France a exploité les ressources suivantes : * [Recensement de la France 2025](https://www.insee.fr/fr/statistiques/5359146) : données de recensement les plus récentes publiées par l'INSEE (« fichier complet »), l'Institut national de la statistique et des études économiques * [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685) : prénoms donnés aux enfants nés en France entre 1900 et 2022 * [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter) : noms de famille donnés aux enfants nés en France entre 1891 et 2000 – In order to capture the socio-demographic and geographic diversity and complexity of France's population, Nemotron-Personas-France leveraged the following resources: * [2025 census of France](https://www.insee.fr/fr/statistiques/5359146): most recent census data published by INSEE ("fichier complet"), the French National Institute of Statistics and Economic Studies * [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685): First names given to children born in France between 1900 and 2022 * [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter): Last names given to children born in France between 1891 and 2000 ## Structure des données (Schema) Le jeu de données comprend 22 champs, dont 6 champs de persona, 15 champs contextuels et un identifiant unique, comme illustré ci-dessous. L'ensemble riche d'attributs contextuels permet aux chercheurs de cibler et de conditionner précisément des personas spécifiques, une capacité difficile à obtenir avec les jeux de données existants. <center> <img src="images/nemotron_personas_france_schema_fr.png" width="700px"> </center> – The dataset includes 22 fields, comprising 6 persona fields, 15 contextual fields, and a unique identifier, as shown below. The rich set of contextual attributes enables researchers to precisely condition and target specific personas, a capability that is difficult to achieve with existing persona datasets. <center> <img src="images/nemotron_personas_france_schema_en.png" width="700px"> </center> ## Nombre de champs et de tokens (Field & Token Counts) 1,5 milliard de tokens (477 millions de tokens de personas) répartis sur 1 million d'enregistrements en français et 21 colonnes, hors identifiant unique global. Le jeu de données couvre l'ensemble des communes et départements de France. – 1.5B tokens (477M persona tokens) across 1M records in French and 21 columns, excluding the globally unique identifier. Note that the data provides comprehensive coverage across all communes and départements of France. <center> <img src="images/nemotron_personas_france_field_stats.png" width="500px"> </center> # Description du jeu de données et évaluation de la qualité (Dataset Description & Quality Assessment) L'analyse ci-dessous fournit une ventilation selon plusieurs axes du jeu de données afin de souligner la diversité intégrée et la complexité des distributions des données. – The analysis below provides a breakdown across various axes of the dataset to emphasize the built-in diversity and pattern complexity of data. ## Noms (Names) Le jeu de données étant centré sur les personas, les noms ne sont pas fournis en tant que champs dédiés. Cependant, la génération des personas intègre 48 517 prénoms uniques et 131 055 noms de famille uniques, issus du [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685) et du [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter). L'un des défis dans la construction de distributions de noms à partir de jeux de données publics orientés vers l'administration et les postes de direction est que la représentation diverge souvent de la démographie à l'échelle de la population. Pour y remédier, les personas d'origine non française ont été modélisés en utilisant les fréquences culturelles du registre SIREN (pour les associations nom/prénom), les données INSEE par année de naissance et les données INED/INSEE sur les taux d'immigration. Des probabilités d'origine culturelle ont été appliquées pour mieux capturer les schémas culturels et générationnels réalistes. – Since the focus of this dataset is on personas, names aren't provided as dedicated fields. However, infused into persona generation are 48,517 unique first names and 131,055 unique last names obtained from [Fichier des prénoms](https://www.insee.fr/fr/statistiques/7633685) and [Fichier des noms](https://www.insee.fr/fr/statistiques/3536630#consulter). One challenge in constructing name distributions from publicly available administrative and leadership-focused datasets is that representation often diverges from population-wide demographics. To address this, non-French-heritage personas were modeled using SIREN business-registry cultural frequencies (for name/surname associations), INSEE data by birth year and INED/INSEE data for immigration rates. We applied cultural heritage probabilities to better capture realistic cultural and generational patterns. ## Distribution par âge (Age Distribution) Les personas sont limités aux adultes (18 et plus), la majorité de la population se concentrant entre 20 et 65 ans, conformément à la granularité des données du recensement. Plusieurs analyses d'inférence ont été réalisées pour compenser les intervalles d'âge larges (typiquement 15-29 ans) issus des données originales du recensement français. La distribution par âge de Nemotron-Personas-France reflète la structure démographique réelle du pays. Après 70 ans, les effectifs diminuent régulièrement, bien que les personnes âgées et très âgées (90+) restent visiblement représentées. Les effectifs masculins et féminins restent comparables durant la vie active, tandis que la représentation féminine devient légèrement plus importante dans les tranches d'âge supérieures, reflétant la plus grande longévité des femmes. – Personas are limited to adults (18+), with the bulk of the population concentrated between 20-65 years, consistent with census reporting granularity. We performed several inference analyses to compensate for the broad age intervals (typically 15-29) from the original French census data. The age distribution of Nemotron-Personas-France mirrors the country's real demographic structure. Note that after age 70, counts decline steadily, though the elderly and very old (90+) remain visibly represented in the data. Male and female counts remain comparable through midlife, while female representation becomes slightly more prominent in older age groups, reflecting higher female longevity. <center> <img src="images/nemotron_personas_france_age_group_distribution.png" width="600px"> </center> ## Situation matrimoniale par tranche d'âge (Marital Status by Age Group) La carte thermique ci-dessous montre les proportions normalisées par âge de la situation matrimoniale en France. Les individus âgés de 18 à 24 ans sont majoritairement célibataires, les taux de mariage augmentant rapidement à partir de la trentaine jusqu'à la soixantaine, où le mariage reste le statut dominant jusqu'à environ 85-89 ans. La proportion de personnes veuves augmente fortement à partir de 75 ans, devenant dominante dans les cohortes les plus âgées. Le divorce reste un statut peu fréquent à tous les âges, avec une représentation modeste à partir de l'âge adulte moyen. – The heatmap below shows age-normalized proportions of marital status in France. Individuals aged 18–24 are predominantly single, with marriage rates increasing rapidly from 30s through the 60s and remaining the dominant status until approximately 85–89. The proportion of widowed individuals rises sharply from 75+, becoming dominant in the oldest cohorts. Divorce remains a low-frequency status across all ages, with modest representation beginning in mid-adulthood. <center> <img src="images/nemotron_personas_france_marital_status_distribution.png" width="600px"> </center> ## Type de ménage par tranche d'âge (Household Type by Age Group) La carte thermique ci-dessous montre les proportions normalisées par âge des types de ménages en France. Comme précédemment, les individus de 18-24 ans sont majoritairement seuls, tandis que les couples avec enfants deviennent le type de ménage le plus courant de la fin de la vingtaine jusqu'à la cinquantaine. À partir d'environ 55 ans, les couples sans enfants gagnent en prévalence, et les ménages composés d'une personne seule redeviennent dominants dans les cohortes les plus âgées. – The heatmap below shows age-normalized proportions of household types in France. As before, individuals aged 18-24 are predominantly single, while couples with children become the most common household type from the late 20s to the 50s. From about age 55 onward, couples without children grow in prevalence, and single-person households again become dominant in the oldest cohorts. <center> <img src="images/nemotron_personas_france_household_type_distribution.png" width="600px"> </center> ## Niveau d'éducation par tranche d'âge (Education Level by Age Group) Nemotron-Personas-France reflète également la composition éducative du pays. La carte thermique ci-dessous montre les proportions normalisées par âge des niveaux d'éducation parmi les tranches d'âge adultes. Les cohortes plus jeunes sont plus susceptibles de détenir des qualifications du secondaire supérieur ou de l'enseignement supérieur, tandis que les cohortes plus âgées sont plus fréquemment sans diplôme ou limitées à un certificat du primaire. Les diplômes avancés restent minoritaires mais se concentrent parmi les adultes en âge de travailler. – Nemotron-Personas-France also mirrors the country's educational composition. The heatmap below shows age-normalized proportions of education levels across adult age groups. Younger cohorts are more likely to hold upper-secondary or tertiary qualifications, while older cohorts are more frequently without a diploma or limited to primary certification. Advanced degrees remain a minority but are concentrated among working-age adults. <center> <img src="images/nemotron_personas_france_education_distribution.png" width="600px"> </center> ## Variations géographiques du niveau d'éducation (Geographic Intricacies of Education Attainment) Cette coupe de notre jeu de données illustre comment la géographie influence l'éducation et, par conséquent, les descriptions de personas. La carte choroplèthe montre la proportion de résidents âgés de 25 ans et plus titulaires d'un diplôme de l'enseignement supérieur par département en France, révélant des variations spatiales marquées autour de Paris et de quelques autres centres urbains par rapport à la moyenne nationale d'environ 22 %. – This slice of our dataset demonstrates how geography informs education and therefore persona descriptions. The choropleth map shows the share of residents aged 25 and over with tertiary degree by département in France, revealing marked spatial variation in higher educational attainment around Paris and a handful of other urban centers relative to the national average of ~22%. <center> <img src="images/nemotron_personas_france_education_map.png" width="700px"> </center> ## Catégories professionnelles (Occupational Categories) Le diagramme en barres ci-dessous montre la distribution des niveaux d'éducation au sein de chaque catégorie professionnelle, soulignant que les diplômes universitaires sont concentrés parmi les cadres et professions intellectuelles supérieures, tandis que les ouvriers sont plus susceptibles de détenir des qualifications professionnelles ou du secondaire inférieur. – The bar chart below shows the distribution of education levels within each occupational category, highlighting that university degrees are concentrated among managers and professionals, while manual workers are more likely to hold vocational or lower-secondary qualifications. <center> <img src="images/nemotron_personas_france_occupation.png" width="600px"> </center> # Comment l'utiliser (How to use it) Vous pouvez charger le jeu de données avec les lignes de code suivantes. – You can load the dataset with the following lines of code. ```python from datasets import load_dataset # Personas français / French personas nemotron_personas = load_dataset("nvidia/Nemotron-Personas-France") ``` # Caractérisation du jeu de données (Dataset Characterization) ## Méthode de collecte des données (Data Collection Method) * Hybride : humaine, synthétique, automatisée (Hybrid: Human, Synthetic, Automated) ## Méthode d'étiquetage (Labeling Method) * Non applicable (Not Applicable) ## Format du jeu de données (Dataset Format) * Chaînes de caractères et nombres entiers. La structure complète des données est fournie dans la section « Structure des données (Schema) » (Strings and integers. The full data schema is provided in the "Structure des données (Schema)" section) ## Quantification du jeu de données (Dataset Quantification) * Nombre d'enregistrements : 1 million d'enregistrements, soit 6 millions de personas (Record counts: 1M records (6M personas)) * Stockage total : 2,9 Go (Total data storage: 2.9 GB) # Considérations éthiques (Ethical Considerations) NVIDIA est convaincu que l'[IA de confiance](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) est une responsabilité partagée et a mis en place des politiques et des pratiques pour permettre le développement d'un large éventail d'applications d'IA. Lors du téléchargement ou de l'utilisation conformément à nos conditions de service, les développeurs doivent travailler avec leurs équipes internes pour s'assurer que ce jeu de données répond aux exigences de l'industrie et du cas d'usage concernés, et prend en compte les utilisations imprévues du produit. Veuillez signaler les vulnérabilités de sécurité ou les préoccupations liées à l'IA NVIDIA [ici](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). – NVIDIA believes [Trustworthy AI](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications. When downloaded or used in accordance with our terms of service, developers should work with their internal teams to ensure this dataset meets requirements for the relevant industry and use case and addresses unforeseen product misuse. Please report security vulnerabilities or NVIDIA AI concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). # Citation Si vous trouvez ces données utiles, veuillez citer : – If you find the data useful, please cite: ``` @software{nvidia/Nemotron-Personas-France, author = {Langlais, Pierre-Carl and Stasenko, Anastasia and Delobelle, Pieter and Detrois, Yannick and Delfino, Benedetta and Prayaga, Shyamala and Thadaka, Kirit and Jennings, Will and Sadeghi, Bardiya and Sharabiani, Ashton and Pawelec, Krzysztof and Praveen, Kiran and Vaidya, Utkarsh and Tramel, Eric and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-France: Synthetic Personas Aligned to Real-World Distributions for France}}, month = {March}, year = {2026}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-France} } ```

提供机构：

nvidia

5,000+

优质数据集

54 个

任务类型

进入经典数据集