five

Nemotron-Personas-India

收藏
魔搭社区2026-01-02 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/nv-community/Nemotron-Personas-India
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Personas-India ========================================================================= <center> <img src="images/nemotron_personas_india_approach.png" alt="Nemotron-Personas-India" width="400px"> <p> <em>A compound AI approach to personas grounded in real-world distributions</em><br> <em>वास्तविक दुनिया के वितरण पर आधारित व्यक्तित्वों के लिए एक मिश्रित AI दृष्टिकोण</em> </p> </center> # Dataset Overview (डेटासेट अवलोकन) Nemotron-Personas-India is an open-source (CC BY 4.0) dataset of synthetically-generated personas. This dataset is grounded in real-world demographic, geographic and personality trait distributions in India to capture the diversity and richness of the Indian population. It is a variant of [Nemotron-Personas](https://huggingface.co/datasets/nvidia/Nemotron-Personas), and the first Indic dataset of its kind aligned with statistics for names, sex, age, religion, spoken languages, background, marital status, education and occupation among other attributes. This version of the dataset provides high-quality personas for a variety of modeling use-cases in both English and Hindi (Devanagari and Latin scripts). Nemotron-Personas-India supports Indian model builders in developing [Sovereign AI](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) systems that incorporate important region-specific demographics and cultural context. The dataset improves diversity of synthetically-generated data, mitigates biases, and prevents [model collapse](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (degradation caused by uncurated training on another model’s outputs) by reflecting India’s real geographic and demographic distributions. In particular, the dataset is designed to be more representative of underlying demographic distributions along multiple axes, including age (e.g. older personas), geography (e.g., rural personas), spoken languages, education, occupation, religious identities, etc., as compared to other persona datasets. As an example, one can produce high-quality, multi-turn chat conversation data with real names, ages, occupation, cultural and education backgrounds, all of which bring unique perspectives and angles to that data. Produced using [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), an enterprise-grade compound AI system for synthetic data generation, the dataset leverages a proprietary Probabilistic Graphical Model (PGM) along with an Apache-2.0-licensed GPT-OSS-120B model and an ever-expanding set of validators and evaluators built into Data Designer. An extended version of Nemotron-Personas-India will be soon available for use in NeMo Data Designer itself. This dataset is ready for commercial use. Nemotron-Personas-India सिंथेटिक रूप से जेनरेट किए गए पर्सोना का एक ओपन-सोर्स (CC BY 4.0) डेटासेट है। यह डेटासेट भारतीय आबादी की विविधता और समृद्धि को दर्शाने के लिए भारत में वास्तविक जनसांख्यिकीय, भौगोलिक और व्यक्तित्व विशेषताओं के वितरण पर आधारित है। यह [Nemotron-Personas](https://huggingface.co/datasets/nvidia/Nemotron-Personas) का एक संस्करण है और अपनी तरह का पहला भारतीय डेटासेट है जो नाम, लिंग, आयु, धर्म, बोली जाने वाली भाषाओं, पृष्ठभूमि, वैवाहिक स्थिति, शिक्षा और व्यवसाय जैसी विशेषताओं के आँकड़ों के अनुरूप है। यह संस्करण विभिन्न प्रकार के मॉडलिंग यूज़-केस के लिए अंग्रेज़ी और हिंदी (देवनागरी और लैटिन लिपियों) दोनों में उच्च-गुणवत्ता वाले पर्सोना प्रदान करता है। Nemotron-Personas-India भारतीय मॉडल निर्माताओं को ऐसे [सॉवरेन AI सिस्टम](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) विकसित करने में सहायता करता है जो महत्वपूर्ण क्षेत्र-विशिष्ट जनसांख्यिकी और सांस्कृतिक संदर्भ को शामिल करते हैं। यह डेटासेट भारत के वास्तविक भौगोलिक और जनसांख्यिकीय वितरण को दर्शाकर सिंथेटिक डेटा की विविधता में सुधार करता है, पूर्वाग्रहों को कम करता है, और [मॉडल कोलैप्स](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14) (दूसरे मॉडल के आउटपुट पर बिना जाँचे-परखे प्रशिक्षण के कारण होने वाली गिरावट) को रोकता है। विशेष रूप से, अन्य पर्सोना डेटासेट की तुलना में, इस डेटासेट को कई पैमानों पर अंतर्निहित जनसांख्यिकीय वितरण का अधिक प्रतिनिधित्व करने के लिए डिज़ाइन किया गया है, जिसमें आयु (जैसे, अधिक उम्र वाले पर्सोना), भूगोल (जैसे, ग्रामीण पर्सोना), बोली जाने वाली भाषाएँ, शिक्षा, व्यवसाय, और धार्मिक पहचान आदि शामिल हैं। उदाहरण के लिए, इसके उपयोग से वास्तविक नाम, आयु, व्यवसाय, सांस्कृतिक और शैक्षिक पृष्ठभूमि के साथ उच्च-गुणवत्ता वाला मल्टी-टर्न चैट वार्तालाप डेटा बनाया जा सकता है, जो उस डेटा में अद्वितीय दृष्टिकोण और पहलू लाते हैं। सिंथेटिक डेटा जेनरेशन के लिए एक एंटरप्राइज-ग्रेड कंपाउंड AI सिस्टम, [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html), का उपयोग करके निर्मित यह डेटासेट एक प्रोप्राइटरी प्रोबेबिलिस्टिक ग्राफिकल मॉडल (PGM), Apache-2.0-लाइसेंस वाले GPT-OSS-120B मॉडल, और Data Designer में निर्मित वैलिडेटर्स और इवैल्यूएटर्स के लगातार बढ़ते सेट का लाभ उठाता है। Nemotron-Personas-India का एक विस्तारित संस्करण जल्द ही NeMo Data Designer में उपयोग के लिए उपलब्ध होगा। यह डेटासेट व्यावसायिक उपयोग के लिए तैयार है। यह डेटासेट व्यावसायिक उपयोग के लिए तैयार है। ## What is NOT in the dataset (डेटासेट में क्या नहीं है) Given the emphasis on personas, the dataset excludes other fields available in NeMo Data Designer, e.g., first/last names, religion, and synthetic addresses. Also excluded are personas generally of relevance to enterprise clients (e.g., religious, finance, healthcare). Please [reach out](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/) to explore enterprise use-cases. All data, while mirroring real-world distributions, is completely artificially generated. Any similarity in names or persona descriptions to actual persons, living or dead, is purely coincidental. पर्सोना पर विशेष ध्यान देने के कारण, इस डेटासेट में NeMo Data Designer में उपलब्ध अन्य फ़ील्ड, जैसे पहला/अंतिम नाम, धर्म और सिंथेटिक पते, शामिल नहीं किए गए हैं। इसमें ऐसे पर्सोना भी शामिल नहीं हैं जो आम तौर पर एंटरप्राइज़ ग्राहकों के लिए प्रासंगिक होते हैं (जैसे धार्मिक, वित्त, स्वास्थ्य सेवा)। एंटरप्राइज़ यूज़-केस के बारे में जानने के लिए कृपया [संपर्क करें](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/)। यह पूरा डेटा, भले ही वास्तविक दुनिया के वितरण को दर्शाता है, लेकिन यह पूरी तरह से कृत्रिम रूप से बनाया गया है। नामों या पर्सोना-विवरण की किसी भी वास्तविक व्यक्ति (जीवित या मृत) से कोई भी समानता पूरी तरह से एक संयोग है। # Data Developer (डेटा डेवलपर) NVIDIA Corporation # Release Date (रिलीज़ दिनांक) Hugging Face 10/13/2025 via https://huggingface.co/datasets/nvidia/Nemotron-Personas-India # Dataset Creation Date (डेटासेट निर्माण दिनांक) 10/10/2025 # License/Terms of Use (निबंधन एवं शर्तें) This dataset is licensed under the Creative Commons Attribution 4.0 International License ([CC BY 4.0](https://creativecommons.org/licenses/by/4.0/legalcode)). यह डेटासेट क्रिएटिव कॉमन्स एट्रिब्यूशन 4.0 इंटरनेशनल लाइसेंस (CC BY 4.0) के तहत लाइसेंसशुदा है। # Use Case (उपयोग) Developers working on Sovereign AI, training LLMs, and/or looking to improve diversity of synthetically generated data, mitigate data/model biases, and prevent model collapse. सॉवरेन AI पर काम करने वाले, LLMs को प्रशिक्षित करने वाले, और/या ऐसे डेवलपर्स जो सिंथेटिक रूप से जेनरेट किए गए डेटा की विविधता में सुधार करना, डेटा/मॉडल के पूर्वाग्रहों को कम करना, और मॉडल कोलैप्स को रोकना चाहते हैं। # Data Version (डेटा संस्करण) 1.0 (10/13/2025) # Intended Use (निर्धारित उपयोग) The Nemotron-Personas-India dataset is intended to be used by the community to continue to improve open models and push the state of the art. The data may be freely used to train any model. We welcome feedback from the open-source community and invite developers, researchers, and data enthusiasts to explore the dataset and build upon it. The Nemotron-Personas-India dataset is grounded in distributions of self-reported demographic data from the 2011 census of India. As such, its primary goal is to support Sovereign AI development by combating missing data and/or potential biases present in model training data today, especially when it comes to existing persona datasets used in synthetic data generation. Despite the improved data diversity and fidelity to India’s population, we are still limited by data availability, current staleness of data, and reasonable model complexity. This results in some necessary independence assumptions; for instance, that occupations are independent of education degree, given the district, age and sex. The census report provides statistics for only 26 broad occupation categories. We expand on these categories using the National Classification of Occupations-2004 to ~3000 detailed occupations. The statistics for transitioning from the broad categories to detailed occupations is done with the aid of an LLM. We leave further efforts to improve fidelity to future work. Nemotron-Personas-India डेटासेट को समुदाय के उपयोग के लिए बनाया गया है, ताकि ओपन मॉडल्स को लगातार बेहतर बनाया जा सके और इस क्षेत्र में नई प्रगति की जा सके। इस डेटा का उपयोग किसी भी मॉडल को प्रशिक्षित करने के लिए स्वतंत्र रूप से किया जा सकता है। हम ओपन-सोर्स समुदाय से मिलने वाले फीडबैक का स्वागत करते हैं और डेवलपर्स, शोधकर्ताओं और डेटा के प्रति उत्साही लोगों को इस डेटासेट को एक्सप्लोर करने और इसका विस्तार करने के लिए आमंत्रित करते हैं। यह डेटासेट, भारत की 2011 की जनगणना से मिले स्व-रिपोर्ट किए गए जनसांख्यिकीय डेटा के वितरण पर आधारित है। इसलिए, इसका मुख्य लक्ष्य सॉवरेन AI के विकास में सहायता करना है। यह आज मॉडल प्रशिक्षण डेटा में मौजूद संभावित पूर्वाग्रहों और लुप्त डेटा की समस्या से निपटने में मदद करता है, विशेष रूप से सिंथेटिक डेटा बनाने के लिए उपयोग किए जाने वाले मौजूदा पर्सोना डेटासेट के संबंध में। भारत की आबादी के हिसाब से डेटा की बेहतर विविधता और सटीकता के बावजूद, हम अभी भी डेटा की उपलब्धता, डेटा के मौजूदा पुरानेपन, और मॉडल की उचित जटिलता जैसी सीमाओं से बंधे हैं। इसके परिणामस्वरूप, हमें कुछ आवश्यक स्वतंत्रता की धारणाएँ बनानी पड़ती हैं; उदाहरण के लिए, यह मानना कि किसी जिले, उम्र और लिंग को देखते हुए, व्यवसाय शिक्षा की डिग्री से स्वतंत्र हैं। जनगणना रिपोर्ट केवल 26 मुख्य व्यावसायिक श्रेणियों के लिए आँकड़े प्रदान करती है। हमने राष्ट्रीय व्यावसायिक वर्गीकरण-2004 का उपयोग करके इन श्रेणियों का विस्तार लगभग 3000 विस्तृत व्यवसायों तक किया है। मुख्य श्रेणियों से विस्तृत व्यवसायों में संक्रमण के आँकड़े एक LLM की सहायता से तैयार किए गए हैं। हम सटीकता में सुधार के आगे के प्रयासों को भविष्य के काम के लिए छोड़ते हैं। # Dataset Details (डेटासेट का विवरण) The dataset contains: * 3M records total, with 1M in Hindi (Devanagari), 1M in Hindi (Latin), and 1M in English * 21M persona descriptions total, with 7 personas/record within each language/script * 27 fields excluding the UUID: 7 persona fields (each in English, Hindi and transliterated Hindi), and 20 contextual fields grounded in official demographic and labor statistics * ~7.7B tokens total, including ~2.9B persona tokens * Comprehensive coverage across demographic, geographic, and personality trait axes * ~560k unique names * 2,900+ occupation titles reflecting India’s workforce taken from the National Classification of Occupations - 2004. * A variety of persona types: professional, linguistic, sports, arts, travel, culinary. * Natural language persona attributes: cultural background, skills & expertise, goals & ambitions, hobbies & interests. Nemotron-Personas-India was designed to align with India’s official demographic and labor statistics, while extending them into areas important for AI training. In practice, this meant: * Occupations: We augment occupation statistics with finer-grained categories from the National Classification of Occupations-2004 * Translated categories: To ensure the full set of fields is available in both English and Hindi, we generated all fields in Devanagari and Latin scripts, all while maintaining consistency between English/Devangari/Latin. * New states: The state of Telangana was formed in 2014, after the 2011 census report was made. Here, we retraced back the districts from Andhra Pradesh which formed Telangana and separated the statistics of both states using their constituent districts. * Extrapolating naming conventions: The name distribution for the states Lakshadweep and Chhattisgarh was not available. Here, we estimated the distributions by interpolating the probability distributions of the states that share the closest match in terms of mother-tongues. This is based on the influence a mother-tongue can have over a person’s name. These extensions build on a strong foundation of public data, helping create personas that are both statistically grounded and culturally representative, while remaining synthetic, privacy-preserving, and open. इस डेटासेट में शामिल हैं: * कुल 30 लाख रिकॉर्ड, जिनमें 10 लाख हिंदी (देवनागरी), 10 लाख हिंदी (लैटिन), और 10 लाख अंग्रेज़ी में हैं। * कुल 2.1 करोड़ पर्सोना विवरण, और हर भाषा/लिपि में प्रति रिकॉर्ड 80 लाख पर्सोना हैं। * UUID को छोड़कर 27 फ़ील्ड: 7 पर्सोना फ़ील्ड (प्रत्येक अंग्रेज़ी, हिंदी और लिप्यंतरित हिंदी में), और 20 प्रासंगिक फ़ील्ड जो आधिकारिक जनसांख्यिकीय और श्रम आँकड़ों पर आधारित हैं। * कुल लगभग 770 करोड़ टोकन, जिनमें लगभग 290 करोड़ पर्सोना टोकन शामिल हैं। * जनसांख्यिकीय, भौगोलिक और व्यक्तित्व विशेषताओं जैसे कई पहलुओं का व्यापक कवरेज। * लगभग 5.5 लाख अनोखे नाम। * 2,900 से ज़्यादा व्यवसायों के नाम, जिन्हें राष्ट्रीय व्यावसायिक वर्गीकरण - 2004 से लिया गया है और जो भारत के कार्यबल को दर्शाते हैं। * कई तरह के पर्सोना: व्यावसायिक, भाषाई, खेल, कला, यात्रा, और खान-पान संबंधी। * प्राकृतिक भाषा में पर्सोना की विशेषताएँ: सांस्कृतिक पृष्ठभूमि, कौशल और विशेषज्ञता, लक्ष्य और महत्वाकांक्षाएँ, और शौक और रुचियाँ। Nemotron-Personas-India को भारत के आधिकारिक जनसांख्यिकीय और श्रम आँकड़ों के अनुरूप बनाया गया है, और साथ ही AI प्रशिक्षण के लिए महत्वपूर्ण क्षेत्रों तक इसका विस्तार भी किया गया है। इसके लिए हमने निम्नलिखित काम किए हैं: * व्यवसाय: हमने राष्ट्रीय व्यावसायिक वर्गीकरण-2004 से और भी विस्तृत श्रेणियाँ लेकर व्यावसायिक आँकड़ों को बेहतर बनाया है। * अनुवादित श्रेणियाँ: यह सुनिश्चित करने के लिए कि सभी फ़ील्ड अंग्रेज़ी और हिंदी दोनों में उपलब्ध हों, हमने सभी फ़ील्ड को देवनागरी और लैटिन लिपियों में तैयार किया, और इस दौरान अंग्रेज़ी/देवनागरी/लैटिन के बीच एकरूपता बनाए रखी। * नए राज्य: तेलंगाना राज्य का गठन 2014 में, यानी 2011 की जनगणना रिपोर्ट के बाद हुआ था। इसलिए, हमने आंध्र प्रदेश के उन जिलों का पता लगाया जिनसे तेलंगाना बना और फिर उन जिलों के आधार पर दोनों राज्यों के आँकड़ों को अलग-अलग किया। * नामकरण परंपराओं का अनुमान: लक्षद्वीप और छत्तीसगढ़ राज्यों के लिए नामों का वितरण उपलब्ध नहीं था। इसलिए, हमने उन राज्यों के आँकड़ों का उपयोग करके अनुमान लगाया जिनकी मातृभाषाएँ इन दोनों से सबसे ज़्यादा मेल खाती हैं। यह इस तथ्य पर आधारित है कि किसी व्यक्ति के नाम पर उसकी मातृभाषा का गहरा प्रभाव पड़ सकता है। ये सभी विस्तार सार्वजनिक डेटा की एक मज़बूत नींव पर बनाए गए हैं। ये ऐसे पर्सोना बनाने में मदद करते हैं जो सांख्यिकीय रूप से सटीक होने के साथ-साथ सांस्कृतिक रूप से भी प्रातिनिधिक हैं, और साथ ही ये सिंथेटिक, गोपनीयता-संरक्षित और ओपन भी रहते हैं। ## Seed Data (स्रोत डेटा) In order to capture the socio-demographic and geographic diversity and complexity of India’s population, Nemotron-Personas-India leveraged the following resources: * [2011 census of India](https://censusindia.gov.in) published by the Registrar General and Census Commissioner of India Indic name distribution data obtained from [Parsed Indian Electoral Rolls](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MUEGDT) provided by [Harvard Dataverse](https://dataverse.harvard.edu/) and [Gaurav Sood](https://dataverse.harvard.edu/dataverse/soodoku). भारत की आबादी की सामाजिक, जनसांख्यिकीय और भौगोलिक विविधता और जटिलता को दर्शाने के लिए, Nemotron-Personas-India ने निम्नलिखित स्रोतों का उपयोग किया: * भारत के रजिस्ट्रार जनरल और जनगणना आयुक्त द्वारा प्रकाशित [भारत की 2011 की जनगणना](https://censusindia.gov.in)। * [हार्वर्ड डेटावर्स](https://dataverse.harvard.edu/) और [गौरव सूद](https://dataverse.harvard.edu/dataverse/soodoku) द्वारा प्रदान की गई [विश्लेषित भारतीय मतदाता सूचियों](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MUEGDT) से प्राप्त भारतीय नामों का वितरण डेटा। ## Schema (संरचना) The dataset includes 27 fields: 7 persona fields and 20 contextual fields shown below. Researchers will find many contextual fields useful in zoning in on specific personas, which is challenging to do with existing datasets. <center> <img src="images/nemotron_personas_india_schema_en.png" width="700px"> </center> इस डेटासेट में नीचे बताए गए 27 फ़ील्ड शामिल हैं: 7 पर्सोना फ़ील्ड और 20 प्रासंगिक फ़ील्ड। शोधकर्ताओं के लिए, कई प्रासंगिक फ़ील्ड खास तरह के पर्सोना पर ध्यान केंद्रित करने में उपयोगी साबित होंगे। मौजूदा डेटासेट के साथ ऐसा करना एक मुश्किल काम है। <center> <img src="images/nemotron_personas_india_schema_hi.png" width="700px"> </center> ## Field & Token Counts (फ़ील्ड और टोकन संख्या) 7.7B tokens (2.9B persona tokens) across 3M records in three scripts (English, Hindi Devanagari, Hindi Latin) and 27 columns, excluding the globally unique identifier. Note that data covers all 36 states and union territories of India as well as 640 districts. तीन लिपियों (अंग्रेज़ी, हिंदी देवनागरी और हिंदी लैटिन) और 27 कॉलम में 30 लाख रिकॉर्ड में कुल 770 करोड़ टोकन (290 करोड़ पर्सोना टोकन सहित) हैं, इसमें विश्व स्तर पर अद्वितीय पहचानकर्ता शामिल नहीं है। ध्यान दें कि इस डेटा में भारत के सभी 36 राज्यों और केंद्र-शासित प्रदेशों के साथ-साथ 640 जिले भी शामिल हैं। <center> <img src="images/nemotron_personas_india_field_stats.png" width="500px"> </center> # Dataset Description & Quality Assessment (डेटासेट विवरण एवं गुणवत्ता मूल्यांकन) The analysis below provides a breakdown across various axes of the dataset to emphasize the built-in diversity and pattern complexity of data. नीचे दिया गया विश्लेषण, डेटा में मौजूद विविधता और पैटर्न की जटिलता पर ज़ोर देने के लिए, डेटासेट के विभिन्न पहलुओं का विवरण देता है। ## Names (नाम) Since the focus of this dataset is on personas, names aren’t provided as dedicated fields. However, infused into persona-generation are 231,685 unique first names and 177,705 unique last names obtained from [Parsed Indian Electoral Rolls](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MUEGDT) provided by [Harvard Dataverse](https://dataverse.harvard.edu/) and [Gaurav Sood](https://dataverse.harvard.edu/dataverse/soodoku). We omit the use of a middle name owing to the complexity in acquiring reliable distributions for this. चूंकि इस डेटासेट का मुख्य फोकस पर्सोना पर है, इसलिए इसमें नामों के लिए अलग से कोई फ़ील्ड नहीं है। हालांकि, पर्सोना बनाते समय इसमें [हार्वर्ड डेटावर्स](https://dataverse.harvard.edu/) और [गौरव सूद](https://dataverse.harvard.edu/dataverse/soodoku) द्वारा प्रदान की गई '[विश्लेषित भारतीय मतदाता सूचियों](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MUEGDT)' से प्राप्त 231,685 अनोखे फर्स्ट नेम और 177,705 अनोखे लास्ट नेम शामिल किए गए हैं। हमने मध्य नाम (middle name) का उपयोग नहीं किया है, क्योंकि इसके लिए भरोसेमंद आँकड़े पाना मुश्किल था। ## Age Distribution (आयु वितरण) The age distribution of our Indian personas mirrors the country’s real demographic structure as of 2011, characterized by a large proportion of young adults. The total population majorly consists of people living in rural areas rather than in urban areas. Note that minors under 18 are excluded from this dataset. हमारे भारतीय पर्सोना की आयु का वितरण, देश की 2011 की वास्तविक जनसांख्यिकीय संरचना को दर्शाता है, जिसमें युवा वयस्कों का अनुपात बहुत बड़ा है। कुल आबादी में ज़्यादातर लोग शहरी इलाकों के बजाय ग्रामीण इलाकों में रहते हैं। ध्यान दें कि 18 साल से कम उम्र के नाबालिगों को इस डेटासेट से बाहर रखा गया है। <center> <img src="images/nemotron_personas_india_age_group_distribution.png" width="600px"> </center> ## Marital Status by Age Group (वैवाहिक स्थिति और आयु वर्ग) The heatmap below displays the fraction of people for each age cohort who are (1) never married, (2) currently married, (3) widowed, (4) separated, or (5) Divorced. It highlights how marital status shifts over the life course in India, with “never married” dominating until only the early 20s, while “currently married” shoots up from the mid 20s to the early 30s, “separated” and “divorced” being flat, and “widowed” being much more pronounced in later life stages. The trends remain the same in both rural and urban regions. All of these considerations are of relevance to informing life experiences and personas in India. नीचे दिया गया चित्र हर आयु वर्ग में लोगों के उस अनुपात को दिखाता है जो (1) अविवाहित हैं, (2) वर्तमान में विवाहित हैं, (3) विधवा/विधुर हैं, (4) अलग रह रहे हैं, या (5) तलाकशुदा हैं। यह दिखाता है कि भारत में जीवन के अलग-अलग पड़ावों पर वैवाहिक स्थिति कैसे बदलती है, जिसमें 'अविवाहित' श्रेणी 20-22 साल की उम्र तक हावी रहती है, जबकि 'वर्तमान में विवाहित' की संख्या 25 से 32-33 साल की उम्र में तेज़ी से बढ़ती है। 'अलग रह रहे' और 'तलाकशुदा' की संख्या लगभग स्थिर रहती है, और 'विधवा/विधुर' श्रेणी जीवन के बाद के चरणों में बहुत अधिक स्पष्ट हो जाती है। ये रुझान ग्रामीण और शहरी दोनों क्षेत्रों में समान रहते हैं। ये सभी पहलू भारत में जीवन के अनुभवों और पर्सोना को समझने के लिए प्रासंगिक हैं। <center> <img src="images/nemotron_personas_india_marital_status_distribution.png" width="600px"> </center> ## Education Level by Age Group (शिक्षा और आयु वर्ग) The heatmap below captures patterns of educational attainment across age cohorts. For example, the proportion of people classified as literate differs between younger age groups and older age groups, reflecting historical shifts in access and in social norms. The contrast in the literacy levels in the older age-groups in rural vs. urban areas is also clearly reflected in personas, with the urban population in the younger age-groups opting to pursue higher education. नीचे दिया गया हीटमैप (heatmap) अलग-अलग आयु वर्गों में शिक्षा के स्तर के पैटर्न को दर्शाता है। उदाहरण के लिए, कम उम्र और ज़्यादा उम्र वाले आयु वर्गों के बीच साक्षर लोगों का अनुपात अलग-अलग है। यह शिक्षा तक पहुँच और सामाजिक मान्यताओं में आए ऐतिहासिक बदलावों को दर्शाता है। ज़्यादा उम्र वाले आयु वर्गों में, ग्रामीण और शहरी इलाकों के बीच साक्षरता के स्तर का यह अंतर पर्सोना में भी साफ़ तौर पर झलकता है। वहीं, युवा आयु वर्ग की शहरी आबादी उच्च शिक्षा को चुन रही है। <center> <img src="images/nemotron_personas_india_education_distribution.png" width="600px"> </center> ## Geographic Intricacies of Education Attainment (शैक्षिक उपलब्धि की भौगोलिक बारीकिया) This slice of our dataset demonstrates how geography informs education and therefore persona descriptions. The choropleth map shows, for each Indian state / union territory, the share of residents ages 25 and older who hold at least a bachelor’s degree. The generated personas also capture the contrast of rural vs. urban regions in each state / UT. No LLM in our testing was able to generate data of this fidelity. हमारे डेटासेट का यह हिस्सा दिखाता है कि किसी जगह का भूगोल वहाँ की शिक्षा को कैसे प्रभावित करता है, और इसी से लोगों के विवरण बनते हैं। यह नक्शा दिखाता है कि भारत के हर राज्य और केंद्र-शासित प्रदेश में, 25 साल से ज़्यादा उम्र के कितने प्रतिशत निवासियों के पास कम-से-कम बैचलर डिग्री है। ये बनाए गए पर्सोना हर राज्य और केंद्र-शासित प्रदेश के ग्रामीण और शहरी इलाकों के बीच का फ़र्क भी साफ़ दिखाते हैं। हमारी टेस्टिंग में कोई भी LLM इतनी सटीक डेटा नहीं बना पाया। <center> <img src="images/nemotron_personas_india_education_map.png" width="700px"> </center> ## Occupational Categories (व्यावसायिक श्रेणियाँ) The treemap below reflects the richness of our dataset with respect to professional occupations of personas, aligned to the categories defined in the National Classification of Occupations - 2004. Represented in our dataset are over 2,900 occupation categories that are further informed by demographic and geographic distributions. This figure only shows basic occupation categories. नीचे दिया गया ट्रीमैप व्यक्तित्वों के व्यावसायिक व्यवसायों के संबंध में हमारे डेटासेट की समृद्धि को दर्शाता है, जो राष्ट्रीय व्यावसायिक वर्गीकरण - 2004 में परिभाषित श्रेणियों के मुताबिक है। हमारे डेटासेट में 2,900 से ज़्यादा व्यावसायिक श्रेणियां हैं जिन्हें जनसांख्यिकीय और भौगोलिक आँकड़ों द्वारा और सूचित किया जाता है। यह आंकड़ा केवल बुनियादी व्यावसायिक श्रेणियों को दिखाता है। <center> <img src="images/nemotron_personas_india_occupation_tree_map.png" width="600px"> </center> ## Persona Diversity (व्यक्तित्व की विविधता) The attributes above (and many more) ultimately affect the diversity of the synthetic personas being generated. As an example, the analysis below highlights a multitude of clusters within professional persona descriptions. These clusters are identified by clustering embeddings and reducing dimensionality to 2D. The largest cluster is representative of the non-working population which includes students, retired workers, and home-makers and the unemployed. We interpret “non-worker” in the census report as “No Occupation”. ऊपर दी गई विशेषताएँ (और कई अन्य) अंततः बनाए जा रहे सिंथेटिक व्यक्तित्वों की विविधता को प्रभावित करती हैं। उदाहरण के लिए, नीचे दिया गया विश्लेषण व्यावसायिक व्यक्तित्व विवरणों के भीतर कई समूहों पर प्रकाश डालता है। इन समूहों की पहचान एम्बेडिंग को क्लस्टर करके और आयामीता को 2D तक कम करके की जाती है। सबसे बड़ा क्लस्टर उस आबादी का प्रतिनिधित्व करता है, जिनके पास नौकरी नहीं है, जिसमें छात्र, सेवानिवृत्त कर्मचारी, गृहणियां और बेरोजगार लोग शामिल हैं। हम जनसांख्यिकीय रिपोर्ट में "non-worker" की व्याख्या "कोई नौकरी नहीं" के रूप में करते हैं। <center> <img src="images/nemotron_personas_india_professional_personas_clustering.png" width="600px"> </center> # How to use it (इसका उपयोग) You can load the dataset with the following lines of code. आप निम्नलिखित लाइनों के साथ डेटासेट लोड कर सकते हैं। ```python from datasets import load_dataset # English personas nemotron_personas_en = load_dataset("nvidia/Nemotron-Personas-India", "en_IN") # Hindi personas in Devanagari nemotron_personas_hi_deva = load_dataset("nvidia/Nemotron-Personas-India", "hi_Deva_IN") # Hindi personas in Latin nemotron_personas_hi_latn = load_dataset("nvidia/Nemotron-Personas-India", "hi_Latn_IN") ``` # Dataset Characterization (डेटासेट की विशेषताएँ) ## Data Collection Method (डेटा संग्रह विधि) * Hybrid: Human, Synthetic, Automated * मिश्रित: मानव, सिंथेटिक, स्वचालित ## Labeling Method (लेबलिंग विधि) * Not Applicable * लागू नहीं ## Dataset Format (डेटासेट प्रारूप) * Text * टेक्स्ट ## Dataset Quantification (डेटासेट की मात्रा) * Record counts: 3M records (21M persona descriptions) * Total data storage: 9.6 GB * रिकॉर्ड संख्या: 30 लाख रिकॉर्ड (2.1 करोड़ पर्सोना विवरण) * कुल डेटा स्टोरेज: 9.6 GB # Ethical Considerations (नैतिक विचार): NVIDIA believes [Trustworthy AI](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications. When downloaded or used in accordance with our terms of service, developers should work with their internal teams to ensure this dataset meets requirements for the relevant industry and use case and addresses unforeseen product misuse. Please report security vulnerabilities or NVIDIA AI concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). NVIDIA का मानना है कि [विश्वसनीय AI](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/) एक साझा ज़िम्मेदारी है और हमने AI अनुप्रयोगों की एक विस्तृत श्रृंखला के विकास को सक्षम करने के लिए नीतियाँ और प्रथाएँ स्थापित की हैं। हमारी सेवा की शर्तों के अनुसार डाउनलोड या उपयोग किए जाने पर, डेवलपर्स को अपनी आंतरिक टीमों के साथ काम करके यह सुनिश्चित करना चाहिए कि यह डेटासेट संबंधित उद्योग और यूज़-केस की आवश्यकताओं को पूरा करता है और उत्पाद के अप्रत्याशित दुरुपयोग को संबोधित करता है। कृपया सुरक्षा संबंधी कमज़ोरियों या NVIDIA AI से संबंधित चिंताओं की रिपोर्ट [यहाँ](https://www.nvidia.com/en-us/support/submit-security-vulnerability/) करें। # Citation (उद्धरण) If you find the data useful, please cite: यदि आपको यह डेटा उपयोगी लगता है, तो कृपया इसे इस प्रकार उद्धृत करें: ``` @software{nvidia/Nemotron-Personas-India, author = {Praveen, Kiran and Vaidya, Utkarsh and Acharya, Evan and Ramaswamy, Lipika and Nathawani, Dhruv and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-India: Synthetic Personas Aligned to Real-World Distributions for India}, month = {October}, year = {2025}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-India} ```

# Nemotron-Personas-India ========================================================================= <center> <img src="images/nemotron_personas_india_approach.png" alt="Nemotron-Personas-India" width="400px"> <p> <em>基于真实世界分布的虚拟人设(personas)复合AI方法</em><br> </p> </center> # 数据集概览(Dataset Overview) Nemotron-Personas-India 是一个开源(CC BY 4.0)的合成虚拟人设(personas)数据集。该数据集基于印度真实的人口统计、地理和人格特质分布,旨在展现印度人口的多样性与丰富性。它是 [Nemotron-Personas](https://huggingface.co/datasets/nvidia/Nemotron-Personas) 的衍生数据集,也是首个贴合印度姓名、性别、年龄、宗教、口语、背景、婚姻状况、教育程度与职业等多维度统计数据的印度本土数据集。该数据集版本提供了高质量的虚拟人设,支持英语和印地语(天城文与拉丁字母两种书写体系)下的多种建模应用场景。 Nemotron-Personas-India 可助力印度模型开发者构建 [主权AI(Sovereign AI)](https://www.nvidia.com/en-us/lp/industries/global-public-sector/sovereign-ai-technical-overview/) 系统,这类系统能够融入重要的区域特定人口统计与文化背景信息。该数据集通过反映印度真实的地理与人口统计分布,提升了合成数据的多样性,缓解了偏差问题,并可防止 [模型坍塌(model collapse)](https://medium.com/data-science/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai-7cd380208d14)(即对其他模型的输出进行未筛选训练所导致的性能退化)。具体而言,与其他虚拟人设数据集相比,本数据集在多个维度上更贴合底层人口统计分布,包括年龄(如老年人设)、地理区域(如乡村人设)、口语、教育程度、职业、宗教身份等。举例来说,我们可以生成包含真实姓名、年龄、职业、文化与教育背景的高质量多轮聊天对话数据,这些元素能为数据带来独特的视角与切入点。 本数据集由用于合成数据生成的企业级复合AI系统 [NeMo Data Designer](https://docs.nvidia.com/nemo/microservices/latest/generate-synthetic-data/index.html) 制作,它利用了专有概率图模型(Probabilistic Graphical Model, PGM)、Apache-2.0许可的GPT-OSS-120B模型,以及内置在Data Designer中的不断扩展的验证器与评估器套件。Nemotron-Personas-India的扩展版本即将在NeMo Data Designer中开放使用。 本数据集可用于商业用途。 # 数据集未包含内容(What is NOT in the dataset) 鉴于本数据集的核心聚焦于虚拟人设,因此它排除了NeMo Data Designer中提供的其他字段,例如名字、姓氏以及合成地址。同时被排除的还有通常与企业客户相关的人设类型(如宗教、金融、医疗相关人设)。如需探索企业级应用场景,请[联系我们](https://www.nvidia.com/en-us/data-center/products/ai-enterprise/contact-sales/)。 尽管所有数据均贴合真实世界分布,但它们完全是人工合成生成的。任何姓名或人设描述与真实人士(无论在世与否)的相似性均纯属巧合。 # 数据开发者(Data Developer):NVIDIA Corporation # 发布日期(Release Date):Hugging Face 2025年10月13日,链接:https://huggingface.co/datasets/nvidia/Nemotron-Personas-India # 数据集创建日期(Dataset Creation Date):2025年10月10日 # 使用许可条款(License/Terms of Use):本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License, CC BY 4.0)授权。 # 应用场景(Use Case):适用于开展主权AI相关工作、训练大语言模型(Large Language Model, LLM),以及希望提升合成数据多样性、缓解数据/模型偏差并防止模型坍塌的开发者。 # 数据版本(Data Version):1.0(2025年10月13日) # 预期用途(Intended Use):Nemotron-Personas-India数据集旨在供社区用于持续改进开源模型并推动技术前沿发展。该数据可自由用于训练任何模型。我们欢迎开源社区的反馈,并邀请开发者、研究人员与数据爱好者探索该数据集并在此基础上开展工作。 本数据集基于印度2011年人口普查中自行上报的人口统计数据分布构建。因此,其主要目标是通过解决当前模型训练数据中存在的数据缺失和/或潜在偏差问题,助力主权AI的开发,尤其是在合成数据生成中使用的现有虚拟人设数据集方面。尽管本数据集在数据多样性与贴合印度人口实际情况方面有所改进,但我们仍受限于数据可用性、当前数据的时效性以及合理的模型复杂度。这导致我们不得不做出一些必要的独立性假设;例如,假设在给定地区、年龄和性别的情况下,职业与教育程度无关。人口普查报告仅提供了26个大类职业的统计数据。我们借助2004年国家职业分类体系(National Classification of Occupations-2004)将这些类别扩展至约3000个详细职业。从大类职业转换为详细职业的统计数据是借助大语言模型(LLM)完成的。我们将进一步提升数据贴合度的工作留待未来完成。 # 数据集详情(Dataset Details) 本数据集包含: * 总计300万条记录,其中100万条为印地语(天城文)、100万条为印地语(拉丁字母)、100万条为英语 * 总计2100万条人设描述,每种语言/书写体系下每条记录对应7个人设 * 排除UUID外共27个字段:7个人设字段(分别对应英语、印地语以及音译印地语),以及20个基于官方人口统计与劳动力统计数据的上下文字段 * 总计约77亿令牌(token),其中约29亿为人设令牌 * 覆盖人口统计、地理与人格特质等多个维度的全面数据 * 约56万个唯一姓名 * 2900余个职业头衔,源自2004年国家职业分类体系,贴合印度劳动力市场情况 * 多种类型的虚拟人设:职业类、语言类、体育类、艺术类、旅行类、美食类 * 自然语言格式的人设属性:文化背景、技能专长、目标抱负、兴趣爱好 Nemotron-Personas-India的设计旨在贴合印度官方人口统计与劳动力统计数据,并将其扩展至AI训练所需的重要领域。具体而言,我们开展了以下工作: * 职业类别:我们利用2004年国家职业分类体系中的细粒度类别扩充了职业统计数据 * 翻译类别:为确保所有字段均可在英语和印地语中使用,我们生成了天城文与拉丁字母两种书写体系下的所有字段,并保持英语/天城文/拉丁字母版本之间的一致性 * 新增邦/地区:特伦甘纳邦(Telangana)于2014年成立,即2011年人口普查报告发布之后。我们追溯了原属安得拉邦并组成特伦甘纳邦的各地区,并利用其下辖地区的统计数据将两个邦的统计数据分开 * 命名惯例推断:拉克沙群岛(Lakshadweep)与恰蒂斯加尔邦(Chhattisgarh)的姓名分布数据不可用。我们通过匹配母语最相似的邦的概率分布来估算这两个邦的姓名分布,这一方法基于母语对个人姓名的影响 这些扩展基于公共数据的坚实基础,有助于生成既符合统计规律又具有文化代表性的虚拟人设,同时保持合成数据的特性、隐私保护性与开源性。 # 源数据(Seed Data): 为展现印度人口的社会人口统计、地理多样性与复杂性,Nemotron-Personas-India利用了以下资源: * 印度注册总署与人口普查专员发布的[2011年印度人口普查](https://censusindia.gov.in) * 从[哈佛数据文库](https://dataverse.harvard.edu/)与[Gaurav Sood](https://dataverse.harvard.edu/dataverse/soodoku)提供的[解析印度选民名册](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MUEGDT)中获取的印度姓名分布数据 # 数据结构(Schema): 本数据集包含27个字段:7个人设字段与20个上下文字段,如下所示。研究人员会发现许多上下文字段可用于精准定位特定人设,这在现有数据集上是颇具挑战性的。 <center> <img src="images/nemotron_personas_india_schema_en.png" width="700px"> </center> # 字段与令牌数量统计(Field & Token Counts): 排除全局唯一标识符(UUID)外,三种书写体系(英语、印地语天城文、印地语拉丁字母)下的300万条记录共包含77亿令牌(其中29亿为人设令牌),分布于27个列中。请注意,本数据覆盖印度全部36个邦与联邦属地以及640个地区。 <center> <img src="images/nemotron_personas_india_field_stats.png" width="500px"> </center> # 数据集描述与质量评估(Dataset Description & Quality Assessment): 以下分析将对数据集的多个维度进行拆解,以突出数据内置的多样性与模式复杂性。 ## 姓名(Names): 由于本数据集的核心聚焦于虚拟人设,因此未设置单独的姓名字段。但在人设生成过程中,我们融入了从[哈佛数据文库](https://dataverse.harvard.edu/)与[Gaurav Sood](https://dataverse.harvard.edu/dataverse/soodoku)提供的[解析印度选民名册](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MUEGDT)中获取的231685个唯一名字与177705个唯一姓氏。由于难以获取可靠的中间名分布数据,因此未使用中间名。 ## 年龄分布(Age Distribution): 我们的印度虚拟人设的年龄分布贴合2011年印度真实的人口结构特征,即年轻成年人占比较高。总人口中大部分居住在农村地区而非城市地区。 请注意,18岁以下的未成年人未被包含在本数据集中。 <center> <img src="images/nemotron_personas_india_age_group_distribution.png" width="600px"> </center> ## 按年龄组划分的婚姻状况(Marital Status by Age Group): 以下热图展示了各年龄组人群的比例分布:(1) 从未结婚,(2) 已婚,(3) 丧偶,(4) 分居,(5) 离婚。该图展现了印度婚姻状况随人生阶段的变化趋势:“从未结婚”在20岁出头之前占主导地位,“已婚”比例从25岁左右开始快速上升至30岁出头,“分居”与“离婚”比例基本持平,而“丧偶”比例在人生后期阶段显著升高。这些趋势在农村与城市地区均保持一致。所有这些特征均与印度人群的人生经历与虚拟人设息息相关。 <center> <img src="images/nemotron_personas_india_marital_status_distribution.png" width="600px"> </center> ## 按年龄组划分的教育水平(Education Level by Age Group): 以下热图展示了各年龄组的教育程度模式。例如,年轻组与老年组的识字率存在差异,这反映了教育获取机会与社会规范的历史变迁。农村与城市地区老年组的识字率差异也在虚拟人设中得到了清晰体现,而年轻组的城市人群更倾向于接受高等教育。 <center> <img src="images/nemotron_personas_india_education_distribution.png" width="600px"> </center> ## 教育程度的地理细节(Geographic Intricacies of Education Attainment): 本数据集的这一部分展示了地理因素如何影响教育水平,进而影响人设描述。以下等值区域图展示了印度各邦与联邦属地中25岁及以上人群中至少拥有学士学位的比例。生成的虚拟人设同时展现了各邦/联邦属地内农村与城市地区的差异。在我们的测试中,没有任何大语言模型能够生成如此贴合真实情况的数据。 <center> <img src="images/nemotron_personas_india_education_map.png" width="700px"> </center> ## 职业类别(Occupational Categories): 以下树状图展现了本数据集在虚拟人设职业方面的丰富性,其分类贴合2004年国家职业分类体系中的定义。本数据集包含超过2900个职业类别,并通过人口统计与地理分布数据进一步细化。本图仅展示了基础职业类别。 <center> <img src="images/nemotron_personas_india_occupation_tree_map.png" width="600px"> </center> ## 虚拟人设多样性(Persona Diversity): 上述属性(以及更多其他属性)最终会影响合成虚拟人设的多样性。例如,以下分析展示了职业类人设描述中的多个聚类。这些聚类通过对嵌入向量进行聚类并将维度降至2维来识别。最大的聚类代表无职业人群,包括学生、退休人员、家庭主妇与失业者。我们将人口普查报告中的“无职业者(non-worker)”解释为“无职业”。 <center> <img src="images/nemotron_personas_india_professional_personas_clustering.png" width="600px"> </center> # 使用方法(How to use it): 您可以通过以下代码加载本数据集: python from datasets import load_dataset # 英语人设 nemotron_personas_en = load_dataset("nvidia/Nemotron-Personas-India", "en_IN") # 天城文印地语人设 nemotron_personas_hi_deva = load_dataset("nvidia/Nemotron-Personas-India", "hi_Deva_IN") # 拉丁字母印地语人设 nemotron_personas_hi_latn = load_dataset("nvidia/Nemotron-Personas-India", "hi_Latn_IN") # 数据集特征(Dataset Characterization): ## 数据收集方法(Data Collection Method):混合方式:人工、合成、自动化 ## 标注方法(Labeling Method):不适用 ## 数据集格式(Dataset Format):文本 ## 数据集规模(Dataset Quantification): * 记录数量:300万条记录(2100万条人设描述) * 总数据存储量:9.6 GB # 伦理考量(Ethical Considerations): NVIDIA认为[可信AI(Trustworthy AI)](https://www.nvidia.com/en-us/ai-data-science/trustworthy-ai/)是一项共同责任,我们已制定政策与实践规范,以支持广泛的AI应用开发。在按照我们的服务条款下载或使用本数据集时,开发者应与其内部团队合作,确保本数据集符合相关行业与应用场景的要求,并解决可能出现的产品滥用问题。 请在此处提交安全漏洞或NVIDIA AI相关问题的报告:[链接](https://www.nvidia.com/en-us/support/submit-security-vulnerability/) # 引用(Citation): 如果您认为本数据集有用,请引用如下内容: @software{nvidia/Nemotron-Personas-India, author = {Praveen, Kiran and Vaidya, Utkarsh and Acharya, Evan and Ramaswamy, Lipika and Nathawani, Dhruv and Corneil, Dane and Meyer, Yev}, title = {{Nemotron-Personas-India: Synthetic Personas Aligned to Real-World Distributions for India}, month = {October}, year = {2025}, url = {https://huggingface.co/datasets/nvidia/Nemotron-Personas-India} }
提供机构:
maas
创建时间:
2025-10-14
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作