five

apol/demoverse-personas-es-v1

收藏
Hugging Face2026-03-19 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/apol/demoverse-personas-es-v1
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - es license: cc-by-4.0 pretty_name: DemoVerse Personas ES v0.1 size_categories: - 100K<n<1M task_categories: - text-classification - tabular-classification tags: - synthetic - personas - political-simulation - spain - spanish - tabular - social-science - public-opinion - prospective - sociology configs: - config_name: public data_files: - split: train path: - demoverse_personas_es_v1_public_100k.jsonl.gz - split: sample path: - demoverse_personas_es_v1_public_sample_250.jsonl - config_name: simulation data_files: - split: train path: - demoverse_personas_es_v1_simulation_100k.jsonl.gz --- # Dataset Card for DemoVerse Personas ES v1 ## Resumen del dataset `demoverse-personas-es-v1` es un dataset de 100.000 personas sinteticas en espanol para Espana, disenado como artefacto publico y como capa operativa para simulacion sociológica. El dataset se inspira metodologicamente en `nvidia/Nemotron-Personas-France`, pero no reutiliza sus filas ni intenta replicar la poblacion francesa. La adaptacion reescribe el marco para Espana, con clivajes territoriales, sistema de partidos, turnout, identidad territorial y variables compatibles con runtime de agentes de simulación y prospectiva. ## Contenido del repo Este dataset de Hugging Face incluye: - `demoverse_personas_es_v1_public_100k.jsonl.gz` - `demoverse_personas_es_v1_simulation_100k.jsonl.gz` - `demoverse_personas_es_v1_public_sample_250.jsonl` - `demoverse_personas_es_v1_summary.json` - `manifest.json` - `schema.public.json` - `schema.simulation.json` - `sources.json` - `METHODOLOGY.md` - `scripts/generate-demoverse-personas-es.mjs` ## Motivacion El objetivo del dataset es resolver dos necesidades distintas: - disponer de un artefacto compatible y legible por humanos para demos, comunicacion y analisis exploratorio - disponer de una capa sintetica directamente convertible a `Agent[]` para simulacion, escenarios y proyecciones ## Composicion El artefacto contiene dos capas: - `public`: representacion legible y narrativa de cada persona sintetica - `simulation`: representacion normalizada para el motor de agentes ## Proceso de creacion Pipeline resumido: 1. Definicion de priors por comunidad autonoma, edad, educacion, ingresos, urbanicidad y voto. 2. Muestreo reproducible con semilla fija. 3. Generacion condicionada de atributos demograficos, socioeconomicos y politicos. 4. Calculo de rasgos latentes para simulacion: ideologia, identidad territorial, issue salience, media trust y turnout. 5. Calibracion regional de afinidad partidista y turnout agregado. 6. Serializacion final en dos esquemas. ## Fuentes Fuentes metodologicas y estadisticas incluidas en `sources.json`: - NVIDIA Nemotron-Personas-France - NVIDIA NeMo Data Designer - INE: censo anual, EPA y nombres/apellidos frecuentes - CIS: barometro mensual - Literatura sobre MRP, turnout y validacion de modelos agent-based - Literatura critica sobre el uso de LLMs como sustitutos de encuesta ## Variables principales Capa `public`: - nombre, apellidos, genero, edad, generacion - comunidad autonoma, provincia, habitat, tamano de municipio - educacion, situacion laboral, ingresos del hogar, vivienda - idioma habitual, religiosidad, transporte, intereses, perfil narrativo - ideologia, identidad territorial, prioridades politicas, afinidad partidista, propension al voto Capa `simulation`: - `age`, `ageGroup`, `gender`, `region` - `education`, `income`, `urbanRural` - `politicalLeaning`, `socialLeaning`, `economicLeaning` - `personality`, `convictionStrength`, `partySupport`, `preferredParty` - `issueStances`, `issueSalience`, `influenceability` - `mediaConsumption`, `trustInMedia`, `turnoutProbability` ## Usos previstos Usos permitidos y recomendados: - simulacion prospectiva y de opinion publica - prototipos de UX y data storytelling - validacion de pipelines de segmentacion y proyeccion - demos publicas de producto donde no se deban exponer microdatos reales ## Usos no recomendados No usar este dataset para: - inferir comportamiento real de una persona concreta - sustituir encuestas, censos o microdatos observados - presentar sus distribuciones como verdad empirica directa - entrenar modelos para clasificacion sensible de personas reales sin evaluacion adicional ## Limitaciones y sesgos - La representatividad es distribucional, no individual. - Los nombres y apellidos son sinteticos y sirven para legibilidad, no para realismo registral exhaustivo. - Las afinidades partidistas son variables calibradas para simulacion, no estimaciones oficiales. - Parte de la estructura politica y territorial se apoya en simplificaciones utiles para producto. - El dataset conserva los sesgos del marco estadistico y de diseno usados para construir sus priors. ## Consideraciones eticas La capa sintetica se concibe como complemento operacional de una capa de evidencia, no como sustituto de observacion humana. DemoVerse mantiene como principio que la evidencia observada es soberana y que la capa de personas sinteticas solo sirve para exploracion, comunicacion y simulacion controlada. ## Licencia Estado actual: cc-by-4.0 (heredada de Nemotron-Personas-France). ## Reproducibilidad Generacion local: ```bash node scripts/generate-demoverse-personas-es.mjs --count 100000 --sample-count 250 --seed demoverse-personas-es-v1 ``` ## Contacto y mantenimiento Proyecto: DemoVerse [@apol](https://huggingface.co/apol) Estado del artefacto: `v1`, preparado como entrega publica inicial y base para futuras iteraciones.
提供机构:
apol
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作