apol/demoverse-personas-es-v1
收藏Hugging Face2026-03-19 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/apol/demoverse-personas-es-v1
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- es
license: cc-by-4.0
pretty_name: DemoVerse Personas ES v0.1
size_categories:
- 100K<n<1M
task_categories:
- text-classification
- tabular-classification
tags:
- synthetic
- personas
- political-simulation
- spain
- spanish
- tabular
- social-science
- public-opinion
- prospective
- sociology
configs:
- config_name: public
data_files:
- split: train
path:
- demoverse_personas_es_v1_public_100k.jsonl.gz
- split: sample
path:
- demoverse_personas_es_v1_public_sample_250.jsonl
- config_name: simulation
data_files:
- split: train
path:
- demoverse_personas_es_v1_simulation_100k.jsonl.gz
---
# Dataset Card for DemoVerse Personas ES v1
## Resumen del dataset
`demoverse-personas-es-v1` es un dataset de 100.000 personas sinteticas en espanol para Espana, disenado como artefacto publico y como capa operativa para simulacion sociológica.
El dataset se inspira metodologicamente en `nvidia/Nemotron-Personas-France`, pero no reutiliza sus filas ni intenta replicar la poblacion francesa. La adaptacion reescribe el marco para Espana, con clivajes territoriales, sistema de partidos, turnout, identidad territorial y variables compatibles con runtime de agentes de simulación y prospectiva.
## Contenido del repo
Este dataset de Hugging Face incluye:
- `demoverse_personas_es_v1_public_100k.jsonl.gz`
- `demoverse_personas_es_v1_simulation_100k.jsonl.gz`
- `demoverse_personas_es_v1_public_sample_250.jsonl`
- `demoverse_personas_es_v1_summary.json`
- `manifest.json`
- `schema.public.json`
- `schema.simulation.json`
- `sources.json`
- `METHODOLOGY.md`
- `scripts/generate-demoverse-personas-es.mjs`
## Motivacion
El objetivo del dataset es resolver dos necesidades distintas:
- disponer de un artefacto compatible y legible por humanos para demos, comunicacion y analisis exploratorio
- disponer de una capa sintetica directamente convertible a `Agent[]` para simulacion, escenarios y proyecciones
## Composicion
El artefacto contiene dos capas:
- `public`: representacion legible y narrativa de cada persona sintetica
- `simulation`: representacion normalizada para el motor de agentes
## Proceso de creacion
Pipeline resumido:
1. Definicion de priors por comunidad autonoma, edad, educacion, ingresos, urbanicidad y voto.
2. Muestreo reproducible con semilla fija.
3. Generacion condicionada de atributos demograficos, socioeconomicos y politicos.
4. Calculo de rasgos latentes para simulacion: ideologia, identidad territorial, issue salience, media trust y turnout.
5. Calibracion regional de afinidad partidista y turnout agregado.
6. Serializacion final en dos esquemas.
## Fuentes
Fuentes metodologicas y estadisticas incluidas en `sources.json`:
- NVIDIA Nemotron-Personas-France
- NVIDIA NeMo Data Designer
- INE: censo anual, EPA y nombres/apellidos frecuentes
- CIS: barometro mensual
- Literatura sobre MRP, turnout y validacion de modelos agent-based
- Literatura critica sobre el uso de LLMs como sustitutos de encuesta
## Variables principales
Capa `public`:
- nombre, apellidos, genero, edad, generacion
- comunidad autonoma, provincia, habitat, tamano de municipio
- educacion, situacion laboral, ingresos del hogar, vivienda
- idioma habitual, religiosidad, transporte, intereses, perfil narrativo
- ideologia, identidad territorial, prioridades politicas, afinidad partidista, propension al voto
Capa `simulation`:
- `age`, `ageGroup`, `gender`, `region`
- `education`, `income`, `urbanRural`
- `politicalLeaning`, `socialLeaning`, `economicLeaning`
- `personality`, `convictionStrength`, `partySupport`, `preferredParty`
- `issueStances`, `issueSalience`, `influenceability`
- `mediaConsumption`, `trustInMedia`, `turnoutProbability`
## Usos previstos
Usos permitidos y recomendados:
- simulacion prospectiva y de opinion publica
- prototipos de UX y data storytelling
- validacion de pipelines de segmentacion y proyeccion
- demos publicas de producto donde no se deban exponer microdatos reales
## Usos no recomendados
No usar este dataset para:
- inferir comportamiento real de una persona concreta
- sustituir encuestas, censos o microdatos observados
- presentar sus distribuciones como verdad empirica directa
- entrenar modelos para clasificacion sensible de personas reales sin evaluacion adicional
## Limitaciones y sesgos
- La representatividad es distribucional, no individual.
- Los nombres y apellidos son sinteticos y sirven para legibilidad, no para realismo registral exhaustivo.
- Las afinidades partidistas son variables calibradas para simulacion, no estimaciones oficiales.
- Parte de la estructura politica y territorial se apoya en simplificaciones utiles para producto.
- El dataset conserva los sesgos del marco estadistico y de diseno usados para construir sus priors.
## Consideraciones eticas
La capa sintetica se concibe como complemento operacional de una capa de evidencia, no como sustituto de observacion humana. DemoVerse mantiene como principio que la evidencia observada es soberana y que la capa de personas sinteticas solo sirve para exploracion, comunicacion y simulacion controlada.
## Licencia
Estado actual: cc-by-4.0 (heredada de Nemotron-Personas-France).
## Reproducibilidad
Generacion local:
```bash
node scripts/generate-demoverse-personas-es.mjs --count 100000 --sample-count 250 --seed demoverse-personas-es-v1
```
## Contacto y mantenimiento
Proyecto: DemoVerse
[@apol](https://huggingface.co/apol)
Estado del artefacto: `v1`, preparado como entrega publica inicial y base para futuras iteraciones.
提供机构:
apol



