umsa-v1/dataset_parafraseado_grupo1
收藏Hugging Face2026-02-07 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/umsa-v1/dataset_parafraseado_grupo1
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- text-generation
- question-answering
- conversational
language:
- es
tags:
- legal
- gdpr
- rgpd
- data-protection
- privacy
- eu-regulation
- paraphrased
- instruction-following
- knowledge-distillation
- academic
size_categories:
- n<1K
pretty_name: "Dataset Parafraseado RGPD - Grupo 1"
---
---
## 👥 Equipo - Grupo 1
### Integrantes
| Nombre |
|--------|
| Chipana Wariste, Ronald Humberto |
| Mamani Huanca, Noemi Marisol |
| Mamani Mena, Luz Alizon |
| Oyardo Acuña, Roni Edwin |
| Ordoñez Marca, Marco Vladimir |
| Quino Jiménez, Víctor Daniel |
| Soto Palli, Ever Alcides |
---
## 🎓 Contexto Académico
**Maestría en Inteligencia Artificial y Data Science para la Transformación de Negocios**
- 🏛️ **Institución**: Postgrado de Informática
- 📚 **Módulo**: Modelamiento de Datos II
- 👨🏫 **Docente**: Prof. Anvi Alex Eponon
- 📅 **Año**: 2024
---
# 📚 dataset_parafraseado_grupo1
<div align="center">
[](https://creativecommons.org/licenses/by/4.0/)
[](https://www.w3.org/International/questions/qa-lang-2or3.es)
[](https://eur-lex.europa.eu/eli/reg/2016/679/oj)
**Dataset académico para entrenamiento de modelos especializados en RGPD/GDPR**
Grupo 1 | Modelamiento de Datos II
</div>
---
## 📖 Descripción
**dataset_parafraseado_grupo1** es un conjunto de datos construido a partir del texto oficial del **Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo** (Reglamento General de Protección de Datos - RGPD).
### 📜 Fuente Original
- **Documento**: Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo
- **Fecha**: 27 de abril de 2016
- **Publicación**: Diario Oficial de la Unión Europea, 4.5.2016 ES L 119/1 – L 119/4
- **Ámbito**: Texto pertinente a efectos del Espacio Económico Europeo (EEE)
---
## 🎯 Objetivo y Aplicaciones
Este dataset fue creado específicamente para:
### Técnicas de Entrenamiento
- ✅ **Supervised Fine-Tuning (SFT)**
- ✅ **LoRA** (Low-Rank Adaptation)
- ✅ **QLoRA** (Quantized LoRA)
- ✅ **Knowledge Distillation** (Teacher-Student)
### Capacidades del Modelo
- 🎓 Mantener coherencia jurídica
- 🇪🇸 Responder en español técnico-legal
- 🎯 Reducir alucinaciones
- ⚖️ Preservar fidelidad normativa
- 📊 Reducción de parámetros manteniendo razonamiento legal
---
## 🔄 Proceso de Creación
### Pipeline de Procesamiento
```
1. Extracción
├─ Texto oficial PDF del RGPD
└─ Extracción de contenido estructurado
2. Limpieza
├─ Eliminación de formato
├─ Normalización de texto
└─ Segmentación por artículos
3. Estructuración
├─ Segmentación por considerandos
├─ Segmentación por artículos
└─ Unidades semánticas coherentes
4. Parafraseo Controlado
├─ Preservación terminología jurídica
├─ Mantenimiento precisión conceptual
├─ Conservación fidelidad normativa
└─ Aumento diversidad lingüística
5. Formateo
├─ Conversión a formato JSONL
├─ Estructura instruction-following
└─ Preparación para entrenamiento
```
### Principios del Parafraseo
El parafraseo se realizó manteniendo:
- ⚖️ **Terminología jurídica** exacta
- 🎯 **Precisión conceptual** del reglamento
- 📜 **Fidelidad normativa** al texto original
- 🌐 **Diversidad lingüística** para mejor generalización
---
## 🏗️ Estructura del Dataset
### Formato JSONL
Cada entrada sigue el formato de instrucción:
```json
{
"instruction": "Explica el principio de protección de datos según el RGPD.",
"input": "",
"output": "Respuesta técnica basada en el texto parafraseado del reglamento."
}
```
### Formato Chat Alternativo
También compatible con formato conversacional:
```json
{
"messages": [
{
"role": "user",
"content": "¿Cuáles son los derechos de los interesados?"
},
{
"role": "assistant",
"content": "Los derechos de los interesados incluyen..."
}
]
}
```
### Características Técnicas
| Característica | Detalle |
|---------------|---------|
| **Idioma** | Español técnico-legal |
| **Dominio** | Derecho Europeo - Protección de Datos |
| **Tipo de tarea** | Instruction Following / QA |
| **Contexto recomendado** | 512 tokens |
| **Splits** | train, validation |
| **Formato** | JSONL |
---
## 🧠 Uso en Knowledge Distillation
### Pipeline Teacher-Student
Este dataset es fundamental en el esquema de destilación:
```
┌─────────────────────────────────┐
│ Teacher Model (Qwen2.5-0.5B) │
│ Genera respuestas de alta │
│ calidad usando este dataset │
└────────────────┬────────────────┘
│
│ Knowledge Transfer
▼
┌─────────────────────────────────┐
│ Student Model (SmolLM2-135M) │
│ Aprende del Teacher usando │
│ versiones parafraseadas │
└─────────────────────────────────┘
```
### Proceso de Destilación
1. **Teacher** genera respuestas jurídicas de alta calidad
2. Se crean **versiones parafraseadas** del contenido
3. **Student** (SmolLM2-135M-Instruct) es entrenado con estos datos
4. Se evalúa **consistencia** y **reducción de tamaño**
### Beneficios
| Métrica | Mejora |
|---------|--------|
| **Parámetros** | 0.5B → 135M (73% reducción) |
| **Razonamiento legal** | Especializado y coherente |
| **Eficiencia computacional** | Mayor velocidad de inferencia |
| **Despliegue** | Modelos más ligeros |
---
## 🚀 Uso del Dataset
### Cargar el Dataset
```python
from datasets import load_dataset
# Cargar dataset completo
dataset = load_dataset("umsa-v1/dataset_parafraseado_grupo1")
# Ver estructura
print(dataset)
# Acceder a splits
train_data = dataset["train"]
val_data = dataset["validation"]
# Ver ejemplo
print(train_data[0])
```
### Preparar para SFT
```python
from datasets import load_dataset
dataset = load_dataset("umsa-v1/dataset_parafraseado_grupo1")
# Formatear para entrenamiento
def format_instruction(example):
return {
"text": f"### Instrucción:\n{example['instruction']}\n\n### Respuesta:\n{example['output']}"
}
formatted_dataset = dataset.map(format_instruction)
```
### Usar con TRL
```python
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
dataset = load_dataset("umsa-v1/dataset_parafraseado_grupo1")
training_args = SFTConfig(
output_dir="./results",
num_train_epochs=3,
per_device_train_batch_size=4,
dataset_text_field="text"
)
trainer = SFTTrainer(
model=model,
args=training_args,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"]
)
trainer.train()
```
---
## ⚠️ Limitaciones
### Alcance del Contenido
- ❌ Dataset **limitado** al contenido del RGPD
- ❌ **No incluye** interpretación doctrinal externa
- ❌ **No incluye** jurisprudencia del TJUE
- ❌ **No incluye** normativa nacional complementaria
### Uso Apropiado
- ✅ Entrenamiento de modelos de IA
- ✅ Investigación académica
- ✅ Experimentación con LLMs
- ❌ **NO** reemplaza asesoría jurídica profesional
- ❌ **NO** para uso en producción legal sin validación
### Consideraciones Éticas
- 📚 Construido con fines **académicos** y **experimentales**
- ⚖️ Los modelos entrenados deben ser **validados** por expertos legales
- 🔍 Se recomienda **revisión humana** de todas las salidas
- 📋 **Disclaimer legal** obligatorio en aplicaciones
---
## 📄 Licencia
### Dataset
- **Licencia**: Creative Commons Attribution 4.0 International (CC BY 4.0)
- **Uso**: Académico e investigación
- **Atribución**: Requerida
### Texto Normativo
El contenido base (RGPD) es un documento oficial de la Unión Europea. Se recomienda verificar las condiciones de reutilización del texto normativo según:
- [Portal EUR-Lex](https://eur-lex.europa.eu/)
- Legislación europea vigente sobre reutilización de información del sector público
---
## 📚 Referencias
### Documentación Legal
- [Reglamento (UE) 2016/679 - Texto Completo](https://eur-lex.europa.eu/eli/reg/2016/679/oj)
- [EUR-Lex - Portal de Legislación UE](https://eur-lex.europa.eu/)
- [EDPB - European Data Protection Board](https://edpb.europa.eu/)
### Modelos Entrenados con este Dataset
- [Qwen2.5-0.5B-RGPD (Teacher Model)](https://huggingface.co/) - Grupo 1
- [SmolLM2-135M-RGPD (Student Model)](https://huggingface.co/) - Grupo 1
---
<div align="center">
**Desarrollado con ❤️ por el Grupo 1**
*Maestría en IA y Data Science para la Transformación de Negocios*
📚 RGPD Dataset • Knowledge Distillation • Legal AI
---
**⚖️ Este dataset es solo para fines académicos y de investigación**
**No reemplaza asesoría legal profesional**
</div>
提供机构:
umsa-v1



