five

umsa-v1/dataset_parafraseado_grupo1

收藏
Hugging Face2026-02-07 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/umsa-v1/dataset_parafraseado_grupo1
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - text-generation - question-answering - conversational language: - es tags: - legal - gdpr - rgpd - data-protection - privacy - eu-regulation - paraphrased - instruction-following - knowledge-distillation - academic size_categories: - n<1K pretty_name: "Dataset Parafraseado RGPD - Grupo 1" --- --- ## 👥 Equipo - Grupo 1 ### Integrantes | Nombre | |--------| | Chipana Wariste, Ronald Humberto | | Mamani Huanca, Noemi Marisol | | Mamani Mena, Luz Alizon | | Oyardo Acuña, Roni Edwin | | Ordoñez Marca, Marco Vladimir | | Quino Jiménez, Víctor Daniel | | Soto Palli, Ever Alcides | --- ## 🎓 Contexto Académico **Maestría en Inteligencia Artificial y Data Science para la Transformación de Negocios** - 🏛️ **Institución**: Postgrado de Informática - 📚 **Módulo**: Modelamiento de Datos II - 👨‍🏫 **Docente**: Prof. Anvi Alex Eponon - 📅 **Año**: 2024 --- # 📚 dataset_parafraseado_grupo1 <div align="center"> [![License: CC BY 4.0](https://img.shields.io/badge/License-CC%20BY%204.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) [![Language](https://img.shields.io/badge/Language-Spanish-green.svg)](https://www.w3.org/International/questions/qa-lang-2or3.es) [![Domain](https://img.shields.io/badge/Domain-Legal%20AI-blue.svg)](https://eur-lex.europa.eu/eli/reg/2016/679/oj) **Dataset académico para entrenamiento de modelos especializados en RGPD/GDPR** Grupo 1 | Modelamiento de Datos II </div> --- ## 📖 Descripción **dataset_parafraseado_grupo1** es un conjunto de datos construido a partir del texto oficial del **Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo** (Reglamento General de Protección de Datos - RGPD). ### 📜 Fuente Original - **Documento**: Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo - **Fecha**: 27 de abril de 2016 - **Publicación**: Diario Oficial de la Unión Europea, 4.5.2016 ES L 119/1 – L 119/4 - **Ámbito**: Texto pertinente a efectos del Espacio Económico Europeo (EEE) --- ## 🎯 Objetivo y Aplicaciones Este dataset fue creado específicamente para: ### Técnicas de Entrenamiento - ✅ **Supervised Fine-Tuning (SFT)** - ✅ **LoRA** (Low-Rank Adaptation) - ✅ **QLoRA** (Quantized LoRA) - ✅ **Knowledge Distillation** (Teacher-Student) ### Capacidades del Modelo - 🎓 Mantener coherencia jurídica - 🇪🇸 Responder en español técnico-legal - 🎯 Reducir alucinaciones - ⚖️ Preservar fidelidad normativa - 📊 Reducción de parámetros manteniendo razonamiento legal --- ## 🔄 Proceso de Creación ### Pipeline de Procesamiento ``` 1. Extracción ├─ Texto oficial PDF del RGPD └─ Extracción de contenido estructurado 2. Limpieza ├─ Eliminación de formato ├─ Normalización de texto └─ Segmentación por artículos 3. Estructuración ├─ Segmentación por considerandos ├─ Segmentación por artículos └─ Unidades semánticas coherentes 4. Parafraseo Controlado ├─ Preservación terminología jurídica ├─ Mantenimiento precisión conceptual ├─ Conservación fidelidad normativa └─ Aumento diversidad lingüística 5. Formateo ├─ Conversión a formato JSONL ├─ Estructura instruction-following └─ Preparación para entrenamiento ``` ### Principios del Parafraseo El parafraseo se realizó manteniendo: - ⚖️ **Terminología jurídica** exacta - 🎯 **Precisión conceptual** del reglamento - 📜 **Fidelidad normativa** al texto original - 🌐 **Diversidad lingüística** para mejor generalización --- ## 🏗️ Estructura del Dataset ### Formato JSONL Cada entrada sigue el formato de instrucción: ```json { "instruction": "Explica el principio de protección de datos según el RGPD.", "input": "", "output": "Respuesta técnica basada en el texto parafraseado del reglamento." } ``` ### Formato Chat Alternativo También compatible con formato conversacional: ```json { "messages": [ { "role": "user", "content": "¿Cuáles son los derechos de los interesados?" }, { "role": "assistant", "content": "Los derechos de los interesados incluyen..." } ] } ``` ### Características Técnicas | Característica | Detalle | |---------------|---------| | **Idioma** | Español técnico-legal | | **Dominio** | Derecho Europeo - Protección de Datos | | **Tipo de tarea** | Instruction Following / QA | | **Contexto recomendado** | 512 tokens | | **Splits** | train, validation | | **Formato** | JSONL | --- ## 🧠 Uso en Knowledge Distillation ### Pipeline Teacher-Student Este dataset es fundamental en el esquema de destilación: ``` ┌─────────────────────────────────┐ │ Teacher Model (Qwen2.5-0.5B) │ │ Genera respuestas de alta │ │ calidad usando este dataset │ └────────────────┬────────────────┘ │ │ Knowledge Transfer ▼ ┌─────────────────────────────────┐ │ Student Model (SmolLM2-135M) │ │ Aprende del Teacher usando │ │ versiones parafraseadas │ └─────────────────────────────────┘ ``` ### Proceso de Destilación 1. **Teacher** genera respuestas jurídicas de alta calidad 2. Se crean **versiones parafraseadas** del contenido 3. **Student** (SmolLM2-135M-Instruct) es entrenado con estos datos 4. Se evalúa **consistencia** y **reducción de tamaño** ### Beneficios | Métrica | Mejora | |---------|--------| | **Parámetros** | 0.5B → 135M (73% reducción) | | **Razonamiento legal** | Especializado y coherente | | **Eficiencia computacional** | Mayor velocidad de inferencia | | **Despliegue** | Modelos más ligeros | --- ## 🚀 Uso del Dataset ### Cargar el Dataset ```python from datasets import load_dataset # Cargar dataset completo dataset = load_dataset("umsa-v1/dataset_parafraseado_grupo1") # Ver estructura print(dataset) # Acceder a splits train_data = dataset["train"] val_data = dataset["validation"] # Ver ejemplo print(train_data[0]) ``` ### Preparar para SFT ```python from datasets import load_dataset dataset = load_dataset("umsa-v1/dataset_parafraseado_grupo1") # Formatear para entrenamiento def format_instruction(example): return { "text": f"### Instrucción:\n{example['instruction']}\n\n### Respuesta:\n{example['output']}" } formatted_dataset = dataset.map(format_instruction) ``` ### Usar con TRL ```python from trl import SFTTrainer, SFTConfig from datasets import load_dataset dataset = load_dataset("umsa-v1/dataset_parafraseado_grupo1") training_args = SFTConfig( output_dir="./results", num_train_epochs=3, per_device_train_batch_size=4, dataset_text_field="text" ) trainer = SFTTrainer( model=model, args=training_args, train_dataset=dataset["train"], eval_dataset=dataset["validation"] ) trainer.train() ``` --- ## ⚠️ Limitaciones ### Alcance del Contenido - ❌ Dataset **limitado** al contenido del RGPD - ❌ **No incluye** interpretación doctrinal externa - ❌ **No incluye** jurisprudencia del TJUE - ❌ **No incluye** normativa nacional complementaria ### Uso Apropiado - ✅ Entrenamiento de modelos de IA - ✅ Investigación académica - ✅ Experimentación con LLMs - ❌ **NO** reemplaza asesoría jurídica profesional - ❌ **NO** para uso en producción legal sin validación ### Consideraciones Éticas - 📚 Construido con fines **académicos** y **experimentales** - ⚖️ Los modelos entrenados deben ser **validados** por expertos legales - 🔍 Se recomienda **revisión humana** de todas las salidas - 📋 **Disclaimer legal** obligatorio en aplicaciones --- ## 📄 Licencia ### Dataset - **Licencia**: Creative Commons Attribution 4.0 International (CC BY 4.0) - **Uso**: Académico e investigación - **Atribución**: Requerida ### Texto Normativo El contenido base (RGPD) es un documento oficial de la Unión Europea. Se recomienda verificar las condiciones de reutilización del texto normativo según: - [Portal EUR-Lex](https://eur-lex.europa.eu/) - Legislación europea vigente sobre reutilización de información del sector público --- ## 📚 Referencias ### Documentación Legal - [Reglamento (UE) 2016/679 - Texto Completo](https://eur-lex.europa.eu/eli/reg/2016/679/oj) - [EUR-Lex - Portal de Legislación UE](https://eur-lex.europa.eu/) - [EDPB - European Data Protection Board](https://edpb.europa.eu/) ### Modelos Entrenados con este Dataset - [Qwen2.5-0.5B-RGPD (Teacher Model)](https://huggingface.co/) - Grupo 1 - [SmolLM2-135M-RGPD (Student Model)](https://huggingface.co/) - Grupo 1 --- <div align="center"> **Desarrollado con ❤️ por el Grupo 1** *Maestría en IA y Data Science para la Transformación de Negocios* 📚 RGPD Dataset • Knowledge Distillation • Legal AI --- **⚖️ Este dataset es solo para fines académicos y de investigación** **No reemplaza asesoría legal profesional** </div>
提供机构:
umsa-v1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作