Nuclear deterrence, education and transformational change
收藏DataCite Commons2025-06-10 更新2025-04-09 收录
下载链接:
https://dataverse.csuc.cat/citation?persistentId=doi:10.34810/data1870
下载链接
链接失效反馈官方服务:
资源简介:
<h2>Descripción del Dataset (ES)</h2>
<p>
El dataset contiene como observaciones documentos publicados en el
<strong>Public Register of Documents</strong> del Parlamento Europeo ("https://www.europarl.europa.eu/RegistreWeb/home/welcome.htm"). Cada observación representa un documento
específico del Parlamento, identificado por un título, tipo de documento, año de publicación, fecha del documento,
autoridades responsables, conceptos clave (Eurovoc), códigos de directorio y otros metadatos descriptivos.
Además, se incluye una representación tokenizada de los textos y palabras clave extraídas mediante técnicas de
<em>Natural Language Processing</em> (NLP).
</p>
<h3>Cobertura Temporal</h3>
<ul>
<li><strong>Período de referencia:</strong> 1994 - 2024</li>
<li><strong>Dataset inicial:</strong> 24,502 documentos</li>
<li><strong>Dataset filtrado:</strong> 13,759 documentos (publicados después de 2014, disponibles en idioma inglés)</li>
</ul>
<h3>Fuente</h3>
<p><strong>Public Register of Documents</strong> (Parlamento Europeo)</p>
<h3>Criterios de Selección</h3>
<ul>
<li><strong>Palabras clave utilizadas en la búsqueda:</strong>
“nuclear deterrence”, npt (Tratado de No Proliferación Nuclear), tpnw (Tratado sobre la Prohibición de Armas Nucleares),
“nuclear weapons”.
</li>
<li><strong>Idioma:</strong> Inglés</li>
<li><strong>Fechas de publicación:</strong> Posteriores a 2014</li>
</ul>
<h3>Estructura del Dataset</h3>
<h4>Campos principales</h4>
<ul>
<li><strong>Title:</strong> Título del documento.</li>
<li><strong>Register Reference:</strong> Código único del documento en el registro.</li>
<li><strong>Document Type:</strong> Tipo de documento (informes, enmiendas, mociones, etc.).</li>
<li><strong>Year:</strong> Año de publicación.</li>
<li><strong>Document Date:</strong> Fecha del documento.</li>
<li><strong>Authorities:</strong> Entidades responsables del documento.</li>
<li><strong>Eurovoc Concept:</strong> Conceptos temáticos clasificados según el tesauro de Eurovoc.</li>
<li><strong>Directory Codes y Subject Headings:</strong> Clasificaciones específicas del Parlamento Europeo.</li>
<li><strong>File:</strong> Enlace o nombre del archivo asociado al documento.</li>
<li><strong>Text, Text_OG y Text_tokenized:</strong> Texto completo, versión original, y versión tokenizada del contenido.</li>
<li><strong>Keywords:</strong> Palabras clave generadas mediante los algoritmos KeyBERT y TF-IDF.</li>
</ul>
<p><strong>Tamaño del Dataset:</strong> 13,800 documentos filtrados.</p>
<h3>Metodología</h3>
<h4>Procesamiento</h4>
<ul>
<li>Extracción mediante web scraping.</li>
<li>Preprocesamiento y limpieza del texto.</li>
<li>Tokenización para análisis lingüístico.</li>
</ul>
<h4>Análisis</h4>
<ul>
<li>Identificación de palabras clave con TF-IDF.</li>
</ul>
提供机构:
CORA.Repositori de Dades de Recerca
创建时间:
2024-11-21



