five

Nuclear deterrence, education and transformational change

收藏
DataCite Commons2025-06-10 更新2025-04-09 收录
下载链接:
https://dataverse.csuc.cat/citation?persistentId=doi:10.34810/data1870
下载链接
链接失效反馈
官方服务:
资源简介:
<h2>Descripción del Dataset (ES)</h2> <p> El dataset contiene como observaciones documentos publicados en el <strong>Public Register of Documents</strong> del Parlamento Europeo ("https://www.europarl.europa.eu/RegistreWeb/home/welcome.htm"). Cada observación representa un documento específico del Parlamento, identificado por un título, tipo de documento, año de publicación, fecha del documento, autoridades responsables, conceptos clave (Eurovoc), códigos de directorio y otros metadatos descriptivos. Además, se incluye una representación tokenizada de los textos y palabras clave extraídas mediante técnicas de <em>Natural Language Processing</em> (NLP). </p> <h3>Cobertura Temporal</h3> <ul> <li><strong>Período de referencia:</strong> 1994 - 2024</li> <li><strong>Dataset inicial:</strong> 24,502 documentos</li> <li><strong>Dataset filtrado:</strong> 13,759 documentos (publicados después de 2014, disponibles en idioma inglés)</li> </ul> <h3>Fuente</h3> <p><strong>Public Register of Documents</strong> (Parlamento Europeo)</p> <h3>Criterios de Selección</h3> <ul> <li><strong>Palabras clave utilizadas en la búsqueda:</strong> “nuclear deterrence”, npt (Tratado de No Proliferación Nuclear), tpnw (Tratado sobre la Prohibición de Armas Nucleares), “nuclear weapons”. </li> <li><strong>Idioma:</strong> Inglés</li> <li><strong>Fechas de publicación:</strong> Posteriores a 2014</li> </ul> <h3>Estructura del Dataset</h3> <h4>Campos principales</h4> <ul> <li><strong>Title:</strong> Título del documento.</li> <li><strong>Register Reference:</strong> Código único del documento en el registro.</li> <li><strong>Document Type:</strong> Tipo de documento (informes, enmiendas, mociones, etc.).</li> <li><strong>Year:</strong> Año de publicación.</li> <li><strong>Document Date:</strong> Fecha del documento.</li> <li><strong>Authorities:</strong> Entidades responsables del documento.</li> <li><strong>Eurovoc Concept:</strong> Conceptos temáticos clasificados según el tesauro de Eurovoc.</li> <li><strong>Directory Codes y Subject Headings:</strong> Clasificaciones específicas del Parlamento Europeo.</li> <li><strong>File:</strong> Enlace o nombre del archivo asociado al documento.</li> <li><strong>Text, Text_OG y Text_tokenized:</strong> Texto completo, versión original, y versión tokenizada del contenido.</li> <li><strong>Keywords:</strong> Palabras clave generadas mediante los algoritmos KeyBERT y TF-IDF.</li> </ul> <p><strong>Tamaño del Dataset:</strong> 13,800 documentos filtrados.</p> <h3>Metodología</h3> <h4>Procesamiento</h4> <ul> <li>Extracción mediante web scraping.</li> <li>Preprocesamiento y limpieza del texto.</li> <li>Tokenización para análisis lingüístico.</li> </ul> <h4>Análisis</h4> <ul> <li>Identificación de palabras clave con TF-IDF.</li> </ul>
提供机构:
CORA.Repositori de Dades de Recerca
创建时间:
2024-11-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作