NOS_Museistico-Patrimonio. Corpus de dominio museístico y patrimonio.
收藏Zenodo2026-04-24 更新2026-05-26 收录
下载链接:
https://zenodo.org/doi/10.5281/zenodo.17941014
下载链接
链接失效反馈官方服务:
资源简介:
Aviso sobre actualizaciones / Aviso sobre actualizacións / Update notice
(ES)
Una versión actualizada de Corpus museístico-patrimonio está disponible en Hugging Face: https://huggingface.co/datasets/proxectonos/corpus_dominio_museistico_patrimonio
Las futuras actualizaciones, correcciones y versiones ampliadas del corpus se publicarán principalmente a través del repositorio de Hugging Face. Este registro de Zenodo se mantiene con fines de archivo y citación, pero se recomienda a las personas usuarias consultar la versión de Hugging Face para acceder a la publicación más reciente.
(GL)
Unha versión actualizada de Corpus museístico-patrimonio está dispoñible en Hugging Face: https://huggingface.co/datasets/proxectonos/corpus_dominio_museistico_patrimonio
As futuras actualizacións, correccións e versións ampliadas do corpus publicaranse principalmente a través do repositorio de Hugging Face. Este rexistro de Zenodo mantense con fins de arquivo e citación, mais recoméndase ás persoas usuarias consultar a versión de Hugging Face para acceder á publicación máis recente.
(EN)
An updated version of Corpus museístico-patrimonio is available on Hugging Face: https://huggingface.co/datasets/proxectonos/corpus_dominio_museistico_patrimonio
Future updates, corrections, and extended releases of the corpus will be primarily made available through the Hugging Face repository. This Zenodo record is kept for archival and citation purposes, but users are encouraged to consult the Hugging Face version for the most recent release.
Corpus museístico-patrimonio
O corpus museístico-patrimonio reúne recursos terminolóxicos especializados procedentes de tesauros museísticos oficiais, orientados á descrición, clasificación e documentación do patrimonio cultural. O conxunto representa un rexistro técnico e descritivo propio do ámbito museístico e patrimonial, con especial atención á organización conceptual e xerárquica do coñecemento.
O corpus está composto por tres tesauros independentes:
Diccionario de Materias (diccionario_materias.jsonl), que recolle conceptos relacionados cos materiais, substancias e compoñentes empregados na creación, conservación e estudo dos bens culturais.
Diccionario de Técnicas (diccionario_tecnicas.jsonl), centrado nos métodos, procedementos e procesos utilizados na produción, restauración e análise de obxectos patrimoniais.
Diccionario de Bienes Culturales (diccionario_bienesculturales.jsonl), dedicado á clasificación de obxectos, obras e elementos patrimoniais segundo a súa natureza e función, establecendo relacións xerárquicas entre categorías.
Os datos foron extraídos automaticamente das páxinas web dos Tesauros do Patrimonio Cultural de España mediante procesos de scraping controlado. A extracción percorreu de forma recursiva a estrutura xerárquica de cada tesauro a partir das súas entradas principais, identificando para cada concepto a súa denominación principal, equivalentes multilingües cando están dispoñibles, definicións, notas de alcance, relacións xerárquicas (termos máis xerais e máis específicos), termos relacionados e información complementaria asociada.
Cada entrada do corpus almacénase en formato JSONL, cun obxecto por liña, preservando explicitamente a estrutura conceptual do tesauro mediante campos como a ruta xerárquica completa desde a raíz ata o termo concreto. Este formato facilita o seu uso en tarefas de procesamento da linguaxe natural, construción de ontoloxías, análise terminolóxica e estudos sobre representación do coñecemento no ámbito do patrimonio cultural.
O corpus non foi sometido a corrección lingüística manual nin a anotación semántica adicional, e conserva o contido tal e como aparece nas fontes orixinais, agás as operacións mínimas de limpeza necesarias para a súa estruturación.
Exemplo de entrada e formato
{ "id": 1185037, "url": "https://tesauros.cultura.gob.es/tesauros/materias/1185037", "word_es": "Planta tintórea", "word_gl": "Planta tintórea", "word_ca": "Planta tintòria", "word_en": "Dye plant", "definition": "Planta empregada para obter colorantes naturais.", "scope_note": "Inclúe tanto as plantas que producen pigmentos como as que se usan para tintura textil.", "non_descriptive_terms": ["Planta de colorante"], "synonyms": [ { "id": 1188947, "term": "Fibra", "url": "https://tesauros.cultura.gob.es/tesauros/materias/1188947" } ], "images": [ { "image_url": "https://tesauros.cultura.gob.es/tesauros/images/thumbs/materias/preview/Planta%20tintorea_11591_Museo%20de%20America.JPG", "museum": "MUSEO DE AMÉRICA", "object_name": "Planta tintórea", "inventory": "11591" } ], "broader_term": "Materia", "hierarchy_path": ["Materia", "Planta tintórea"], "narrower_terms": []}
Estructura do corpus
NOS_Corpus_Museistico-Patrimonio/├── diccionario_bienesculturales.jsonl├── diccionario_materias.jsonl└── diccionario_tecnicas.jsonl
Fonte, licenza e condicións de reutilización
Os tesauros incluídos no corpus museístico-patrimonio proceden de recursos oficiais publicados polo Ministerio de Cultura a través do portal de Tesauros do Patrimonio Cultural de España e do portal datos.gob.es, dentro do marco de reutilización da información do sector público.
De acordo coas condicións de uso establecidas polo Ministerio de Cultura, estes vocabularios ofrécense para o seu uso libre e gratuíto, incluída a súa reprodución, distribución, comunicación pública e transformación, sempre que se respecte a mención expresa da autoría e procedencia dos contidos orixinais.
As fontes orixinais dos tesauros utilizados son as seguintes:
Diccionario de Denominaciones de Bienes Culturaleshttps://datos.gob.es/gl/catalogo/e05234201-diccionario-de-denominaciones-de-bienes-culturales
Diccionario de Materiashttps://datos.gob.es/gl/catalogo/e05234201-diccionario-de-materias
Diccionario de Técnicashttps://datos.gob.es/gl/catalogo/e05234201-diccionario-de-tecnicas
Este corpus constitúe unha obra derivada, resultado de procesos de extracción automática, limpeza e conversión a formato JSONL, sen alteración do contido semántico orixinal. En todas as reutilizacións mantense a atribución ás fontes oficiais orixinais.
A estrutura, o formato, a organización do conxunto de datos e os procesos de extracción e normalización aplicados distribúense baixo a licenza Creative Commons Attribution 4.0 International (CC BY 4.0), sen que isto implique respaldo institucional por parte do Ministerio de Cultura.
-----------------------------
Corpus museístico-patrimonio
El corpus museístico-patrimonio reúne recursos terminológicos especializados procedentes de tesauros museísticos oficiales, orientados a la descripción, clasificación y documentación del patrimonio cultural. El conjunto representa un registro técnico y descriptivo propio del ámbito museístico y patrimonial, con especial atención a la organización conceptual y jerárquica del conocimiento.
El corpus está compuesto por tres tesauros independientes:
Diccionario de Materias (diccionario_materias.jsonl), que recoge conceptos relacionados con materiales, sustancias y componentes empleados en la creación, conservación y estudio de los bienes culturales.
Diccionario de Técnicas (diccionario_tecnicas.jsonl), centrado en los métodos, procedimientos y procesos utilizados en la producción, restauración y análisis de objetos patrimoniales.
Diccionario de Bienes Culturales (diccionario_bienesculturales.jsonl), dedicado a la clasificación de objetos, obras y elementos patrimoniales según su naturaleza y función, estableciendo relaciones jerárquicas entre categorías.
Los datos fueron extraídos automáticamente de las páginas web de los Tesauros del Patrimonio Cultural de España mediante procesos de scraping controlado. La extracción recorrió de forma recursiva la estructura jerárquica de cada tesauro a partir de sus entradas principales, identificando para cada concepto su denominación principal, equivalentes multilingües cuando están disponibles, definiciones, notas de alcance, relaciones jerárquicas (términos más generales y más específicos), términos relacionados e información complementaria asociada.
Cada entrada del corpus se almacena en formato JSONL, con un objeto por línea, preservando explícitamente la estructura conceptual del tesauro mediante campos como la ruta jerárquica completa desde la raíz hasta el término concreto. Este formato facilita su uso en tareas de procesamiento del lenguaje natural, construcción de ontologías, análisis terminológico y estudios sobre representación del conocimiento en el ámbito del patrimonio cultural.
El corpus no ha sido sometido a corrección lingüística manual ni a anotación semántica adicional, y conserva el contenido tal como aparece en las fuentes originales, salvo las operaciones mínimas de limpieza necesarias para su estructuración.
Ejemplo de entrada y formato:
{ "id": 1185037, "url": "https://tesauros.cultura.gob.es/tesauros/materias/1185037", "word_es": "Planta tintórea", "word_gl": "Planta tintórea", "word_ca": "Planta tintòria", "word_en": "Dye plant", "definition": "Planta empregada para obter colorantes naturais.", "scope_note": "Inclúe tanto as plantas que producen pigmentos como as que se usan para tintura textil.", "non_descriptive_terms": ["Planta de colorante"], "synonyms": [ { "id": 1188947, "term": "Fibra", "url": "https://tesauros.cultura.gob.es/tesauros/materias/1188947" } ], "images": [ { "image_url": "https://tesauros.cultura.gob.es/tesauros/images/thumbs/materias/preview/Planta%20tintorea_11591_Museo%20de%20America.JPG", "museum": "MUSEO DE AMÉRICA", "object_name": "Planta tintórea", "inventory": "11591" } ], "broader_term": "Materia", "hierarchy_path": ["Materia", "Planta tintórea"], "narrower_terms": []}
Estructura del corpus
NOS_Corpus_Museistico-Patrimonio/├── diccionario_bienesculturales.jsonl├── diccionario_materias.jsonl└── diccionario_tecnicas.jsonl
Fuente, licencia y condiciones de reutilización
Los tesauros incluidos en el corpus museístico-patrimonio proceden de recursos oficiales publicados por el Ministerio de Cultura a través del portal de Tesauros del Patrimonio Cultural de España y del portal datos.gob.es, dentro del marco de reutilización de la información del sector público.
De acuerdo con las condiciones de uso establecidas por el Ministerio de Cultura, estos vocabularios se ofrecen para su uso libre y gratuito, incluida su reproducción, distribución, comunicación pública y transformación, siempre que se respete la mención expresa de la autoría y procedencia de los contenidos originales.
Las fuentes originales de los tesauros utilizados son las siguientes:
Diccionario de Denominaciones de Bienes Culturaleshttps://datos.gob.es/gl/catalogo/e05234201-diccionario-de-denominaciones-de-bienes-culturales
Diccionario de Materiashttps://datos.gob.es/gl/catalogo/e05234201-diccionario-de-materias
Diccionario de Técnicashttps://datos.gob.es/gl/catalogo/e05234201-diccionario-de-tecnicas
Este corpus constituye una obra derivada, resultado de procesos de extracción automática, limpieza y conversión a formato JSONL, sin alteración del contenido semántico original. En todas las reutilizaciones se mantiene la atribución a las fuentes oficiales originales.
La estructura, el formato, la organización del conjunto de datos y los procesos de extracción y normalización aplicados se distribuyen bajo la licencia Creative Commons Attribution 4.0 International (CC BY 4.0), sin que ello implique respaldo institucional por parte del Ministerio de Cultura.
-------------------
Esta publicación del proyecto Desarrollo de Modelos ALIA está financiada por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia – Financiado por la Unión Europea – NextGenerationEU.
This work is funded by the Ministerio para la Transformación Digital y de la Función Pública - Funded by EU – NextGenerationEU within the framework of the project Desarrollo de Modelos ALIA.
提供机构:
Zenodo
创建时间:
2025-12-15



