Corpus UCM-EUROPA: estudio del efecto de imprimación de la traducción automática sobre un corpus de textos del español institucional
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/14017180
下载链接
链接失效反馈官方服务:
资源简介:
El corpus UCM-EUROPA recoge el conjunto de datos correspondientes a la investigación titulada "Estudio del efecto de imprimación de la traducción automática sobre un corpus de textos del español institucional", aceptada para su publicación en Revista de Humanidades Digitales
Resumen de la investigación. Se ha realizado un análisis del efecto de imprimación de la traducción automática en los textos institucionales de la Unión Europea traducidos al español. Se abordan dos preguntas clave: a) ¿es posible identificar alguna variación lingüística en los textos traducidos automáticamente coincidiendo temporalmente con los diferentes desarrollos de la tecnología de traducción automática?; b) si existen variaciones ¿hasta qué punto pueden deberse al efecto de imprimación de la traducción automática? Se trata de un estudio cuantitativo sobre cuatro aspectos: la diversidad léxica, la densidad léxica, el índice de la longitud del corpus (lenght ratio) y los patrones léxicos. Los resultados muestran ciertos indicios de imprimación de la traducción automática, aunque los datos no son concluyentes. Sería necesario complementarlos con un análisis cualitativo que examine casos individuales en contexto y que explore las variaciones lingüísticas que no se reflejan en los datos cuantitativos.
Descripción del corpus UCM-EUROPA. Para crear el corpus de estudio, se descargaron los datos de las traducciones al español del portal de recursos de tecnología de la lengua de la DGT, almacenadas en formato .tmx (Steinberger et al, 2012 y 2014) y correspondientes a los diferentes hitos de la traducción automática, comenzando por 2006 (el primer año en el que están disponibles las memorias de traducción) y hasta 2020 (el último año del que se disponen datos). Para cada año/hito se extrajo un subcorpus de alrededor de 500000 tokens por idioma, según puede verse en la tabla:
año
idioma
types
tokens
2006
ES
27387,00
478972,00
2008
ES
25511,00
487282,00
2010
ES
23791,00
480970,00
2017
ES
19477,00
486512,00
2020
ES
486512,00
490960,00
Para extraer cada subcorpus, los archivos .tmx correspondientes a cada memoria se procesaron con el programa de gestión de memorias Phrase en su versión de uso académico y se generaron los correspondientes archivos .txt para cada par de idiomas. Posteriormente, cada uno de los archivos se etiquetó con información gramatical con el programa TagAnt (Anthony, 2022), que utiliza los modelos de lengua pre-instalados de SpaCy.
Relación de archivos que componen el corpus UCM-EUROPA
2006-zip
Memoria DGT 2006.tmx
memoria DGT 2006-EN.txt
memoria DGT 2006-EN-tagged.txt
memoria DGT 2006-ES.txt
memoria DGT 2006-ES-tagged.txt
2008-zip
Memoria DGT 2008.tmx
memoria DGT 2008-EN.txt
memoria DGT 2008-EN-tagged.txt
memoria DGT 2008-ES.txt
memoria DGT 2008-ES-tagged.txt
2010-zip
Memoria DGT 2010.tmx
memoria DGT 2010-EN.txt
memoria DGT 2010-EN-tagged.txt
memoria DGT 2010-ES.txt
memoria DGT 2010-ES-tagged.txt
2017-zip
Memoria DGT 2017.tmx
memoria DGT 2017-EN.txt
memoria DGT 2017-EN-tagged.txt
memoria DGT 2017-ES.txt
memoria DGT 2017-ES-tagged.txt
2020-zip
Memoria DGT 2020.tmx
memoria DGT 2020-EN.txt
memoria DGT 2020-EN-tagged.txt
memoria DGT 2020-ES.txt
memoria DGT 2020-ES-tagged.txt
Referencias
Anthony, L. (2022). TagAnt (Version 2.0.5) [Computer Software]. Tokyo, Japan: Waseda University. https://www.laurenceanthony.net/software
Steinberger R., Eisele, A., Klocek, S., Pilos, S. & Schlüter, P. (2012). DGT-TM: A freely Available Translation Memory in 22 Languages. Proceedings of the 8th international conference on Language Resources and Evaluation (LREC'2012). https://aclanthology.org/L12-1481/
Steinberger, R., Ebrahim, M., Poulis, A., Carrasco-Benitez, M., Schlüter, P., Przybyszewski, M. & Gilbro, S. (2014). An overview of the European Union's highly multilingual parallel corpora . Language Resources and Evaluation Journal (LRE), 679-707. https://doi.org/10.1007/s10579-014-9277-0
创建时间:
2024-10-31



