five

Corpus UCM-EUROPA: estudio del efecto de imprimación de la traducción automática sobre un corpus de textos del español institucional

收藏
NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/14017180
下载链接
链接失效反馈
官方服务:
资源简介:
El corpus UCM-EUROPA recoge el conjunto de datos correspondientes a la investigación titulada "Estudio del efecto de imprimación de la traducción automática sobre un corpus de textos del español institucional", aceptada para su publicación en Revista de Humanidades Digitales Resumen de la investigación. Se ha realizado un análisis del efecto de imprimación de la traducción automática en los textos institucionales de la Unión Europea traducidos al español. Se abordan dos preguntas clave: a) ¿es posible identificar alguna variación lingüística en los textos traducidos automáticamente coincidiendo temporalmente con los diferentes desarrollos de la tecnología de traducción automática?; b) si existen variaciones ¿hasta qué punto pueden deberse al efecto de imprimación de la traducción automática? Se trata de un estudio cuantitativo sobre cuatro aspectos: la diversidad léxica, la densidad léxica, el índice de la longitud del corpus (lenght ratio) y los patrones léxicos. Los resultados muestran ciertos indicios de imprimación de la traducción automática, aunque los datos no son concluyentes. Sería necesario complementarlos con un análisis cualitativo que examine casos individuales en contexto y que explore las variaciones lingüísticas que no se reflejan en los datos cuantitativos. Descripción del corpus UCM-EUROPA. Para crear el corpus de estudio, se descargaron los datos de las traducciones al español del portal de recursos de tecnología de la lengua de la DGT, almacenadas en formato .tmx (Steinberger et al, 2012 y 2014) y correspondientes a los diferentes hitos de la traducción automática, comenzando por 2006 (el primer año en el que están disponibles las memorias de traducción) y hasta 2020 (el último año del que se disponen datos). Para cada año/hito se extrajo un subcorpus de alrededor de 500000 tokens por idioma, según puede verse en la tabla: año idioma types tokens 2006 ES 27387,00 478972,00 2008 ES 25511,00 487282,00 2010 ES 23791,00 480970,00 2017 ES 19477,00 486512,00 2020 ES 486512,00 490960,00 Para extraer cada subcorpus, los archivos .tmx correspondientes a cada memoria se procesaron con el programa de gestión de memorias Phrase en su versión de uso académico y se generaron los correspondientes archivos .txt para cada par de idiomas. Posteriormente, cada uno de los archivos se etiquetó con información gramatical con el programa TagAnt (Anthony, 2022), que utiliza los modelos de lengua pre-instalados de SpaCy.   Relación de archivos que componen el corpus UCM-EUROPA 2006-zip Memoria DGT 2006.tmx memoria DGT 2006-EN.txt memoria DGT 2006-EN-tagged.txt memoria DGT 2006-ES.txt memoria DGT 2006-ES-tagged.txt 2008-zip Memoria DGT 2008.tmx memoria DGT 2008-EN.txt memoria DGT 2008-EN-tagged.txt memoria DGT 2008-ES.txt memoria DGT 2008-ES-tagged.txt 2010-zip Memoria DGT 2010.tmx memoria DGT 2010-EN.txt memoria DGT 2010-EN-tagged.txt memoria DGT 2010-ES.txt memoria DGT 2010-ES-tagged.txt 2017-zip Memoria DGT 2017.tmx memoria DGT 2017-EN.txt memoria DGT 2017-EN-tagged.txt memoria DGT 2017-ES.txt memoria DGT 2017-ES-tagged.txt 2020-zip Memoria DGT 2020.tmx memoria DGT 2020-EN.txt memoria DGT 2020-EN-tagged.txt memoria DGT 2020-ES.txt memoria DGT 2020-ES-tagged.txt Referencias Anthony, L. (2022). TagAnt (Version 2.0.5) [Computer Software]. Tokyo, Japan: Waseda University. https://www.laurenceanthony.net/software Steinberger R., Eisele, A., Klocek, S., Pilos, S. & Schlüter, P. (2012). DGT-TM: A freely Available Translation Memory in 22 Languages. Proceedings of the 8th international conference on Language Resources and Evaluation (LREC'2012). https://aclanthology.org/L12-1481/ Steinberger, R., Ebrahim, M., Poulis, A., Carrasco-Benitez, M., Schlüter, P., Przybyszewski, M. & Gilbro, S. (2014). An overview of the European Union's highly multilingual parallel corpora . Language Resources and Evaluation Journal (LRE), 679-707. https://doi.org/10.1007/s10579-014-9277-0
创建时间:
2024-10-31
二维码
社区交流群
二维码
科研交流群
商业服务