Corpus de simplificación de oraciones del Diario de Madrid
收藏DataCite Commons2025-11-12 更新2025-04-10 收录
下载链接:
https://edatos.consorciomadrono.es/citation?persistentId=doi:10.21950/94FQMT
下载链接
链接失效反馈官方服务:
资源简介:
Este dataset contiene un listado completo de oraciones simplificadas extraídas del Diario de Madrid. Para cada entrada, se incluyen tres versiones de la misma oración:
Versión original preprocesada: El texto original extraído del Diario de Madrid, previamente preprocesado para eliminar ruido y garantizar su adecuación para el análisis.
Versión simplificada por el modelo de lenguaje: La oración original procesada y transformada automáticamente por un modelo de lenguaje para hacerla más comprensible y accesible.
Versión final por el etiquetador: La versión simplificada final, tras ser revisada y ajustada manualmente por un etiquetador, que asegura que el texto sea adecuado para su público objetivo, manteniendo la precisión del contenido.
Este dataset está diseñado para investigar y evaluar la efectividad de los modelos automáticos de simplificación de texto, proporcionando un recurso valioso tanto para la mejora de modelos de PLN como para la creación de sistemas de simplificación orientados a mejorar la accesibilidad de textos especializados.
提供机构:
e-cienciaDatos
创建时间:
2025-01-29



