Datos para usar regresión logística para la resolución de ambigüedades en etiquetado de textos
收藏DataCite Commons2025-05-19 更新2024-07-13 收录
下载链接:
https://dataverse.unr.edu.ar/citation?persistentId=doi:10.57715/UNR/REKPWF
下载链接
链接失效反馈官方服务:
资源简介:
Estos datos fueron utilizados para resolver dos tipos de ambigüedades en el etiquetado morfológico automático de textos: Determinante/Clítico Nombre/Verbo El objetivo de este estudio es resolver mediante modelos estadísticos algunas de las ambigüedades observadas con frecuencia durante el proceso de etiquetado de un texto. El modelo estadístico es el de regresión logística. Es estimado a partir de un texto de entrenamiento etiquetado y supervisado manualmente. Las variables explicativas utilizadas para predecir la etiqueta correcta, y así resolver la ambigüedad, son: a) la etiqueta observada en la palabra anterior y b) la etiqueta observada en la palabra siguiente. El etiquetado se llevó a cabo mediante la utilización del software Smorph, analizador y generador morfosintáctico desarrollado en el GRIL por Salah Aït-Mokhtar y el módulo post-smorph MPS. La resolución se realizó mediante dos modelos de regresión logística. L DET/CL, determinante/clítico y nombre/verbo (NOM/V). La estimación de dichos modelos se realiza sobre la base de datos que contiene la información de un corpus de entrenamiento etiquetado y luego supervisado manualmente. De esta manera, para cada palabra, se tiene la etiqueta correcta y las etiquetas asignadas por el analizador en el caso que la palabra admitiera más de una etiqueta - que es de donde surge la ambigüedad. Asimismo, se registra la etiqueta observada en la ocurrencia anterior y posterior en cada caso. Las variables de la tabla de datos son: NRO_SECUENCIA: Orden en el que aparece la ocurrencia OCURRENCIA: Palabra/ocurrencia observada ETIQUETA_1: Etiqueta asignada 1 ETIQUETA_2: Etiqueta asignada 2 ETIQUETA_CORRECTA: Etiqueta correcta ETIQUETA_ANTERIOR: Etiqueta asignada en la ocurrencia anterior ETIQUETA_POSTERIOR: Etiqueta asignada en la ocurrencia siguiente El trabajo relacionado contiene información detallada sobre la proveniencia y tratamiento de los datos aquí publicados.
提供机构:
RDA UNR
创建时间:
2022-07-25



