Dataset corpus de textos escritos por estudiantes de grado de la Universidad Nacional de Rosario

Name: Dataset corpus de textos escritos por estudiantes de grado de la Universidad Nacional de Rosario
Creator: RDA UNR
Published: 2025-09-03 21:18:30
License: 暂无描述

DataCite Commons2025-09-03 更新2026-05-04 收录

下载链接：

https://dataverse.unr.edu.ar/citation?persistentId=doi:10.57715/UNR/5KKC9I

下载链接

链接失效反馈

官方服务：

资源简介：

Introducción En el marco del proyecto "Hacia un cambio en la enseñanza y aprendizaje de lenguas desde las tecnologías informáticas" (Resolución CS N° 338/2023), se conformó un corpus de textos producidos por estudiantes de la Facultad de Humanidades y Artes entre agosto y noviembre de 2024. El objetivo fue procesar este corpus de manera automática y establecer un estado lingüístico inicial, para identificar las estructuras gramaticales más frecuentes y reconocer los ítems léxicos más utilizados. En definitiva, se buscó sistematizar la “lengua propia de los jóvenes”, entendida en un nivel puramente descriptivo a partir de los intercambios cotidianos. El objetivo principal del proyecto se centra en dar visibilidad a nuestra lengua: el español rioplatense que se habla en Rosario y, por extensión, en el ámbito de la Universidad Nacional de Rosario. De este modo, se busca legitimar nuestra idiosincrasia y destacar la gran riqueza del español rioplatense y, en un sentido más amplio, del español de Latinoamérica frente al español meridional, poniendo en valor sus particularidades. Contenidos Archivo con las producciones de los estudiantes (versión Word y txt) Flyer de difusión Vista del formulario Google que completaron los estudiantes ersión pdf del formulario Google. Tipos de datos Producción escrita de estudiantes a partir de una anécdota familiar o de una biografía escolar. Metodología La recolección de datos se hizo a través de un formulario Google, quienes completaban dicho formulario daban su consentimiento informado de modo que sus producciones escritas fueran utilizadas en un proyecto de investigación. Se requería que fueran mayores de 18 años. El corpus fue cotejado con detector de plagio por IA para asegurar la originalidad de la producción. Organización de los datos Se presentan en el mismo orden en que fueron completados, uno a continuación del otro, sin ningún tipo de corrección, tal como fueron registrados en las respuestas al formulario. Calidad y valor de los datos Estos datos pueden ser útiles para quienes trabajan en procesamiento automático del lenguaje como parte de la inteligencia artificial, y también para quienes necesiten producciones textuales auténticas de jóvenes a partir de los dieciocho años. Estas producciones ofrecen un punto de partida para planificar clases, identificar qué estructuras lingüísticas están presentes y reconocer los conocimientos previos que los estudiantes tienen sobre la lengua. Aunque inicialmente los datos se centraban en el español rioplatense, la diversidad de estudiantes extranjeros aportó también muestras de español de otros países de Latinoamérica. Esta riqueza léxica amplía el corpus y permite establecer un contraste más sólido con el español peninsular.

提供机构：

RDA UNR

创建时间：

2024-06-13