Corpus CELEN

NIAID Data Ecosystem2026-05-01 收录

下载链接：

https://zenodo.org/record/7900046

下载链接

链接失效反馈

官方服务：

资源简介：

Aquí puede descargarse *una parte* del corpus CELEN (versión 1.2): unas 391,000 palabras en 4393 textos de 967 aprendices. NO se incluye el subcorpus de blogs electrónicos procedentes de Internet. Este puede ser consultado en https://ske.li/qqr pero no puede ser redistribuido. ----DATOS DESCARGABLES---- 1. Contexto universitario: español como carrera. Universidad Kansai Gaidai. Unas 141.000 palabras, 1.840 textos, 459 aprendices. Estudiantes de español como carrera universitaria, de entre primer y tercer curso. El nivel de dominio asignado a los textos es el del libro de texto usado en clase: A1, A2 y B1. Contiene la mitad de los textos escritos (generalmente entre 3 y 6) en las clases impartidas por profesores nativos durante el año académico 2018, en exámenes, tareas o actividades de clase. 2. Contexto universitario: español como carrera. "Japanese Learner Corpus of Spanish (JALCOS) (2004)". Unas 87.000 palabras, 222 textos, 222 aprendices. Estudiantes de la carrera de español en cinco universidades japonesas. De mayor a menor número de textos: Universidad Sofía, Universidad de Tokoha, Universidad Nanzan, Universidad Provincial de Aichi y Universidad de Estudios Extranjeros de Osaka. Cada participante rellenó un cuestionario y escribió un texto sobre un tema a elegir entre siete temas propuestos. Los datos han sido cedidos por el profesor Yoshihito Kamakura de la Universidad de Aichi, quien diseñó el corpus y recopiló los datos en 2004, siguiendo los criterios del International Corpus of Learner English (ICLE). Para su inclusión en CELEN, se han sistematizado los datos y se ha asignado un nivel de dominio estimado a cada texto según el curso en el que se encontraba el estudiante: A1 (primer curso), A2 (segundo curso), B1 (tercer curso), B2 (cuarto curso). 3. Contexto universitario: español como asignatura de lengua extranjera. Universidad de Kioto. Unas 144.000 palabras, 2.111 textos, 278 aprendices. Estudiantes de diversas facultades que toman el español como una asignatura anual de lengua extranjera. En el corpus se les asigna el nivel A1. Se incluyen todos los textos (generalmente entre 7 y 8) que escribieron como tarea en las clases impartidas por profesores nativos durante el año académico 2017. Para ello los estudiantes usaron varias herramientas de ayuda (corrector ortográfico, diccionario, Internet, etc.). Los datos han sido cedidos por el profesor Nobuyuki Tukahara, coordinador de las clases de español. 4. Internet: foro de WordReference. Unas 19.000 palabras, 220 textos, 8 autores. Nivel C2. Se incluye una muestra de como máximo 5.000 palabras por autor, de intervenciones en el foro "Sólo español" de WordReference, por parte de participantes cuya primera lengua es el japonés. Se han seleccionado los hilos iniciados por los propios participantes, así como sus respuestas dentro de esos hilos; se excluyen las respuestas dentro de hilos de otros usuarios. Las intervenciones fueron escritas entre 2008 y 2019, y el periodo de seguimiento de cada autor es variable: desde 0 meses, si solo publican una intervención, hasta 9 años desde la primera hasta la última. Los datos proceden del corpus WordReference, descrito con más detalle en Berdicevskis (2020). --- FORMATO ---Cada línea corresponde a un texto. Cada texto va precedido por una cabecera con 39 metadatos: texto El contenido de cada metadato se explica aquí. Estas marcas indican el inicio y final de párrafo: párrafo En los textos procedentes de WordReference, las marcas indican el lugar donde se encontraba la respuesta de un usuario nativo. --- ANONIMIZACIÓN --- Los textos procedentes del ámbito universitario han sido anonimizados: - Se han sustituido los nombres propios de persona por una etiqueta que refleja el uso de mayúsculas o minúsculas en el texto original (#Nombre-mujer#, #Nombre-hombre#, #NOMBRE-MUJER#, #Apellido#, etc.). - Se han modificado los números de teléfono, direcciones de correo electrónico u otra información que permitiera identificar al autor del texto. --- ATRIBUCIÓN --- Los datos pueden ser usados bajo una licencia Creative Commons: Atribución – NoComercial 4.0 Internacional (CC BY-NC 4.0). Si usa el corpus para su investigación, por favor cite la siguiente publicación: Valverde, P. (2023). El corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELE. TEISEL. Tecnologías para la investigación en segundas lenguas, 3, pp. 1-31. http://doi.org/10.1344/teisel.v3.42898 --- MÁS INFORMACIÓN --- Para más detalles, véase la web del proyecto: https://sites.google.com/view/celen

创建时间：

2024-04-23

5,000+

优质数据集

54 个

任务类型

进入经典数据集