Corpus de ELE en Japón (CELEN)

Enlace

https://sites.google.com/view/celen

Etiquetas

Descripción

El Corpus de ELE en Japón (CELEN) es un corpus de aprendices de español cuya primera lengua es el japonés. Los datos que lo forman proceden de diversos contextos: el ámbito universitario, donde el español puede estudiarse como asignatura de lengua extranjera o como carrera, y contextos de aprendizaje informal en Internet como blogs electrónicos y foros.

La versión 1.2, de abril de 2023, está compuesta por 6.196 textos escritos por 1.035 aprendices, con un total de 658.467 palabras (790.086 tokens).

Se incluyen los siguientes subcorpus:

1. Contexto universitario: español como carrera. Unas 228.000 palabras, 2.062 textos, 681 aprendices.

Universidad Kansai Gaidai: unas 141.000 palabras, 1.840 textos, 459 aprendices. Estudiantes de español como carrera universitaria, de entre primer y tercer curso. El nivel de dominio asignado a los textos es el del libro de texto usado en clase: A1, A2 y B1. Contiene la mitad de los textos escritos (generalmente entre 3 y 6) en las clases impartidas por profesores nativos durante el año académico 2018, en exámenes, tareas o actividades de clase.
Japanese Learner Corpus of Spanish (JALCOS): unas 87.000 palabras, 222 textos, 222 aprendices. Estudiantes de la carrera de español en cinco universidades japonesas. De mayor a menor número de textos: Universidad Sofía, Universidad de Tokoha, Universidad Nanzan, Universidad Provincial de Aichi y Universidad de Estudios Extranjeros de Osaka. Cada participante rellenó un cuestionario y escribió un texto sobre un tema a elegir entre siete temas propuestos. Los datos han sido cedidos por el profesor Yoshihito Kamakura de la Universidad de Aichi, quien diseñó el corpus y recopiló los datos en 2004, siguiendo los criterios del International Corpus of Learner English (ICLE). Para su inclusión en CELEN, se han sistematizado los datos y se ha asignado un nivel de dominio estimado a cada texto según el curso en el que se encontraba el estudiante: A1 (primer curso), A2 (segundo curso), B1 (tercer curso), B2 (cuarto curso).

2. Contexto universitario: español como asignatura de lengua extranjera. Universidad de Kioto: unas 144.000 palabras, 2.111 textos, 278 aprendices. Estudiantes de diversas facultades que toman el español como una asignatura anual de lengua extranjera. En el corpus se les asigna el nivel A1. Se incluyen todos los textos (generalmente entre 7 y 8) que escribieron como tarea en las clases impartidas por profesores nativos durante el año académico 2017. Para ello los estudiantes usaron varias herramientas de ayuda (corrector ortográfico, diccionario, Internet, etc.). Los datos han sido cedidos por el profesor Nobuyuki Tukahara, coordinador de las clases de español.

3. Internet: blogs electrónicos. Unas 268.000 palabras, 1.803 textos, 68 aprendices. Niveles A, B y C. Se ha asignado un nivel amplio (A, B, C) a cada autor, en lugar de un nivel más específico (A1, A2...).

Blogger y WordPress: unas 119.000 palabras, 556 textos, 29 aprendices. Se ha seleccionado una muestra de entre 500 y 5.000 palabras por autor, de blogs publicados en internet entre 2004 y 2022. Los textos fueron descargados en 2015 y actualizados en 2022 con las nuevas entradas de los que seguían en activo. El periodo de seguimiento de estos aprendices es variable, desde un mes hasta 10 años. El proceso de recogida de los datos se describe en parte en Valverde (2016 y 2018).
Red social Lang-8, dedicada al aprendizaje de lenguas extranjeras: unas 149.000 palabras, 1.247 textos, 39 aprendices. Se ha extraído una muestra, de entre 2.000 y 5.000 palabras por autor, de las entradas escritas por los usuarios de la red social entre 2008 y 2011. Se incluyen solamente los textos escritos por los aprendices cuya primera lengua es el japonés, y no las correcciones propuestas por los usuarios nativos. El periodo de seguimiento de estos aprendices va desde un mes hasta 3 años. Los datos, descargados en 2011, proceden del corpus NAIST Lang-8, cuyas características se describen en Mizumoto et al. (2011).

4. Internet: foro de WordReference. Unas 19.000 palabras, 220 textos, 8 autores. Nivel C2. Se incluye una muestra de como máximo 5.000 palabras por autor, de intervenciones en el foro "Sólo español" de WordReference, por parte de participantes cuya primera lengua es el japonés. Se han seleccionado los hilos iniciados por los propios participantes, así como sus respuestas dentro de esos hilos; se excluyen las respuestas dentro de hilos de otros usuarios. Las intervenciones fueron escritas entre 2008 y 2019, y el periodo de seguimiento de cada autor es variable: desde 0 meses, si solo publican una intervención, hasta 9 años desde la primera hasta la última. Los datos proceden del corpus WordReference, descrito con más detalle en Berdicevskis (2020).

¿A quién va dirigido?
CELEN nació con una vocación pedagógica: el objetivo principal es facilitar el uso de los corpus entre los profesores de español, con vistas a su aplicación en la formación de profesores, el diseño de materiales, la planificación curricular, los estudios lingüísticos, etc.