Corpus de aprendices de español (CAES)

El Corpus de aprendices de español como lengua extranjera (CAES) es un conjunto de textos escritos producidos por estudiantes de español con diferentes grados de dominio lingüistico (niveles A1 a C1 del Marco común europeo de referencia , aplicado al español en el Plan curricular del Instituto Cervantes. Niveles de referencia para el español ) y procedentes de once L1: alemán, árabe, chino mandarín, francés, griego, inglés, italiano, japonés, polaco, portugués y ruso. 

En su versión actual (2.1, de marzo de 2022), el CAES comprende 1 045 097 elementos lingüísticos, con una distribución que atiende a todos los niveles adquiridos y lenguas L1 incluidas en esta fase del proyecto. Ha sido construido mediante la recogida de muestras en distintos centros del Instituto Cervantes y universidades de un gran número de países, en un período que va desde octubre de 2011 hasta diciembre de 2020. Aunque las pruebas recogidas fueron más, una vez filtradas las correspondientes a lenguas L1 distintas de las previstas o inservibles por diferentes razones, esta versión de CAES contiene muestras producidas por 2544 estudiantes, que escribieron dos o tres textos cada uno (según los niveles aprobados), lo cual arroja un total de 6561 tareas integradas en 2544 pruebas.

La recogida de muestras se ha realizado de acuerdo con unos criterios unitarios y un protocolo común de actuación mediante una aplicación informática diseñada a tales efectos. Los textos producidos por los estudiantes han recibido anotación morfosintáctica automática y posteriormente han sido desambiguados manualmente de acuerdo con lo previsto en un sistema de categorías y subcategorías especialmente desarrollado por el equipo de la USC y adaptado a este tipo de textos. Por último, el resultado de la anotación y desambiguación se ha volcado en una aplicación informática de fácil manejo que permite realizar gran cantidad de consultas simples y combinadas con variables lingüísticas, personales y sociales.

El proyecto, promovido y financiado por el Instituto Cervantes, ha sido diseñado y desarrollado íntegramente por un equipo de investigación de la Universidad de Santiago de Compostela gracias a la colaboración inestimable de un gran número de profesores de diferentes centros del Instituto Cervantes y muy diversas universidades de todo el mundo.

Deja un comentario

Plain text

  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd><br><p>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.