Bibliografía - corpus

Pages

Texto completo

A pesar de todas las ventajas que ofrecen los corpus lingüísticos y de los avances tecnológicos que han mejorado su accesibilidad y manejo, su uso no se ha extendido entre alumnos y profesores de lenguas extranjeras. Aprendizaje basado en datos (ABD) es un enfoque centrado en el alumno que promueve el aprendizaje por descubrimiento mediante el análisis de datos provenientes de corpus lingüísticos. En el campo del español como lengua extranjera (ELE) este tipo de aprendizaje sigue siendo un gran desconocido. Este artículo quiere mostrar cómo los principios de ABD se pueden aplicar a exploraciones sobre datos provenientes de otras herramientas de consulta y de la propia Web. En este trabajo se presentan en un primer momento los principios teóricos que apuntalan este enfoque y los retos a los que se enfrenta. A continuación, se revisa el estado de la cuestión en ELE, con un ejemplo de aplicación del enfoque utilizando dos corpus lingüísticos: CORPES XXI y el Corpus del Español. Para finalizar, se examinan nuevos recursos híbridos (diccionario más listados de ejemplos) en español con datos que pueden ser investigados mediante este tipo de enfoque y se ejemplifica con una secuencia de búsqueda en la que se utilizan dos de estas herramientas: Linguee y WordAndPhrase.

VV. AA. (2024)

Los corpus, compilaciones de datos lingüísticos utilizados para conocer mejor un idioma, tienen una larga trayectoria en los estudios filológicos. En la actualidad, son más relevantes que nunca gracias a las oportunidades que brindan las herramientas informáticas. Este libro presenta una variedad de ejemplos de aplicaciones didácticas basadas en corpus lingüísticos. Dado el creciente interés por el aprendizaje del español en China, varios capítulos se centran en esta temática. 

Índice
Introducción
Maribel Serrano Zapata

El potencial inductivo de los corpus lingüísticos en la enseñanza de ELE
Marta Albelda Marco

Análisis de errores y etiquetado en los corpus de aprendices de ELE informatizados
Mª Ángeles Calero Fernández

TextAnnot, una herramienta Web para la gestión y anotación del corpus
Roberto García González, Albert Berga Gatius y Juan Manuel Gimeno Illa

Ausencia de metataxis en la producción escrita de estudiantes chinos de ELE
Francisco Javier Terrado Pablo, Zhang Peng y Zhang Bohua

¿Rábito o rápido? Análisis de errores en la producción escrita de sinohablantes de ELE
Demelsa Ortiz Cruz

Bases para la elaboración de un diccionario para aprendices sinohablantes
Maria Bargalló Escrivà

Los índices de disponibilidad léxica como criterio complementario para la selección del lemario de un diccionario de ELE
José Antonio Moreno Villanueva y Alicia Madrona Cao

Léxico disponible y redes semánticas en niños valencianos de 6 años. La construcción del Corpus léxico infantil
Mª Begoña Gómez Devís

Creación y análisis de un corpus para el estudio del español (L2) como lengua de instrucción utilizada en libros de texto
Ángela Mira Conejero

Despite the burgeoning field of Spanish second language acquisition (SLA) research, large Spanish learner corpora (LC) are not common practice yet. We present a general yet practical introduction to the multiple decisions Spanish as a second language (L2) researchers should consider before creating their own LC. We focus on (i) two freely available Spanish LC (CEDEL2 and COWS-L2H), (ii) their general design principles, (iii) crucial variables to collect (learner and task variables), (iv) ways of collecting and compiling LC data, and (v) the final product (the corpus interface). We explore different ways of interrogating the two corpora, illustrating them with specific (morpho)syntactic and lexical examples from L2 Spanish, as well as potential curricular and teaching applications of LC. We conclude with a recommendation for the triangulation of LC data with experimental research and a summary of future directions that the field of LC research may take. Our ultimate aim is to equip researchers with the basic theoretical and methodological tools to design, build and collect their own LC.

----

A pesar del reciente auge del campo de la investigación de la adquisición de español como segunda lengua (L2), el uso de corpus de aprendices (CA) sigue sin ser una práctica habitual. En este artículo presentamos, de manera general a la vez que práctica, las múltiples decisiones a las que se enfrentan los investigadores de español L2 a la hora de crear su propio corpus. Nos centramos en (i) dos CA de español de acceso gratuito (CEDEL2 and COWS-L2H), (ii) sus principios de diseño, (iii) las variables relativas a los aprendices y a las tareas, (iv) maneras de recoger y compilar los datos y (v) el producto final (interfaces de búsqueda). Exploramos diferentes maneras de interrogar los corpus, ilustrándolas con ejemplos lingüísticos, y describimos posibles usos de esos datos tanto en la investigación como en la enseñanza. Concluimos con una recomendación de triangular datos de CA y experimentos y un resumen de los próximos pasos en el campo de la investigación de CA. Nuestra finalidad es equipar a los investigadores con herramientas básicas para compilar exitosamente su propio CA.

The current article offers an overview of scholarship on additional-language (e.g., second-language, heritage-language) users of Spanish that has been carried out using learner corpora in the last decade. I focus the review of Spanish learner corpus research on investigations that have examined grammar (e.g., fluency, grammatical gender), vocabulary (e.g., lexical diversity), and pragmatics (e.g., discourse markers), and I highlight the contributions that this body of work has made to the understanding of the use and development of additional-language Spanish. I also discuss the pedagogical applications that this line of inquiry may have. I conclude by identifying specific avenues for future work pertaining to research on additional-language learning and the development of new corpora.

----

Este artículo ofrece una descripción general de las investigaciones en la última década sobre hablantes de español como lengua adicional (p. ej., como segunda lengua o lengua de herencia) que se han llevado a cabo utilizando corpus de aprendices. Más concretamente, se pone el foco de atención en la revisión de la investigación de corpus de aprendices de español que examina la gramática (p. ej., la fluidez, el género gramatical), el vocabulario (p. ej., la diversidad léxica) y la pragmática (p. ej., los marcadores discursivos), destacando estas contribuciones al uso y desarrollo del español como lengua adicional. También se abordan las implicaciones pedagógicas más notables. El artículo concluye con la identificación de vías específicas para el trabajo futuro relacionado con la investigación sobre el aprendizaje de idiomas adicionales y el desarrollo de nuevos corpus.

Texto completo

El desarrollo de los corpus de aprendientes ha permitido un avance significativo en los estudios de Adquisición de Segundas Lenguas (ASL) (Granger, 2012, 2015, 2017). El Corpus especializado de Aprendientes de Español como Lengua Extranjera (CAELE) es un inventario abierto que cuenta con 1217 textos producidos por 201 aprendientes de diferentes lenguas maternas y niveles de competencia en ELE A2 y B1. Los estudiantes provienen de universidades extranjeras en el contexto de programas de intercambio de nivel de pregrado y posgrado. La recolección de los textos se ha llevado a cabo a través de tareas de escritura bajo el enfoque metodológico basado en tareas. En este artículo se presenta el diseño e implementación del corpus acorde con los principios de Sinclair (2005). Los resultados evidencian el logro de un corpus representativo y homogéneo para realizar estudios tanto de análisis de errores como contrastivos de interlengua. 

VV. AA. (2021)

e-Research y español LE/L2: Investigar en la era digital es el primer volumen que aborda de manera conjunta las aportaciones al español LE/L2 de la lingüística de corpus, la biblioteconomía y la edición digital. Es excelente para mejorar las técnicas de investigación a la vez que se toma conciencia sobre el uso de las tecnologías en los estudios sobre el español LE/L2.

Contenidos

1. e-Research: fundamentos metodológicos y aplicaciones a la investigación sobre el español LE/L2
Mar Cruz Piñol

2. Investigar en el contexto de las Humanidades Digitales y del español LE/L2
Beatriz Trigo

Parte I
El Entorno Personal de Investigación (EPI)

3. Buscar referencias académicas de calidad sobre el español LE/L2
Francisco López-Hernández, Inmaculada Muro-Subías y Lola Santonja-Garriga

4. Gestionar la bibliografía sobre el español LE/L2
Montse Morante

5. Establecer e-redes para la investigación sobre el español LE/L2
Imma Marín Queral

Parte II
La investigación con muestras de lengua

6. Corpus textuales de nativos para investigar sobre la enseñanza/aprendizaje del español LE/L2
Kris Buyse

7. Corpus textuales de aprendices para investigar sobre la adquisición del español LE/L2
Cristóbal Lozano

8. Corpus para investigar sobre el componente fónico en español LE/L2
Joaquim Llisterri

Parte III
La visibilización y la visualización de la investigación
9. Visibilizar los resultados de la investigación sobre el español LE/L2
Joana Lloret Cantero, Carmen López Ferrero y Mar Cruz Piñol

10. Representar visualmente los resultados de la investigación sobre el español LE/L2
Benamí Barros García

El léxico-gramática del español ofrece una aproximación alternativa al estudio de la gramática avanzada del español.

Este libro brinda al estudiante un enfoque auténtico y contextualizado del uso del español, basándose en datos provenientes de corpus de español-L1 y L2 junto a la investigación lingüística a fin de describir las características léxico-gramaticales fundamentales de la lengua y su variación. Cada capítulo incluye actividades guiadas para que los estudiantes puedan realizar búsquedas en estos corpus con el propósito de llegar a conclusiones fundamentadas en evidencias empíricas sobre cómo los aprendices de varios niveles de competencia usan ciertos elementos léxico-gramaticales.

Este libro representa un recurso ideal para los estudiantes de la gramática avanzada del español a nivel de pregrado y posgrado.

Contenidos

PARTE I: LOS FUNDAMENTOS DEL ESTUDIO EMPÍRICO DE LA LENGUA

Capítulo 1: La lingüística como ciencia del lenguaje

Capítulo 2: La lingüística de corpus

Capítulo 3: Los corpus del español como L1 y como L2

PARTE II: El SINTAGMA NOMINAL

Capítulo 4: El léxico del español

Capítulo 5: El núcleo del sintagma nominal

Capítulo 6: Los modificadores del sintagma nominal

Capítulo 7: Los pronombres

PARTE III: EL SINTAGMA VERBAL

Capítulo 8: La concordancia verbal

Capítulo 9: El tiempo y el aspecto verbal

Capítulo 10: El modo verbal

Capítulo 11: Los verbos copulativos—Ser y Estar

Capítulo 12. La oración

Recientemente, una gran parte de la discusión entre especialistas en lingüística aplicada se ha centrado en el potencial de la enseñanza del vocabulario basada en corpus (también conocida como “aprendizaje basado en datos” [ABD]; Boulton 2010a). La investigación en esta área se sirve de la lingüística aplicada de corpus y es relevante para ella, así como para la adquisición y pedagogía de una segunda lengua (L2). Aun cuando ciertamente hay potencial para que el ABD guíe la práctica de vocabulario en la L2, como explicamos en detalle en este artículo, los estudios empíricos del ABD presentan limitaciones tanto teóricas como metodológicas. A pesar de estas limitaciones, vemos potencial en el ABD para orientar la pedagogía y contribuir a la teoría de adquisición de la L2. Por estas razones, este artículo también incluye una discusión de cómo y cuándo los profesores de español como L2 pueden considerar la adopción de técnicas del ABD en sus clases.

-----------------------

A great deal of discussion among applied linguists has centred in recent years on the potential of corpus-based vocabulary instruction (also referred to as data-driven learning or DDL; Boulton 2010a). Research in this area draws on and is relevant to applied corpus linguistics as well as second-language (L2) pedagogy and second language acquisition. Though there is certainly potential for DDL research to inform L2 vocabulary teaching practice, as described in detail in this article, the empirical studies of DDL have fallen short both theoretically and methodologically. Despite these limitations, we see potential in DDL to inform L2 pedagogy and to both draw from and contribute to SLA theory. For these reasons, this article also includes a discussion of how and when Spanish L2 teachers might consider adopting DDL techniques in their classrooms.

Texto completo pdf icon

En esta introducción, expondremos el objetivo fundamental de la investigación desarrollada en los artículos que integran este monográfico, a saber: analizar las relaciones que existen entre la teoría lingüística, por un lado, y la enseñanza-aprendizaje de ELE, por otra. Pretendemos demostrar la relevancia que tiene la formación teórica del profesorado de ELE, que repercute en la mejora del aprendizaje por parte del alumnado y, en particular, en el desarrollo de su competencia metalingüística. Para ello, nos basaremos en el análisis de un corpus constituido por 55 obras, 30 gramáticas y 25 manuales de los niveles B2 (15) y C1 (10). Los seis trabajos del monográfico se enmarcan en dos proyectos de investigación competitivos, de cuyo equipo forman parte los autores/as.

ntroducción a la lingüística de corpus en español es la primera obra concebida desde la óptica del español para investigar los corpus textuales existentes en la actualidad. Destinada a conjugar armónicamente la exposición de cuestiones teóricas y metodológicas, proporciona información detallada sobre las tareas necesarias en el diseño, construcción y explotación de un corpus a partir de numerosos ejemplos de obtención de datos sobre diferentes cuestiones léxicas y gramaticales.

Contenidos
1. La explotactión básica de los corpus

2. La lingüística de corpus y la metodología de la investigación lingüística

3. Diseño, construcción y explotación de corpus

4. Recuperación de información contenida en corpus textuales: el léxico

5. Recuperación de información contenida en corpus textuales: fenómenos gramaticales

6. Otras cuestiones centrales en lingüística de corpus

7. Herramientas de recuperación de datos: resumen y ampliación

Texto completo PDF icon

La precisión en la escritura es de vital importancia en las audiencias académicas y profesionales, en las cuales los errores pueden estigmatizar a quienes escriben. El Feedback Correctivo Escrito (FCE) es un tema crucial en el ámbito de la Adquisición de una Segunda Lengua (ASL) dado que favorece el aprendizaje y contribuye cognitivamente al mejoramiento de los niveles de precisión en una segunda lengua. El objetivo de este artículo es aportar evidencia empírica en el área del  ELE para fines académicos. Para ello, se analiza un corpus de textos académicos de aprendientes africanos de nivel A2, cuyas L1 son portugués e inglés, con el objeto de determinar los errores más frecuentes. Los resultados arrojan que estos corresponden a las preposiciones y artículos. La determinación de dichos errores permite el tratamiento de ellos a través de estrategias de feedback correctivo escrito metalingüístico directo para mejorar la precisión de este tipo de palabras en los escritos académicos.

This article presents a state-of-the-art discussion of second language (L2) Spanish corpus-based research on lexical competence. While L2 Spanish learner corpus research (LCR) is still in its infancy, we will review the major findings of relevant studies on the production of several lexical aspects: copula choice with ser/estar; overt/null pronoun distribution; collocations and lexico-syntactic verbal competence. Due to the highly contextualised nature of learner corpus data, many of these studies show that learners do not always behave differently from natives in terms of frequency of use, though they may differ in terms of discursive and pragmatic uses. The article ends with some theoretical and methodological caveats about L2 Spanish learner corpus research. An argument is made for the need to conduct L2 corpus-based research which (1) is theoretically motivated and explanatory (as opposed to descriptive and pedagogical), (2) uses fine-grained annotation (as opposed to coarse-grained, general tagsets), (3) exploits learner corpora that are properly designed and where learner variables are properly controlled for.

---------------------------

Este artículo presenta una revisión crítica de los estudios de corpus de español como segunda lengua (L2) sobre la competencia léxica. Si bien la investigación de la adquisición del español L2 basada en corpus está aún en su infancia, se revisarán los hallazgos principales de algunos estudios clave sobre el uso de verbos copulativos (ser/estar), la distribución de pronombres plenos y nulos, las colocaciones y otros aspectos léxicos. Dado que los datos de corpus proceden de discursos naturales, la mayoría de estos estudios demuestran que los aprendices se comportan de forma similar a los nativos con relación a la frecuencia de uso, aunque difieren con relación a los usos pragmáticos y discursivos. El artículo concluye con una discusión de las limitaciones teóricas y metodológicas de dichos estudios y con recomendaciones para que los futuros estudios de español L2 basados en corpus (1) estén teóricamente motivados y sean explicativos (en vez de descriptivos y pedagógicos), (2) usen sistemas de anotación más sofisticados (en vez de sistemas genéricos) y (3) exploten corpus de aprendices que estén bien diseñados y que controlen las variables del aprendiz.

Este capítulo tiene un objetivo doble. En primer lugar, tras una breve introducción delimitadora del tema, trataremos de describir las características de los corpus de aprendices (CA) de español como lengua extranjera o segunda (LE/L2) existentes en la actualidad y facilitar a los lectores todos los datos pertinentes: denominación, responsables, direcciones web, tamaño, naturaleza de las muestras (carácter escrito u oral), tipos de codificación incorporada, fecha de construcción, L1 de los participantes y condiciones actuales de uso. Toda esa información, detallada hasta donde sea posible, será finalmente resumida en un cuadro en el que se podrán apreciar con facilidad todas sus cualidades y también sus carencias. En segundo término, describiremos las aplicaciones más importantes que se pueden obtener de los CA para la mejora del proceso de enseñanza/aprendizaje de ELE, con una enumeración final de las líneas fundamentales por las que debería discurrir esta zona de trabajo en los próximos años.

----

The purpose of this study is twofold. Firstly, after a brief introduction narrowing down the area of study, we intend to describe the characteristics of the currently existing L2 Spanish learner corpora and provide the readers with the main data: denomination, team responsible for the corpus, websites, size, type of samples (written, spoken), type of data coding, construction date, participants’ L1 and current conditions of use. All this information will be given as detailed as possible and will be summarised in a table where all the strengths and weaknesses of these corpora will be presented. We will secondly deal with the main applications of these learner corpora for the improvement of L2 Spanish teaching and learning processes together with some final notes containing a number of suggestions for future work.

En la actualidad, contamos con diversos corpus sincrónicos del español, que constituyen recursos lingüísticos de gran valor para los estudios del español con base empírica, tanto en lo que respecta al desarrollo de investigaciones sobre la lengua, como al de estrategias para su enseñanza y aprendizaje. Los objetivos de este artículo son: 1) registrar y describir los principales corpus sincrónicos del español disponibles en línea; 2) identificar utilidades de estos corpus para la investigación teórica y aplicada de la lengua española; 3) sistematizar un repertorio de algunos de los fenómenos lingüísticos más estudiados sobre la base de estos recursos. El análisis se realiza a partir de la revisión sistemática de 60 publicaciones científicas de los últimos diez años (2011-2021). Los hallazgos sugieren que, dada la extensión, actualidad y muestras de las variedades del español nativo oral y escrito, los corpus generales y los corpus especializados son recursos potentes y complementarios para la investigación teórica y aplicada de la lengua española. En este sentido, es llamativo el empleo de estos recursos en contextos de investigación y enseñanza de la variedad peninsular. Sin embargo, en los últimos años no se han encontrado, en la misma medida, publicaciones de resultados de investigaciones teóricas o aplicadas referidas a las variedades americanas del español.

At present, there are several synchronic Spanish corpora, which are linguistic resources of great value for empirical studies on Spanish, for developing both research on language, and language teaching and learning strategies. The aims of this article are: 1) to register and describe the main synchronic Spanish corpora available; 2) to identify the utilities of these corpora for theoretical and applied research on Spanish language; 3) to systematise a repertoire of some of the most studied linguistic phenomena on the basis of these resources. The analysis is based on the systematic review of 60 papers published in the last ten years (2011-2021). The findings suggest that, given the extension, topicality and samples of spoken and written native Spanish varieties, general and specialised corpora are powerful and complementary resources for theoretical and applied research on Spanish language. In this regard, it’s striking that these resources are widely used in Spanish Peninsular variety research and teaching contexts. However, recent theoretical or applied research referring to Spanish American varieties have not been found to the same extent.

En ReiDoCrea 8 (3) - Monográfico sobre Perspectivas transnacionales en la enseñanza de lenguas

Texto completo

: Este trabajo presenta una revisión bibliográfica en la que se examinan publicaciones referentes a los corpus de aprendices en general y a los de ELE en particular, destacando el papel fundamental de los avances informáticos en el desarrollo de este ámbito. Dado que la investigación en corpus de aprendices aborda el estudio de los errores, comenzaremos remontándonos a los orígenes de la Lingüística Contrastiva y sus tres modelos de análisis para, más adelante, poner de manifiesto que la ayuda proporcionada en la actualidad por los ordenadores ha solventado problemas detectados en los trabajos que implementaron estos modelos (en especial, el Análisis de Errores) durante el siglo XX. Nos centraremos, a continuación, en la investigación en corpus de aprendices: expondremos sus características principales y describiremos cinco de ellos. Exploraremos el Análisis de errores asistido por ordenador y el Análisis Contrastivo de Interlengua. Indagaremos en la relación entre la investigación basada en corpus de aprendices y la Adquisición de Segundas Lenguas, por un lado, y entre aquella y la Enseñanza de Lenguas Extranjeras, por otro. Haremos referencia a la producción pedagógica derivada del tipo de estudios que nos ocupan y, por último, incluiremos una sección final, a modo de conclusión. 

Pages

Revistas