Corpus
Nº de entradas: 30RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000... Leer más
CEDEL2 es un corpus lingüístico de aprendices de español que empezó a desarrollarse en 2006. La versión actual, versión 2, que incluye los datos de la 1, recoge las producciones de 4399 participantes... Leer más
Cuadernillo del corpus
Muestras de textos para descargar:
Nivel A2 - Plataforma
Nivel B1 - Umbral
Nivel B2 - Avanzado
Nivel C1 - Dominio operativo eficaz
"[...] el análisis de errores... Leer más
Corpus de arquitectura y construcción que recoge un millón de palabras, en cada uno de estos idiomas: español, francés, italiano, alemán y ruso. Es un corpus dirigido a estudiantes de... Leer más
El corpus DIACOM-es es un corpus diacrónico especializado que reúne textos de ámbito comercial en lengua española. Se publicó en 2022 en el seno del Depto. de Lenguas y Literaturas Extranjeras de la... Leer más
El Corpus del Español en los Estados Unidos (CORPEEU) es un proyecto iniciado en el ?Observatorio de la lengua española y las culturas hispánicas? del Instituto Cervantes en la Universidad de Harvard... Leer más
El corpus CALMER (Corpus comparable para el estudio de la Adquisición y de las Lenguas: Multilingüe, Emoción, Relato) está compuesto por relatos narrativos manuscritos inspirados en un mismo relato... Leer más
El corpus CorSinoELE. Corpus de español hablado y escrito por sinohablantes consta de 395 textos orales y escritos producidos por 99 hablantes chinos estudiantes de la Universidad de Beihua,... Leer más
Este sitio contiene grabaciones en vídeo de conversaciones naturales entre hablantes de español para ser usadas como fuentes de lengua en enseñanza y aprendizaje de esta lengua. Las grabaciones han... Leer más
AnCora es un corpus del catalán (AnCora-CA) y del español (AnCora-ES) con diferentes niveles de anotación:
lema y categoría morfológica
constituyentes y funciones sintácticas
estructura argumental y... Leer más
Etiquetas
- corpus sonoro (10)
- corpus oral (6)
- corpus de estudiantes (5)
- corpus escrito (5)
- corpus de vídeo (3)
- corpus general (3)
- corpus de referencia (2)
- corpus multilingüe (2)
- español para fines específicos (2)
- inmigrantes (2)
- variedades geográficas (2)
- variedades sociales (2)
- ámbito comercial (1)
- arquitectura (1)
- audio (1)