Corpus: modelos de lenguaje
Nº de entradas: 1RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000... Leer más
Etiquetas
- corpus oral (25)
- corpus sonoro (11)
- corpus escrito (10)
- variedades del español (10)
- corpus de estudiantes (9)
- inmigrantes (8)
- estudiantes universitarios (6)
- español para fines específicos (5)
- interacciones conversacionales (5)
- corpus de vídeo (4)
- corpus general (4)
- humor (4)
- sinohablantes (4)
- actos de habla (3)
- hablantes de herencia (3)