Corpus - modelos de lenguaje
https://github.com/togethercomputer/RedPajama-Data RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas... Ver más» |
En esta sección se recopilarán los corpus del español disponibles en la red.