Corpus - modelos de lenguaje

RedPajama-Data-v2

https://github.com/togethercomputer/RedPajama-Data

RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas... Ver más»