RedPajama-Data-v2

Enlace

https://github.com/togethercomputer/RedPajam…

Etiquetas

Descripción

RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000 millones de documentos de texto. RedPajama incluye cinco subcorpus multilingües de textos, respectivamente, en alemán, español, francés, inglés e italiano.

El subcorpus del español tiene casi 3 billones de palabras (2.800.000.000.000).

RedPajama está disponible en GitHub y también se puede descargar desde Hugging Face.

Más información sobre RedPajama-Data-v2: RedPajama-Data-v2: An open dataset with 30 trillion tokens for training large language models