RedPajama-Data-v2

RedPajama-Data-v2 es un corpus multilingüe de acceso abierto para el entrenamiento de modelos de lenguaje, que está formado por 30 billones de formas léxicas (tokens), repartidos en 20.000 millones de documentos de texto. RedPajama incluye cinco subcorpus multilingües de textos, respectivamente, en alemán, español, francés, inglés e italiano.

El subcorpus del español tiene casi 3 billones de palabras (2.800.000.000.000). 

RedPajama está disponible en GitHub y también se puede descargar desde Hugging Face.

Más información sobre RedPajama-Data-v2: RedPajama-Data-v2: An open dataset with 30 trillion tokens for training large language models

Deja un comentario

Debes indicar tu nombre en el mensaje para que se publique tu comentario.

Plain text

  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <div> <br> <p><img> <u>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.