Corpus del Español del Siglo XXI (CORPES XXI)

En el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial con una distribución de 25 millones de formas por cada uno de los años correspondientes al siglo XXI.

En enero de 2023 se publicó la versión 0.99, con más de 357 000 documentos y más de 381 millones de formas ortográficas. El 28 de marzo, en el IX Congreso de la Lengua Española, celebrado en Cádiz, se presentó la versión 1.0 del CORPES. El 2 de junio se publicó esta versión, que cuenta con más de 365 000 documentos que suman algo más de 395 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior supone un incremento de más de 15 millones de formas; más de cuatro millones y medio de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.

Versión 1.0

Parámetros
Sistema de codificación

Deja un comentario

Debes indicar tu nombre en el mensaje para que se publique tu comentario.

Plain text

  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <div> <br> <p><img> <u>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.