Diccionario de frecuencias léxicas basado en el CORPES

Enlace

https://www.rae.es/corpes/

Autores

Real Academia Española (RAE)

Editorial

Real Academia Española (RAE)

Lenguas

monolingüe

Clasificación

frecuencias

variedades de español

Acceso

abierto

Descripción

El Diccionario de Frecuencias Léxicas basado en el CORPES XXI ofrece una descripción detallada de la distribución y el uso del léxico en textos de prensa de 21 países hispanohablantes. Reúne más de 180 millones de palabras procedentes de casi 381 000 textos, tras eliminar nombres propios, cifras y formas no lematizadas. Su rasgo distintivo es el cálculo del índice de dispersión (DP), basado en la diferencia de proporciones (Gries, 2008), que mide la regularidad con que un lema aparece en los distintos subcorpus nacionales: los valores cercanos a 0 indican distribución homogénea y los próximos a 1, concentración irregular.

El diccionario ofrece dos listados principales: uno ordenado por la DP de cada lema y otro al modo tradicional, que incluye lemas y sus formas con datos de frecuencia absoluta, normalizada, dispersión y número de países donde se documentan. Ambos archivos, en formato TSV, permiten búsquedas, cálculos y análisis automatizados con hojas de cálculo o programas de análisis textual