Corpus del español

Corpus creado por Mark Davies
Tiene cinco componentes:

  • Género / Histórico
    Este es el Corpus del Español "original" (2001).
    El corpus contiene 100 millones de palabras de entre el siglo XIII y el siglo XX, y se puede utilizar para analizar la historia del español. Para el siglo XX, los datos están divididos equitativamente entre textos orales, de ficción, de periódicos y académicos, lo que permite realizar búsquedas para comparar géneros en español.
     
  • Web / Dialectos
    Adición al Corpus del Español (2016) que contiene casi dos mil millones de palabras de páginas web de 21 diferentes países de habla hispana. Este corpus permite hacer búsquedas en textos en español muy recientes (los textos se recopilaron en 2013 y 2014) y comparar los diferentes dialectos.
    "En 2022, agregamos muchas funciones nuevas a este corpus: 1) navegación y búsqueda en los 40 000 lemas principales en el corpus 2) "páginas de palabras" detalladas con información sobre cada una de estas 40 000 palabras, inclusive definiciones, sinónimos, enlaces a imágenes y videos , información de frecuencia (por género y país), colocaciones, temas relacionados y líneas de concordancia), 3) la capacidad de ingresar y analizar textos completos, encontrar palabras clave en estos textos y luego ver información detallada (#2) para cada palabra, así como la capacidad de resaltar frases en su texto y encontrar frases relacionadas en el corpus, y 4) enlaces extensos a recursos externos en las pantallas de frecuencia y concordancia."
     
  • NOW (2012 - 2019) 
    Esta es la adición más reciente al Corpus del Español. Contiene más de 7,3 mil miillones de palabras de 21 diferentes países de habla hispana, desde 2012 hasta 2019.
     
  • Google Books n-grams (BYU)
    Interfaz para los datos n-gramas de Google Books. Se basa en 45 mil millones de palabras en decenas de millones de libros del 1800 al 2000.
     
  • WordAndPhrase  (parte #2)
    WordAndPhrase-Spanish le permite buscar y navegar entre las 40,000 palabras principales en español (según la frecuencia en el corpus). Para cada palabra, puede ver información detallada (todo en una página) - definición, sinónimos, frecuencia por género, frecuencia por país, colocados (palabras cercanas, que proporcionan una gran comprensión del significado y uso), temas relacionadas (palabras concurrentes en las mismas páginas web) y 200 líneas de concordancia de muestra (para ver los patrones en los que aparece), todos con enlaces útiles de una palabra a otra.
    También puede ingresar y analizar textos completos, como el contenido de una página web o una composición escrita por un alumno. Le mostrará las palabras clave del texto (según la frecuencia en el CdE), y puede hacer clic en cualquier palabra en el texto para ver información detallada, como se ha explicado anteriormente. También puede resaltar frases en su texto y hacer que busque frases relacionadas en el Corpus del Español.

Deja un comentario

Plain text

  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd><br><p>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.