Spanish Built Factual Freectianary (Spanish-BFF)

Autor(es): 

Miguel Ortega-Martín, Óscar García-Sierra, Alfonso Ardoiz, Juan Carlos Armenteros, Jorge Álvarez, Adrián Alonso

Lenguas: 

Acceso: 

Los grandes modelos de lenguaje (en inglés, large language models (LMM)), que se entrenan con grandes corpus textuales, formados por miles de millones de palabras, tienen una extraordinaria capacidad de generación de textos en lenguaje natural, hasta tal punto que el discurso generado por dichos modelos es comparable al que producen los hablantes humanos. Partiendo de la capacidad generativa de los LMM, un grupo de investigadores del Departamento de Inteligencia Artificial de la empresa dezzai (España) ha conseguido, por primera vez, crear un diccionario de gran cobertura léxica mediante una arquitectura de inteligencia artificial, concretamente, con  GPT-3, un modelo que genera texto en lenguaje natural. Este proyecto de generación automática de diccionarios ha permitido crear el Spanish Built Factual Freectianary (Spanish-BFF), el primer diccionario libre de la lengua española generado automáticamente, cuya versión completa se puede descargar libremente en la red. La primera versión de Spanish-BFF incluye 66.353 lemas, pertenecientes a las clases de palabras de nombres (38.093), verbos (9.296), adjetivos (17.424) y adverbios (1.540).

Se puede acceder al diccionario en formato texto a partir del siguiente fichero comprimido .zip: http://elies.rediris.es/infoling/SpanishBFF_0_2.txt.zip.

También se puede descargar el diccionario en formato .json desde la siguiente URL: https://huggingface.co/datasets/MMG/SpanishBFF/resolve/main/SpanishBFF_0_2.json.

Referencias
Ortega-Martín, Miguel; García-Sierra, Óscar; Ardoiz, Alfonso; Armenteros, Juan Carlos; Álvarez, Jorge; Alonso, Adrián. 2023. Spanish Built Factual Freectianary (Spanish-BFF): the first IA-generated free dictionary. arXiv: https://arxiv.org/abs/2302.12746

Deja un comentario

Debes indicar tu nombre en el mensaje para que se publique tu comentario.

Plain text

  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <div> <br> <p><img> <u>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.