Observatorio Lázaro es un proyecto que analiza y extrae automáticamente los anglicismos aparecidos en las noticias del día de una veintena de medios españoles de prensa escrita, entre ellos elDiario.es, El País, El Mundo, ABC, La Vanguardia, El Confidencial, 20minutos, Agencia EFE, La Marea, El Economista, Marca, Fotogramas, Rolling Stone, Elle o El Mundo Today.
Cada día, Lázaro lee la prensa, detecta los préstamos no adaptados (fundamentalmente anglicismos), los registra en una base de datos y publica los datos en esta web, donde se pueden buscar, comparar y descargar libremente.
La información técnica sobre el modelo está disponible en este artículo científico. El código del observatorio y el corpus de entrenamiento están disponibles en GitHub. El modelo ya entrenado y listo para reutilizar está disponible a través de HuggingFace y de la librería de Python pylazaro.
Dado que la extracción es totalmente automática, los datos pueden contener errores: palabras mal etiquetadas como anglicismos o anglicismos que pasan inadvertidos.