Por @Alvy — 26 de agosto de 2020

@nyt_first_said

Bajo el nombre de New New York Times (NYT_first_said) existe una cuenta de Twitter que publica palabras que aparecen por primera vez en la historia en el diario The New York Times. Para ello las compara con los archivos históricos (13 millones de artículos desde 1851) y si un término no se ha publicado nunca, a Twitter que lo lanza. Es como ver la invención del lenguaje en directo (!)

contraprotestó
ciberrobo
pseudoacrondoplasia

Hay ciertas reglas respecto a las palabras en cuestión:

  • No deben contener números
  • Las mayúsculas no valen (para evitar nombres propios)
  • Los signos de puntuación son indiferentes
  • Se evitan las URLs y artificios similares

exóvoro
intelectáculo
ultraescaladores

En la página de Github de Max Bittker, su creador, hay una representación animada de todo el proceso, donde se puede ver cómo las palabras caen en un cubo genérico, se tokenizan (eliminando puntuación y espacios), se comprueba que no estén en mayúsculas y finalmente se comparan con el archivo histórico. Si pasan todos los filtros, salen por la cuenta a Twitter.

Ayer salió por primera vez burofax, en referencia al burofax que Messi envió al F.C. Barcelona diciendo que se marcha del club. Al parecer, nunca se había usado en inglés (es una marca registrada de Correos de España, aunque se usa como genérico).

hipercoagulable
sobreentrenamiento
aleatonavegar

El autor ya avisa que el sistema no es cien por cien perfecto, que añade muchas erratas y que algunos términos no tienen sentido; pese a eso a veces salen auténticas joyas que pueden servir de inspiración o para estar a la última en el lenguaje, el «se dice» y «se comenta».

El proyecto completo está en Github: NYT_First_Said por si alguien quiere ver cómo funciona –que es sumamente interesante– o le sirve para hacer algo parecido con algún diario en español.

(¡Gracias @PMarsupia por la pista!)

Compartir en Flipboard Publicar / Tuitear Publicar