Por @Alvy — 9 de noviembre de 2006

La primera parte de El ingenioso hidalgo don Quijote de la Mancha, por Miguel de Cervantes Saavedra, procesado por frecuencias de palabras a partir del original almacenado en modo texto en Proyecto Gutenberg, arroja estos resultados:

  • Contiene 211.560 palabras
  • De las cuales 15.781 son distintas
  • En total hay más de 800.000 letras y signos ortográficos
  • La palabra que es la más frecuente y aparece 10.611 veces (también hay 319 qué).
  • Le siguen, por este orden: de, y, la, a, en, el, no, se, los, con, por, su, lo, le, las, me, como y del. Después viene don que sería primera palabra menos común de las palabras comunes, aunque aparece 1.019 veces (el resto aparecen menos de mil veces).
  • Contiene 19.378 comas y 4.675 puntos.
  • La palabra Quijote aparece 839 veces; Sancho, 659 y Dulcinea, 88.
  • La primera palabra por orden alfabético es a y la última, zuzaban, superando a zurrón que es la penúltima.
Actualización: Los amantes de las cuestiones irrelevantes sobre frecuencias de palabras y los textos aleatorios generados por ordenador encontrarán interesante El Quijote de Markov, un apunte en La Singularidad Desnuda. En ese hilo de comentarios Iván habla de Babel, un programa para Windows que genera textos aleatorios con cadenas de Markov a nivel de letras, en varios órdenes configurables por el usuario.

Compartir en Flipboard Publicar / Tuitear Publicar