Por @Alvy — 9 de noviembre de 2006
La primera parte de El ingenioso hidalgo don Quijote de la Mancha, por Miguel de Cervantes Saavedra, procesado por frecuencias de palabras a partir del original almacenado en modo texto en Proyecto Gutenberg, arroja estos resultados:
- Contiene 211.560 palabras
- De las cuales 15.781 son distintas
- En total hay más de 800.000 letras y signos ortográficos
- La palabra que es la más frecuente y aparece 10.611 veces (también hay 319 qué).
- Le siguen, por este orden: de, y, la, a, en, el, no, se, los, con, por, su, lo, le, las, me, como y del. Después viene don que sería primera palabra menos común de las palabras comunes, aunque aparece 1.019 veces (el resto aparecen menos de mil veces).
- Contiene 19.378 comas y 4.675 puntos.
- La palabra Quijote aparece 839 veces; Sancho, 659 y Dulcinea, 88.
- La primera palabra por orden alfabético es a y la última, zuzaban, superando a zurrón que es la penúltima.