Litteratur
Project Gutenberg [1] og Project Runeberg [2] inneholder store mengder litteratur på forskjellige språk og i forskjellige formater (HTML,EPUB, Kindle, ren tekst). Disse dataene er åpent tilgjengelig og er ganske artig å arbeide med når det gjelder statistikk over ordlengder, setningslengder, bokstavforekomster, søking, telling osv.
Et eksempel på en ren tekst fra Project Gutenberg,
MEMOIRS OF SHERLOCK HOLMES by Sir Arthur Conan Doyle :
memoirs_of_sherlock_holmes.txt