Data
Børre Stenseth

Litteratur

Project Gutenberg [1] og Project Runeberg [2] inneholder store mengder litteratur på forskjellige språk og i forskjellige formater (HTML,EPUB, Kindle, ren tekst). Disse dataene er åpent tilgjengelig og er ganske artig å arbeide med når det gjelder statistikk over ordlengder, setningslengder, bokstavforekomster, søking, telling osv.

Et eksempel på en ren tekst fra Project Gutenberg,
MEMOIRS OF SHERLOCK HOLMES by Sir Arthur Conan Doyle :

memoirs_of_sherlock_holmes.txt
Referanser
  1. Project Gutenberg www.gutenberg.org 02-03-2014
  1. Prosjekt Runeberg Prosjekt Runeberg runeberg.org/ 02-11-2014