etTenTen korpus, toortekst
etTenTen corpus
etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html
Algmaterjal
Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)
People who looked at this resource also viewed the following: