etTenTen korpus, morfoloogiliselt ühestatud ![Corpus](/site_media/css/sexybuttons/images/icons/silk/database_yellow.png)
etTenTen corpus![](/site_media/images/trenner.png)
etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
vt veel http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html
Algmaterjal
Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)
People who looked at this resource also viewed the following: