FLEE korpused

Sellele lehele on koondatud info eesti keele korpustest ja muudest keelematerjalikogudest, mida koostatakse Tartu Ülikoolis.  Lehekülg annab ülevaate, missuguseid eesti keele korpusi Tartu Ülikoolis on tehtud, millist materjali need sisaldavad ning kuidas on võimalik neid kasutada. Siit leiate ka täpsemad andmed selle kohta, kes nende korpuste eest vastutab.

Kui teie hallata on andmekogu/korpus, mis siinses nimekirjas ei kajastu, aga võiks kajastuda, siis andke teada aadressil  liina.lindstrom@ut.ee või kristian.kankainen@ut.ee.

Nimekirjas on: Eesti keele koondkorpus, Eesti kirjakeele korpus 1890--1990, Asutawa Kogu protokollid, Morfoloogiliselt ühestatud korpus, Süntaktiliselt ühestatud korpus, Eesti keele puudepank, Ühestatud sõnatähendustega korpus, Inglise-eesti ja eesti-inglise paralleelkorpus, Eesti murrete korpus, Õppijakeele korpus, Eesti kooliõpilaste kirjalik tekstikorpus, Eesti vana kirjakeele korpus VAKK, Multimodaalse suhtluse andmebaas ehk MUSU, Tartu ülikooli suulise eesti keele korpus, Tartu ülikooli süstemaatiline netiallkeelte korpus, Eesti keele spontaanse kõne foneetiline korpus.

TÜ eesti ja üldkeeleteaduse instituudi korpused

 Eesti keele koondkorpus

vastutaja
Kadri Muischnek
epost
kadri.muischnek@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.cl.ut.ee/korpused/kasutajaliides/
lühikirjeldus
Korpus kajastab tänapäeva kirjaliku eesti keelt. Sisaldab tekste alates 1990 (põhiosa siiski ilmunud hiljem kui 1995).
Koosneb eesti ilukirjanduslikest, ajakirjanduslikest, teadus ja populaarteaduslikest, uue meedia ja muudest tekstidest.
Kogutud valdavalt internetis olevaid tekste (pool)automaatselt salvestades ja korpuse kujule teisendades (ajalehtede ja ajakirjade arhiivid, uus meedia); vähemal määral ükshaaval kogutud tekste poolautomaatselt teisendades (ilukirjandus, teaduskirjandus).
andmete ajavahemik
1990--
avatud-suletud tüüp

kasutatud transkriptsiooni
TEI standard (http://www.tei-c.org/)
märgendatud keeletasandid
teksti osad
andmete vorm
tekst;
andmete maht
ca 230 miljonit sõna
kodeering
ASCII ja HTML-olemid, lähitulevikus UTF-8
märksõnu
sünkrooniline; tänapäeva eesti keel; ilukirjanduslik keel; teaduskeel; ajalehekeel; kirjakeel;

ALLKORPUS 1

Tasakaalus korpus

vastutaja
Kadri Muischnek
epost
kadri.muischnek@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/grammatikakorpus/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.cl.ut.ee/korpused/grammatikaliides/
lühikirjeldus
Koondkorpuse tasakaalustatud allosa, koosneb:
5 miljonit sõna ilukirjandust
5 miljonit sõna ajalehekeelt
5 miljonit sõna teaduskeelt
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid
morfoloogia; grammatika;
andmete vorm
tekst;
andmete maht
15 miljonit sõna
kodeering

märksõnu
grammatika; kirjakeel; tasakaalustatud; ilukirjanduslik keel; ajalehekeel; teaduskeel;

 Eesti kirjakeele korpus 1890--1990

vastutaja
Kadri Muischnek
epost
kadri.muischnek@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/baaskorpus/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.cl.ut.ee/korpused/kasutajaliides/
lühikirjeldus
Monitorkorpus 1890-1990. Sisaldab igast kümnendist (va 1920ndad ja 1980ndad) ilukirjanduse ja ajakirjanduse tekste; 1980ndatest miljon sõna järgmistest valdkondadest: ajalehed, ilukirjandus, populaarteadus, teadus, entsüklopeedilised teosed, hobid ja harrastused, esseed ja biograafiad, vaimulikud tekstid, dokumendid, propagandatekstid.
andmete ajavahemik
1890--1990
avatud-suletud tüüp

kasutatud transkriptsiooni
TEI standard
märgendatud keeletasandid
teksti osad
andmete vorm
tekst;
andmete maht
ca 4,5 miljonit sõna
kodeering
ASCII ja HTML-olemid
märksõnu
kirjakeel; ilukirjanduslik keel; monitorkorpus; ajalehekeel; diakrooniline;

 Asutawa Kogu protokollid

vastutaja
Kadri Muischnek
epost
kadri.muischnek@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/baaskorpus/akp/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.cl.ut.ee/korpused/kasutajaliides/
lühikirjeldus
Sisaldab Asutawa Kogu protokolle aastatest 1919-1920.
Tehtud Tokyo Ülikoolis; täname prof Kazuto Matsumurat.
andmete ajavahemik
1919--1920
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst; XML
andmete maht
ca 2 miljonit sõna
kodeering
UTF-8
märksõnu

 Morfoloogiliselt ühestatud korpus

vastutaja
Kadri Muischnek
epost
kadri.muischnek@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/morfkorpus/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.cl.ut.ee/korpused/morfliides/
lühikirjeldus
Käsitsi morfoloogiliselt ühestatud korpus.
Koosneb:
Ilukirjandus (eesti autorid): 104 000 sõna
G. Orwelli "1984": 75 500 sõna
Ajakirjandus: 111 000 sõna
Seadused: 121 000 sõna
Horisont: 98 000 sõna
Info-tekstid: 4 000 sõna
Suuline*: 100 000 sõna
Kokku: 613 000 sõna
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni
kohalik standard, nn Tiia Puolakaise ühestaja kuju, teisendatav Multext-Easti standardiks.
märgendatud keeletasandid
morfoloogia;
andmete vorm
tekst;
andmete maht
613 000 sõna
kodeering
ASCII ja HTML-olemid
märksõnu
ühestatud; kirjakeel; ilukirjanduslik keel; ajalehekeel;

 Süntaktiliselt ühestatud korpus

vastutaja
Kaili Müürisep
epost
kaili.muurisep@ut.ee
lehekülg
http://math.ut.ee/~kaili/Korpus/pindmine/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
andmed allalaaditavad
lühikirjeldus
Käsitsi ja poolkäsitsi süntaktiliselt ühestatud korpus. Märgendatud on nn süntaktilised funktsioonid; järgib üldjoontes EKG põhimõtteid. Kitsenduste grammatika (nimetatud ka Piirangute grammatikaks) formalism.

Koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid
süntaks
andmete vorm
tekst;
andmete maht
ca 500 000 sõna
kodeering
ASCII ja HTML-olemid
märksõnu
süntaks; ühestatud;

 Eesti keele puudepank

vastutaja
Kaili Müürisep
epost
kaili.muurisep@ut.ee
lehekülg
http://math.ut.ee/~kaili/Korpus/puud/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
andmed on allalaaditavad
lühikirjeldus
Süntaktiliselt märgendatud tekstikorpus, milles teksti iga lause jaoks on leitud selle lause (puukujuline) struktuur.
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid
süntaks
andmete vorm
tekst; VISL; Tiger XML
andmete maht
ca 1300 lauset
kodeering

märksõnu
puukuju; ühestatud;

 Ühestatud sõnatähendustega korpus

vastutaja
Neeme Kahusk
epost
neeme.kahusk@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/semkorpus/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
andmed on allalaaditavad
lühikirjeldus
Tekstides on märgendatud polüseemsete sõnade tähendused Eesti Wordneti tähenduste süsteemi järgi.
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni
kohalik standard
märgendatud keeletasandid
semantika
andmete vorm
tekst;
andmete maht
ca 100 000 sõna
kodeering

märksõnu
polüseemia; wordnet;

 Inglise-eesti ja eesti-inglise paralleelkorpus

vastutaja
Heiki-Jaan Kaalep
epost
heiki-jaan.kaalep@ut.ee
lehekülg
http://www.cl.ut.ee/korpused/paralleel/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
andmed on allalaaditavad
lühikirjeldus
Selles korpuses on paralleelistatud järgmised tekstid lausete kaupa:
1. Eesti seadused ja nende tõlked inglise keelde, 293 tk
2. Euroopa Liidu õigusaktid ja nende eestikeelsed tõlked, 2981 + 1093 tk
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst; XML
andmete maht
eesti keeles: 3,3 miljonit sõna
inglise keeles 4,0 miljonit sõna
kodeering

märksõnu
paralleelistatud;

 Eesti murrete korpus

vastutaja
Liina Lindström
epost
liina.lindstrom@ut.ee
lehekülg
http://www.murre.ut.ee/
vastutav osakond
eesti keele osakond
vastutav töörühm
Eesti murrete ja murdekorpuse töörühm
riiklik programm või grant
Eesti murrete ja sugulaskeelte andmebaas, EKKM 09111
ligipääs

otsimootor

lühikirjeldus
Sisaldab tekste kõigist eesti murretest, igast murdest vähemalt 2 murrakust. Valitud on tekstid, mis on kogutud põhiosas 1960--1970ndatel, üksikud tekstid ka varasemast ja hilisemast ajast. Traditsioonilised murdeintervjuud, kõnelejateks reeglina vanemad inimesed.

Tekstide peamine valikukriteeriumid: esindab kohalikku keelt, võimalikult vanapärane murre, on olemas piisavalt kvaliteetne helisalvestis.

Alates 2009. aastast lisatakse ka lähisugulaskeelte tekse (vadja, liivi ja isuri).
andmete ajavahemik
1938-1998, põhiosas 1960-70ndad
avatud-suletud tüüp
suletud
kasutatud transkriptsiooni

märgendatud keeletasandid
foneetika; morfoloogia; süntaks;
andmete vorm
tekst; xml; sql; audio
andmete maht
ca 1,1 miljonit tekstisõna
kodeering

märksõnu
diakrooniline; murded; murrakud; lähisugulaskeeled; vadja; liivi;


ALLKORPUS 1

foneetilises transkriptsioonis tekstid

vastutaja
Liina Lindström
epost
liina.lindstrom@ut.ee
lehekülg
http://www.murre.ut.ee/
vastutav osakond
eesti keele osakond
vastutav töörühm
Eesti murrete ja murdekorpuse töörühm
riiklik programm või grant
Eesti murrete ja sugulaskeelte andmebaas, EKKM 09111
ligipääs
administraatori kaudu
otsimootor

lühikirjeldus
Kasutatud on soome-ugri foneetilist transkriptsiooni, litereeritud on ka küsitleja tekst. Tekstis on sisestatud ja kasutatavad  Wordis, kasutatud on spetsiaalseid fonte, mille on loonud Esko Oja.
andmete ajavahemik

avatud-suletud tüüp
suletud
kasutatud transkriptsiooni
soome-ugri foneetiline transkriptsioon
märgendatud keeletasandid
foneetika
andmete vorm
tekst (MS Word spetsiaalasete fontidega); PDF
andmete maht
ca 1,1 miljonit tekstisõna
kodeering
erikodeering
märksõnu
foneetiline transkriptsioon; litereeritud; murded; murrakud; lähisugulaskeeled; vadja; liivi;


ALLKORPUS 2

morfoloogiliselt märgendatud tekstid

vastutaja
Liina Lindström
epost
liina.lindstrom@ut.ee
lehekülg
http://www.murre.ut.ee/
vastutav osakond
eesti keele osakond
vastutav töörühm
Eesti murrete ja murdekorpuse töörühm
riiklik programm või grant
Eesti murrete ja sugulaskeelte andmebaas, EKKM 09111
ligipääs
avalik
otsimootor
http://www.murre.ut.ee/otsing/search.php
lühikirjeldus
Morfoloogiliselt märgendatud tekstides on sõnele lisatud:
1) märksõna
2) tähendus (kui erineb kirjakeelest)
3) sõnaklass
4) morf. info (käände- ja pöördelõpud jms)
andmete ajavahemik

avatud-suletud tüüp
suletud
kasutatud transkriptsiooni
lihtsustatud transkriptsioon
märgendatud keeletasandid
morfoloogia
andmete vorm
tekst; XML; SQL
andmete maht
u 600 000 tekstisõna
kodeering
ISO1159-15 (XML-is), UTF-8 (SQL-is)
märksõnu
morfoloogiliselt märgendatud; murded; murrakud; lähisugulaskeeled; vadja; liivi;


ALLKORPUS 3

lihtsustatud transkriptsioonis tekstid

vastutaja
Liina Lindström
epost
liina.lindstrom@ut.ee
lehekülg
http://www.murre.ut.ee/
vastutav osakond
eesti keele osakond
vastutav töörühm
Eesti murrete ja murdekorpuse töörühm
riiklik programm või grant
Eesti murrete ja sugulaskeelte andmebaas, EKKM 09111
ligipääs
avalik
otsimootor
http://www.murre.ut.ee/otsing/syntaks.php
lühikirjeldus
Lihtsustatud transkriptsioonis tekstid põhinevad foneetilises transkriptsioonis tekstidel, kaotatud on sptsiifilised transkriptsioonimärgid, kasutusel on võimalikult vähe märke. Sobib kasutamiseks kõikvõimalike prohgrammidega. Lisaks on märgendatud keelejuhi ja küsitleja voorud, kommentaarid jsm.
andmete ajavahemik

avatud-suletud tüüp
suletud
kasutatud transkriptsiooni
lihtsustatud transkriptsioon
märgendatud keeletasandid
foneetika
andmete vorm
tekst;
andmete maht
ca 1 miljon tekstisõna
kodeering
ISO1159-15
märksõnu
lihtsustatud transkriptsioon;litereeritud; murded; murrakud; lähisugulaskeeled; vadja; liivi;


ALLKORPUS 4

helisalvestised

vastutaja
Liina Lindström
epost
liina.lindstrom@ut.ee
lehekülg
http://www.murre.ut.ee/
vastutav osakond
eesti keele osakond
vastutav töörühm
Eesti murrete ja murdekorpuse töörühm
riiklik programm või grant
Eesti murrete ja sugulaskeelte andmebaas, EKKM 09111
ligipääs
administraatori kaudu
otsimootor

lühikirjeldus
Iga teksti juurde kuulub helisalvestis. Salvestised on pärit Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivist ja EKI murdearhiivist.
andmete ajavahemik

avatud-suletud tüüp
suletud
kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
audio;
andmete maht

kodeering
wav; mp3
märksõnu
helisalvestised; audio; murded; murrakud; lähisugulaskeeled; vadja; liivi; isuri;


ALLKORPUS 5

süntaktiliselt analüüsitud tekstid

vastutaja
Liina Lindström
epost
liina.lindstrom@ut.ee
lehekülg
http://math.ut.ee/~kaili/Korpus/pindmine/
vastutav osakond
http://www.murre.ut.ee/
vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor

lühikirjeldus
Morfoloogiliselt märgendatud tekstid on sisendiks süntaksianalüsaatorile, käsitsi ühestatud. Märgendatud on nn süntaktilised funktsioonid; järgib üldjoontes EKG põhimõtteid. Kitsenduste grammatika (nimetatud ka Piirangute grammatikaks) formalism. Kuulub allosana ka  Süntaktiliselt ühestatud korpusesse.
andmete ajavahemik

avatud-suletud tüüp
suletud
kasutatud transkriptsiooni
lihtsustatud transkriptsioon
märgendatud keeletasandid
süntaks
andmete vorm
tekst;
andmete maht
18 000 tekstisõna
kodeering
UTF-8 ja HTML-olemid
märksõnu
süntaks; ühestatud; murded; murrakud;

 Õppijakeele korpus

vastutaja
Kristiina Praakli (alates 2008. aastast)
epost
kristiina.praakli@ut.ee
lehekülg

vastutav osakond
Eesti keele (võõrkeelena) osakond
vastutav töörühm
Kristiina Praakli, Neeme Kahusk, Kadri Sõrmus ja Madis Arukask
riiklik programm või grant
Eesti keele keeletehnoloogiline tugi (2006-2010)
ligipääs
piiratud
otsimootor

lühikirjeldus
Õppijakeelekorpus on autentne õelektrooniline kogu, mis sisaldab Tartu Üeesti keelt teise keelena võvõõõüõloodud eri tüükirjalikke tekste.
Õppijakeel tähendab keelevariante, mida õppijad sihtkeeles loovad.

Õppijakeele korpus loodud kahel eesmärgil:
1) luua andmebaas, mis pakub autentset keelematerjali õuurimiseks ning õkoostamiseks;
2) arendada õppijakeele korpuse baasil välja eesti keelt võõrkeelena või teise keelena õppijale õpet toetav veebikeskkond.

Õppijakeele korpuse keeletehnoloogiline eesmärk on välja töötada veamärgendussüsteem ning märgendada õppijakeele korpus kõikide vigade osas.  Nii võimaldab korpus uurida mitte-eesti keelt emakeelena kõnelevate üliõpilaste kirjalikku keelekasutust eesti keeles ning tuua välja need erijooned, mis eristavad õppijakeelt emakeelena kõnelejate keelest.
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid
ortograafia; ; süntaks; leksika; stiil; muu
andmete vorm
tekst;
andmete maht

kodeering

märksõnu
õppijakeel; võõrkeel; eesti keel teise keelena;


ALLKORPUS 1

Paralleelkorpus

vastutaja
Raili Pool
epost
raili.pool@ut.ee
lehekülg
tegemisel
vastutav osakond
Eesti keele (võõ) osakond
vastutav töörühm

riiklik programm või grant
Eesti keele keeletehnoloogiline tugi (2006-2007)
ligipääs
piiratud
otsimootor

lühikirjeldus
Paralleelkorpus koosneb B1 ja B2 kirjaliku keeleoskustasemega üliõpilaste kirjalike tööde vigaste lausetest. Iga normidele mittevastava lause juurde on paralleelselt sisestatud parandustega lause (kas üks või mitu parandusversiooni) ning vajadusel kommentaarid. Iga vealause juurest leiab ka veategija profiili, mis sisaldab veategija kohta peamist infot kodeeritud vormis (sugu, rahvus, emakeel, elukoht, keeleoskuse tase).
andmete ajavahemik
2006--2007
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
üksiklaused; XML
andmete maht
9 000 vigast lauset, 9100 parandatud lauset (emakeelena kõnelejate parandused)
kodeering

märksõnu
paralleelistatud tekst;


ALLKORPUS 2

Tekstikorpus (2008-2010)

vastutaja
Kristiina Praakli
epost
kristiina.praakli@ut.ee
lehekülg
tegemisel
vastutav osakond
Eesti keele (võõrkeelena) osakond
vastutav töörühm
Kristiina Praakli (vastutaja), Neeme Kahusk, Kadri Sõrmus, Madis Arukask
riiklik programm või grant
Eesti keele keeletehnoloogiline tugi (2008-2010)
ligipääs
piiratud
otsimootor

lühikirjeldus
Kogutud materjali aluseks mitte-eestlastest üõ(emakeel vene, soome, saksa, inglise, läja
hispaania keel) kirjalikud töö. Eesmäon koguda terviktekste, mis võ
näha ja analüüsida viga ja vea konteksti tervikuna. Tekstikorpus koosneb kindlate
kriteeriumide alusel igapäevastest keeleõppesituatsioonidest kogutud tekstidest.
Tekstikorpuse tekstiliigid:
1. Kodukirjandid (lektüüri kokkuvõtted, analüüsid, aktuaalsed teemad)
2. Eksamitööd (pikemad kirjalikud tekstid, mitte ülesanded)
3. Tunnis kirjutatud tekstid
4. Üliõpilaste e-kirjad
5. Lõputööde sissejuhatused ja kokkuvõtted
6. Praktikapäevikud

Iga teksti juurde on lisatud metaandmed teksti ja autori kohta (teksti liik, informandi tähis,
emakeel, sugu, elukoht, keeleoskustase).

Vealiigid märgendatakse kuue põhitasandi lõikes (ortograafia, morfoloogia, süntaks, leksika, stiil, muu). Keelevigade põhitasandite kõrval määratletakse ka keelevigade alltüübid. Märgendamissüsteem peab katma võimalikult erinevad vealiigid ning võimaldama ühele sõnale (fraasile, lausele,   lauseosale) lisada ka mitu erinevat märgendit.

Vead märgendatakse ka sõnaliigiti. Keelevigade sagedusloend annab ülevaate õppijakeele tekstides esinevate sõnade tegeliku esinemissageduse kohta ning võimaldab teha statistilisi uurimusi. Statistiline analüüs peegeldab ka teatud sõnade või grammatiliste vormide üle- või alakasutust õppija keeles. Märksõnaotsingud analüüsivad sõna nende esinemise kontekstis ning võimaldab leida kõik otsitava sõna esinemisjuhud.
andmete ajavahemik
2008--2010
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid
ortograafia; morfoloogia; süntaks; leksika; stiil; muu
andmete vorm
tekst; XML
andmete maht
300 000 sõna
kodeering

märksõnu
õppijakeel; võõrkeel; eesti keel teise keelena;

 Eesti kooliõpilaste kirjalik tekstikorpus

vastutaja
Kadri Sõrmus
epost
kadri.sormus@ut.ee
lehekülg
puudub
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
piiratud
otsimootor

lühikirjeldus
Eesti koolilapse keelekasutuse uurimiseks on koostatud tekstide kogu, mida võib emakeeleõppija korpuseks.

Tekstide kogumisel on arvesse võetud autorite emakeelt, vanuselist ja piirkondlikku ära, teksti tüüpi kirjutamise situatsiooni.

Teksti karakteristikute ja kirjutamise situatsiooni põhjal õib kogutud materjali liigitada kolme gruppi: eksamikirjandid, ja õistluskirjandid.
andmete ajavahemik
1997--
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst;
andmete maht

kodeering

märksõnu
emakeele õppijakeel; kirjalik tekst; õppijakeel;


ALLKORPUS 1

Eksamikirjandid

vastutaja
Kadri Sõrmus
epost
kadri.sormus@ut.ee
lehekülg

vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs

otsimootor

lühikirjeldus
Alates 1997. aastast on igal kevadel Riikliku Eksami- ja Kvalifikatsioonikeskuse (REKK) arhiividesse laekunud u 10 000 eksamikirjandit nii gümnaasiumi, kutsekooli kui ka õhtukooli lõpetajatelt. Kirjandid on kirjutatud kontrollitud situatsioonis, abivahendina on lubatud kasutada õigekeelsussõnaraamatut. Eksamikirjandi peavad kirjutama kõik põhikooli või gümnaasiumit lõpetavad õpilased, mistõttu kirjandite tase erineb väga suurel määral (veatutest kirjanditest 60–70 veaga kirjanditeni). REKK ei piira kirjandite kasutamist uurimise eesmärgil, kuid elektroonilise eksamikirjandite kogu loomine on raskendatud – kirjandite hulk on küll tohutult suur, kuid need kõik on käsikirjalised. Põhikooli lõpus kirjutatavaid kirjandeid hinnatakse ja säilitatakse koolides.

Emakeeleõppija korpusesse kogutud eksamikirjandite hulk on väike. Kirjandid on pärit M. Rõigase koostatud kirjandiõpetuse kogumikest ning on sinna tükitud originaaltekstide järgi (Madissoo 1998 ja Madissoo 2002). Teiste emakeeleõppija korpuses sisalduvate tekstidega võrreldes on eksamikirjandid kirjutatud ajaliselt mõned aastad varem – 1997. ja 2001. aasta kevadel.
andmete ajavahemik
1997--
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst; õppijakeel;
andmete maht
18 763 sõna
kodeering

märksõnu


ALLKORPUS 2

Koolikirjandid

vastutaja
Kadri Sõrmus
epost
kadri.sormus@ut.ee
lehekülg

vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs

otsimootor

lühikirjeldus
Koolikirjanditeks nimetan kirjandeid, mida õppija on kirjutanud koolis õpetaja antud teemal, kuid mis ei ole kirjutatud eksamisituatsioonis (ka jooksva töö kirjandid Villandi 1966: 17). Õpilane võib olla kasutanud abivahendeid. Koolikirjandeid esitavad õppijad ka elektrooniliselt ning nende kogumine on seetõttu eksamikirjanditega võrreldes hõlpsam. Koolikirjandeid kirjutavad kõik õppijad.

Emakeeleõppija korpuse koolikirjandite kogu sisaldab 115 eesti emakeelega gümnaasiumiõpilase kirjandit, mis on kirjutatud 2007.–2008. aastal. Kirjandid on kogutud kolme maakonna viiest koolist. Enim tekste on pärit Viljandi maakonnast. Tekstid on kogutud emakeeleõpetajate abiga.
andmete ajavahemik
2007--2008
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst;
andmete maht
61 793 sõna
kodeering

märksõnu


ALLKORPUS 3

Võistluskirjandid

vastutaja
Kadri Sõrmus
epost
kadri.sormus@ut.ee
lehekülg

vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs

otsimootor

lühikirjeldus
Kolmas liik kirjandeid esindab kirjutajate paremikku, kuna tööd saadetakse teistega konkureerima. Võistluskirjandi kirjutamiseks võib õppija nõu küsida õpetajalt või teistelt võimalikelt nõuandjatelt. Võistluskirjandite kogumine on teiste kirjanditega võrreldes kõige lihtsam, sest need esitatakse enamasti elektroonilisel kujul.
Emakeeleõppija korpuse võistluskirjandid on pärit SA Innove korralikult dokumenteeritud arhiivist. Kirjandite koguhulgast on eraldatud vene emakeelega õppijate kirjandid. Esialgne arvamus, et võistluskirjanditena laekub vaid keeleliselt väga korrektseid kirjandeid, ei pidanud paika.
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst;
andmete maht
243 719 sõna
kodeering

märksõnu


ALLKORPUS 4

Põhikooliõpilaste kirjandid

vastutaja
Kadri Sõrmus
epost
kadri.sormus@ut.ee
lehekülg

vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs

otsimootor

lühikirjeldus
Põhikooliõpilaste kirjandite kogu ei ole homogeenne, sisaldades nii kooli- kui ka aastatest 2005–2008. Kuna põhikooliõpilastelt kogutud tekstide koguhulk väike, ei peetud otstarbekaks eksamikirjandeid koolikirjanditest eraldi analüüsida.

Metaandmete põhjal on võimalik eksamikirjandeid koolikirjanditest eristada ning korpuse tulebki teha. Põhikooliõpilaste kirjandid on kogutud neljast Tartu linna ja koolist õhikooli vanemast osast ehk 7.–9. klassi õpilastelt. Kirjandid on kogutud õpetajate .
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst;
andmete maht
12 114 sõna
kodeering

märksõnu

 Eesti vana kirjakeele korpus VAKK

vastutaja
Külli Prillop
epost
kulli.prillop@ut.ee
lehekülg
http://www.murre.ut.ee/vakkur/
vastutav osakond

vastutav töörühm
Vana kirjakeele uurimisrühm
riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.murre.ut.ee/vakkur/Korpused/Kwic2/paring.htm
lühikirjeldus
Korpus on mõeldud eelkõige kirjakeele ajaloo uurijatele ning kirjakeele arengust . Sisaldab olulisemaid tekste 16.―18. sajandist. 16. sajandist on korpusesse õetud kõik teadaolevad trükitud ja käsikirjalised tekstid, v. a koha- ja isikunimeloendid.
17.–18. sajandi tekstidest on koostatud valikkorpus, milles on hõlmatud tollaste õjukamate autorite ja olulisemate tekstiliikide näited. Esindatud on nii lõuna- kui ka õhjaeesti keel, nii ilmalikud kui ka vaimulikud kirjutised. Korpusest on välja jäetud ükid, riimilised tekstid, aabitsad ja kalendrid, käsikirjad.
Tekstid on arvutisse sisestatud autorite kirjaviisi muutmata. Avalikult kasutatav korpus ei praegu ärgendatud.
andmete ajavahemik
16.--18. sajand
avatud-suletud tüüp

kasutatud transkriptsiooni
autorite kirjaviis muutmata
märgendatud keeletasandid

andmete vorm
tekst; XML;
andmete maht
ca 1,5 miljonit sõnet
kodeering

märksõnu
kirjakeel; vana kirjakeel; ajalugu; tartu keel; tallinna keel; põhjaeesti keel; lõunaeesti keel; diakrooniline;


ALLKORPUS 1

19. sajandi I poole tekstikogu

vastutaja
Külli Prillop
epost
kulli.prillop@ut.ee
lehekülg
http://www.murre.ut.ee/vakkur/
vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
avalik
otsimootor
http://www.murre.ut.ee/vakkur/Korpused/Kwic2/paring19.htm
lühikirjeldus
Mõeldud kirjakeele arengu uurijatele. Korpuses on valik tekste 19. sajandi I poole , nt O. W. Masing, F. R. Kreutzwald, G. H. Schüdlöffel. On nii kui ka uues tekste. Tekstid ei ole märgendatud.
andmete ajavahemik
1800--1850
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst; XML;
andmete maht
400 000 sõnet
kodeering

märksõnu
diakrooniline; kirjakeel; vana kirjakeel;

 Multimodaalse suhtluse andmebaas ehk MUSU

vastutaja
Silvi Tenjes
epost
silvi.tenjes@ut.ee
lehekülg

vastutav osakond
Eesti keele võõrkeelena osakond ning inglise filoloogia osakond
vastutav töörühm
Multimodaalse suhtluse uurimisgrupp
riiklik programm või grant
osaliselt grant GFLEE 8008
ligipääs
piiratud
otsimootor

lühikirjeldus
Korpuse loomisega alustati 2009. aastal seoses ETFi grandiprojekti nr 8008
teostamisega ning Multimodaalse suhtluse uurimisgrupi loomisega (välja kasvanud 2003. loodud TÜ käežestide uurimise grupist), uurimaks multimodaalset suhtlust konkreetses suhtlussituatsioonis ning suhtluse struktuuri ja dünaamikat.
Korpuses on nii interaktiivses situatsioonis kui ka kirjalikus tekstis esinevat
suhtlust puudutavaid materjale. Korpuses on kaks allkorpust: interaktiivsete suhtlussituatsioonide korpus (ISU) ja kontekstualiseeritud kirjalike tekstide korpus (KOK).
Mõlemat korpust iseloomustab
erinevates kommunikatiivsetes situatsioonides salvestatud ja/või kajastatud materjal, mida uuritakse selleks, et tuvastada suhtluse multimodaalne struktuur ja dünaamika.
Korpuses on ka oma olemuselt multimodaalseid, kirjaliku ja suulise materjali
omavahelise suhtluse andmeid.

andmete ajavahemik
2009--
avatud-suletud tüüp

kasutatud transkriptsiooni
transkriptsioon G. Jeffersoni järgi (ISU)
märgendatud keeletasandid
kõne; ekstralingvistilised komponendid; žestid; näomiimika; relevantne kontekstuaalne lõik (tekst)
andmete vorm
tekst; audio; video;
andmete maht

kodeering

märksõnu
žestid; suhtlus; ekstralingvistiline; interaktiivsus; tekst; kontekst; multimodaalsus;


ALLKORPUS 1

interaktiivsete suhtlussituatsioonide korpus (ISU)

vastutaja
Silvi Tenjes
epost
silvi.tenjes@ut.ee
lehekülg

vastutav osakond
Eesti keele võõrkeelena osakond
vastutav töörühm
Multimodaalse suhtluse uurimisgrupp
riiklik programm või grant
osaliselt grant GFLEE 8008
ligipääs
piiratud
otsimootor
lühikirjeldus
Interaktiivsete suhtlussituatsioonide korpuses (ISU korpuses) on loomulike suhtlussituatsioonide materjal. Materjal on lindistatud audiovisuaalselt ning seda transkribeeritakse kasutades Jeffersoni transkribeerimise meetodit; välja tuuakse nii verbaalne suhtlus, käežestid, näomiimika kui ka muu kontekstuaalne info.
andmete ajavahemik
2009--
avatud-suletud tüüp

kasutatud transkriptsiooni
Jeffersoni transkriptsiooni meetod
märgendatud keeletasandid
kõne; ekstralingvistilised komponendid
andmete vorm
audio; video; tekst;
andmete maht
audiolindistusi 47t 20 min, videolindistusi 53 t 12 min ja 14 sek
kodeering

märksõnu
žestid; suhtlus; ekstralingvistiline; interaktiivsus; multimodaalsus


ALLKORPUS 2

kontekstualiseeritud kirjalike tekstide korpus (KOK)

vastutaja
Raili Põldsaar
epost
raili.poldsaar@ut.ee
lehekülg

vastutav osakond
Inglise filoloogia osakond
vastutav töörühm
Multimodaalse suhtluse uurimisgrupp
riiklik programm või grant
osaliselt grant GFLEE 8008
ligipääs
piiratud
otsimootor

lühikirjeldus
Kontekstualiseeritud kirjalike tekstide korpuses (KOK korpus) on erinevate žanride näiteid (ajakirjandus, õppematerjalid, poliitilised tekstid, ilukirjandus, antiikaja loitsud, vanded ja seadusetekstid), mille kaudu näidatakse tekstide interaktsiooni teiste tekstide ja erinevate kontekstuaalsete aspektidega ning multimodaalsuse esinemist kirjalikus materjalis. Kontekstualiseeritud kirjalikud tekstid on salvestatud terviktekstidena (artiklite, narratiivide, kirjaliku suhtluse tekstidena), tagamaks kontekstuaalse info kättesaadavus kogu uurimise ajaks. Tekstides tuuakse välja tekstuaalsust, interaktiivsust, multimodaalsust ja kontekstitundlikkust puudutavad jooned.
andmete ajavahemik
2009--
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid
relevantne kontekstuaalne lõik (tekst)
andmete vorm
tekst;
andmete maht
362 erineva mahuga teksti
kodeering

märksõnu
tekstuaalsus; interaktiivsus; multimodaalsus; kontekst;

 Tartu ülikooli suulise eesti keele korpus

vastutaja
Tiit Hennoste
epost
tiit.hennoste@ut.ee
lehekülg
http://www.cl.ut.ee/suuline/
vastutav osakond

vastutav töörühm
suulise kõne töörühm
riiklik programm või grant

ligipääs
Kasutaja peab allkirjastama konfidentsiaalsuskohustuse ja piirama avalikult esitatavad tsitaadid kõnelejate identifitseerimist mittevõimaldava mahuni
otsimootor
puudub
lühikirjeldus
Korpus koosneb suhtlussituatsioonide salvestustest ja nende litereeringutest.
Iga salvestatud suhtlussituatsiooni juurde kuulub taustakirjeldus, mis annab infot situatsiooni tüübi, osalejate sotsiaalsete omaduste, suhtlusvaldkonna jms kohta.
andmete ajavahemik
1997--
avatud-suletud tüüp
avatud
kasutatud transkriptsiooni

märgendatud keeletasandid
foneetika
andmete vorm
audio; video; tekst;
andmete maht
Kogutud ca 360 tundi (= ca 2 miljonit sõna); Transkribeeritud ca 1 350 000 sõna, sellest täppistranskriptsioonis ca 700 000 sõna
kodeering
wav; word;
märksõnu
suuline keel; spontaanne kõne; kõne;

 Tartu ülikooli süstemaatiline netiallkeelte korpus

vastutaja
Anni Oja
epost
anni.oja@ut.ee
lehekülg

vastutav osakond

vastutav töörühm

riiklik programm või grant

ligipääs
piiratud
otsimootor

lühikirjeldus
Korpuse koostamise põhimõtted on alles väljatöötamisel, praegu lõplikku süsteemi ei ole. Korpus peab sisaldama nii kirjaliku kui suulise netikeele oluliste allkeelte materjale, mis on kogutud süstemaatiliselt ja millele on lisatud vajalikud taustakirjeldused ja vahendid keelematerjali leidmiseks ja analüüsimiseks.
andmete ajavahemik
2009--
avatud-suletud tüüp

kasutatud transkriptsiooni

märgendatud keeletasandid

andmete vorm
tekst;
andmete maht
tohutu
kodeering

märksõnu
allkeel; neti keel;

 Eesti keele spontaanse kõne foneetiline korpus

vastutaja
Pärtel Lippus
epost
partel.lippus@ut.ee
lehekülg
http://www.murre.ut.ee/foneetikakorpus/
vastutav osakond

vastutav töörühm

riiklik programm või grant
Eesti keele keeletehnoloogiline tugi
ligipääs
avalik-piiratud
otsimootor
http://www.murre.ut.ee/otsing/ekskfk.php
lühikirjeldus
Korpus on mõeldud foneetika uurimiseks ja kõnetehnoloogiliste rakenduste modelleerimiseks ja treeningmaterjaliks. Korpus koosneb spontaanse kõne salvestustest, mis on märgendatud erinevatel tasanditel. Sõnatasandi märgenduses kasutatakse tavaortograafiat, häälikutasandi märgenduses SAMPA transkriptsiooni. Lisaks märgendatakse eraldi tasanditel silpe, kõnetakte, häälelaadi jm.
andmete ajavahemik

avatud-suletud tüüp

kasutatud transkriptsiooni
SAMPA; lihtsustatud transkriptsioon;
märgendatud keeletasandid
foneetika; prosoodia;
andmete vorm
audio; tekst;
andmete maht
ca 140 000 sõna; ca 20 tundi kõnet
kodeering
UTF-16; wav
märksõnu
suuline keel; spontaanne kõne; kõne analüüs; kõnetehnoloogia;

Viimati muudatud: 2013-03-28 15:05:10