Projekti nimetusEesti avatud rööpkorpus
Elluviiv asutusTilde Eesti OÜ
Projekti algus2018
Projekti lõpp2021
Aastane eelarve 201847 500,00 EUR, rahastab Haridus- ja Teadusministeerium Eesti Keeletehnoloogia programmi kaudu.
Projekti eesmärkProjekti eesmärk on koguda ja teha kõigile huvipooltele kättesaadavaks rööpkorpus (paralleelkorpus) eesti keele jaoks kultuuriliselt, majanduslikult või muul moel oluliste keelte jaoks: eesti-inglise/vene/prantsuse/saksa/soome jt naabruskonna keeled ning keeled, mida peavad osapooled, eelkõige masintõlkesüsteemide loojad (Tartu Ülikool, Skuuper, jt) oluliseks. Rööpkorpus on eluline keeleressurss masintõlkesüsteemide loomisel, samuti on rööpkorpused kasutatavad sõnastike loomisel, keele uurimisel jt keele- ja keeletehnoloogiga seotud ülesannete täitmisel. Ilma kümneid miljoneid sõnu sisaldava rööpkorpuseta ei ole võimalik treenida kvaliteetset tõlget pakkuvaid statistilisi ega närvivõrkudel põhinevaid masintõlkesüsteeme. Planeeritud mahuks on 10 miljonit sõna aastas.
Projekti tulemKorpus puhastatakse, joondatakse lause tasandil ja tehakse kõigile huvilistele,kättesaadavaks CC-SA-BY tüüpi litsentsiga Metashare ja Eesti Keeleressursside Keskuse repositooriumide kaudu.
Projekti eelkäijaAntud projekt on eelneva 6-aastase töö jätk mille käigus koguti ligi 40 miljoni sõnaline korpus mis võimaldas treenida Google Translate masintõlkest parema tõlkekvaliteediga süsteemid üldvaldkonna jaoks.
Andmete kogumise metoodikaIndekseerimine ja avalikelt veebisaitidelt andmete kogumine sisaldab järgmisi põhietappe:
 A. Andmeallikate tuvastamine
 B. Andmete kogumine ja töötlemine
 C. Uute ressursside kvaliteedi hindamine
Milliseid andmeid kogutakse?Rööpkorpus kogutakse erinevatest mitmekeelsetest allikatest nt veebilehed, raamatud, subtiitrid, mitmekeelsed trükisid, andmebaasid jms. Projekti käigus need joondatakse lause tasandil ja "pakendatakse" kasutajatele sobivale kujule.
Projekti käigus otseselt andmeid (va metaanmed) juurde ei looda. Rööpkorpusesse ei koguta isikuandmeid ega muid tundlikke (konfidentsiaalseid, ärisaladust jms) tekste.
Kes on kogutud andmete omanik?Andmete omandisuhe ei muutu projekti käigus. Andmeid kogutakse andmete loojate (omanike) seatuid piiranguid järgides, nt ei lisata rööpkorpusesse andmeid, mille omanikud ei nõustu andmete avaldamisena CC SA BY litsentsiga. Eelistatakse nn public domain allikaid.

 

Projektin nimiViron avoin rinnakkaiskorpus
ToteuttajaTilde Eesti OÜ
Projekti alkaa2018
Projekti loppuu2021
Vuosibudjetti 201847 500,00 EUR. Rahoittaja Viron opetusministeriö, Viron Kieliteknologiaohjelma kautta.
Projektin tavoiteProjektin tavoitteena on kerätä ja julkistaa kaikille osapuolille avoin rinnakkaislähdemateriaaliaineisto viron kielen osalta, kulttuurisesti, taloudellisesti tai muutoin merkittävien kielten osalta: viro-englanti/venäjä/ranska/saksa/suomi jne. naapurien kielet sekä ne kielet, joita erityisesti konekäännösjärjestelmien (Tartu Ülikool, Skuuper jne) tekivät pitävät oleellisina. Rinnakkaiskorpuksen kerääminen on ensiarvoisen tärkeä kieliresurssi konekäännössysteemin kehittämiseksi, samoin on rinnakkaiskorpuksen käyttäminen tärkeää sanaston luomisen ja kielen tutkimuksen kannalta. Ilman kymmeniä miljoonia sanoja sisätävää lähdeaineistoia ei ole mahdollista opettaa laadukasta neuroverkkopohjaista konekäännöstä tarjoavaa järjestelmää. Tavoitteena projektissa on 10 miljoonaa sanaa.
Projektin tulosLähdemateriaali puhdistetaan, muokataan lausetasolla ja tehdään avoimeksi kaikille kiinnostuneille CC-SA-BY lisenssin Metashare ja Viron kieliresurssikeskuksen kautta.
Projektia edeltääTätä projektia edeltää 6 vuoden aikana tehty työ, jossa on kerätty lähes 40 miljoonaa sanaa. Tämän avulla on opetettu konekäännösjärjestelmiä, joitka antavat paremman tuloksen kuin Google Translate.
Tietojen keräämisen metodologiaIndeksointi ja julkisilta www-sivuilta tietojen keräämine sisältäen seuraavia vaiheita:
 A. tietolähteiden tunnistaminen
 B. Tietojen kerääminen ja työstäminen
 C. Uusien resurssien laadun arviointi
Mitä tietoja kerätään?Rinnakkaiskorpus kerätään erilaisista monikielisistä lähteistä, esim. nettisivut, kirjat, tekstitykset, monikieliset painotuotteet, tietokannat jms. Projekti kuluessa tehdään lausetasolla ja "paketoidaan" käyttäjälle sopivalla tavalla.
Projektin kuluessa ei metatietoja luoda. Rinnakkaiskorpuseeen ei kerätä henkilötietoja tai muita sensitiivisiä tietoja/tekstejä
Kuka on kerättyjen tietojen omistaja?Tietojen omistussuhde ei muutu projektin kuluessa. Tiedot kerätään tietojen omistajien/luojien rajoitusten puitteissa. Korpukseen ei lisätä tietoja, joita omistaja ei ole luvannut CC SA BY litsenssin kautta. Mielellään käytetään ns. avoimen domainin lähteitä.