![]() |
![]() |
|||
Masintõlge ja dokumenditöötlus Euroopa LiidusReferaat aines "Masintõlge" Masintõlge on üks keeletehnoloogia harudest. Keeletehnoloogia on infotehnoloogia osa, mis tegeleb inimkeele töötlusega ning haarab nii kirjutatud kui ka suulise keele töötlust infotehnoloogilises keskkonnas. Seoses kogu maailma ja ka Eesti liikumisega infoühiskonna suunas kasvab pidevalt ka keeletehnoloogia roll. Euroopa Liit (EL) on tunnistanud oma prioriteediks Euroopa keelelise ja kultuurilise mitmekesisuse säilitamise. Infoühiskonna kontekstis tähendab see seda, et iga rahvuskeele jaoks tuleb luua keeletehnoloogilised ressursid ja -vahendid, mis tagavad kõigile keeltele võrdsed võimalused suhtlemiseks infotehnoloogilises keskkonnas. Keeletehnoloogial on ühtlasi eriline roll puuetega inimeste suhtlemis- ja tööhõive probleemide lahendamisel. Keeletehnoloogia on üks ELi prioriteete, mida toetatakse mitmete programmide kaudu. Lisaks ELi programmidele, on mitmetes Euroopa riikides käivitatud rahvuslikud keeletehnoloogia arendusprogrammid. Ka Eestis on ellu kutsutud keeletehnoloogia sihtprogramm, mille kaudu on finantseeritud mitmeid arendusprojekte. Kuna eestikeelne turg on liialt väike tekitamaks erafirmade huvi investeerida spetsiaalselt eestikeelsete tarkvaratoodete väljatöötlusse, siis on paratamatult vajalik riigipoolne toetus keeletehnoloogia arendamiseks. Vastasel juhul jäävad paljud eestikeelsed tooted majanduslikel põhjustel lihtsalt loomata ja eestikeelne suhtlemine infoühiskonnas osutub piiratuks. Selle tulemuseks võib kaugemas perspektiivis olla eesti keele väljatõrjumine mitmetest eluvaldkondadest. Seda ohtu kinnitab ka firma Microsoft prognoos, mille kohaselt keeled, mida ei toetata elektrooniliselt, surevad tasapisi välja. Keeletöötlussüsteemide loomise eeltingimuseks on võrreldavate ressursside, korpuste, andmebaaside ja keeletarkvara olemasolu Euroopa keeltes. Keeleressursid on kallid, nad peavad olema üldkättesaadavad väiksematele ja keskmise suurusega firmadele, et muuta viimased konkurentsivõimeliseks võistluses rahvusvaheliste kompaniidega. Seetõttu peab Euroopa keeletehnoloogia esmaseks ülesndeks olema luua selline koostööplatvorm, kus omavahel saaksid kokku ülikoolides tehtav uurimistöö, keeletöötlussüsteemide kommertsrakendused ja kasutajad, et moodustada keeleressursse ja fikseerida standardeid, levitada keeleandmeid ja määretleda vajadusi. Euroopa Liidus on praegu üheksa ametlikku keelte ja hulk muid keeli, mille kõnelejaid on mõnest tuhandest mõne miljoni inimeseni. Infoühiskonnas võib kujuneda ohuks suurte keelte domineerimine väikeste üle nii suurel määral, et viimased võivad välja surra. Oluliseks kujuneb seega infotehnoloogiliste vahendite loomine kõigi keelte jaoks, kuna vastavalt Rooma kokkuleppele on Euroopa Liidus kõik keeled võrdsed. Ka Eestis areneb tormiliselt Internet ja valmistutakse Euroopasse integreerumiseks; ilmselgelt kasvab vajadus tõlkimise järele. Näiteks Euroopa Ühenduses kehtib põhimõte, et kõik tähtsamad bürokraatlikud dokumendid nagu seadused, otsused jms. peavad olema kättesaadavad iga liikmesmaa emakeeles; see tähendaks igal aastal kümnete tuhandete lehekülgede tõlkimist eesti keelde. Eesti tulevikku on lihtne ennustada: see, mis toimub praegu Ameerikas ja Euroopas, toimub varsti ka Eestis. Mis on masintõlge?Pärast 1970-ndaid ja 80-ndaid aastaid, mil huvi masintõlke kui kättesaamatu vastu oli väga väike, on muutunud nii arvutid kui ühiskond. See, et tekstid koostatakse arvutitega, et igal telefoniga inimesel on võimalik oma arvuti lülitada modemi kaudu ülemaailmsesse võrku ja et Euroopa Ühenduses kehtib põhimõte - kõik keeled on võrdsed, s.t. informatsioon peab olema võrdselt kättesaadav nii suure kui väikese keele kõnelejale - kõik see tähendab, et osaline ja piiratud masintõlgegi võib olla vajalik ja müüdav produkt. On selge, et kui tekste luuakse arvuti abil, on mugav neid ka töödelda (s.h. tõlkida) arvuti abil; käsitöö ei suuda ju automaadiga mahu poolest võistelda. Siin on mitu võimalust:
See võtab palju mälu, aga nii nagu tekstide koostamisel kasutatakse sageli tervete plokkide kopeerimist, nii ka tõlkimisel saab sel moel kasutada tervete plokkide tõlkimist. Seni on masintõlke suurim puudus võrreldes inimese tehtud tõlkega see, et masin ei saa tekstist aru ega tea, mille jaoks tõlget tehakse. Tänapäeva nn tõelised masintõlkeprogrammid põhinevad transfer-meetodil, kus masin teisendab teksti osalausete kaupa, grammatikat ja kakskeelset sõnastikku kasutades. Sellest tuleneb, et tõlge on parimal juhul üsna sõna-sõnaline. Selleks, et masin oskaks paljudest võimalikest tõlkevariantidest valida konteksti sobivat, tuleb teda reguleerida ehk tema grammatika ja sõnastik sobitada tõlgitava teksti tüübi ja valdkonnaga. Praegu näivad uurijatel ja väljatöötajatel olevat erinevad suunad. Väljatöötajate suund on luua parem töökeskkkond (kasutajaliidesed, abivahendid, integratsioon), mille tulemuseks on nt. professionaalsete tõlkide töökohad, autoriseeritud vahendid piiratud keelekasutuse jaoks jne. Uurimisvaldkonda iseloomustab suund, et lausest lähtuv tõlge asendada tõlkega, kus lauset vaadeldakse tema kontekstis, et vähendada masintõlke senist peaprobleemi - mitmetähenduslikkust. Teksti mõistmiseks tuleb mõnikord lähtekeele kompaktne teade jagada üksikuteks väideteks ja moodustada neist väljundkeelele omane liitlause. Seda tänapäeva masintõlkesüsteemid ei suuda, vähemalt mitte eriti loovalt. Traditsiooniliselt on arvatud, et automaatse masintõlke juures on peamiseks probleemiks töö lingvistiline osa. Samas ei ole võimalik ilma lingvistikaalaste realisatsioonideta masintõlkesüsteemi üldse luua. Ilma nendeta tuleb loobuda ideest teha täisautomaatset tõlget. Selle juures tulevad esile aga semantilised probleemid, mille lahendamiseks ei ole veel vastuseid leitud. Masintõlke tähtsus väljendub eelkõige kokkuhoius, kuivõrd mitmete ja mitmete tekstide - dokumentide tõlkimine erinevatesse keeltesse nõuab väga palju inimtööjõudu. Mis on dokumenditöötlus?Dokumenditöötlus on lai valdkond, kuhu kuulub mitmeid keeletehnoloogia komponente. Neist olulisemad on info-otsimine, dokumendi keele tuvastamine, dokumentide liigitamine, kokkuvõtete tegemine, hüperteksti ja viitade automaatne genereerimine, terminikogude loomine ja terminoloogide abivahendid. Info ja dokumendihalduses ning info-otsingus kasutatakse enamasti üksikute sõnade töötlemiseks sobivaid keeletehnoloogilisi võtteid, mis on osalt samasugused kui kirjutaja abivahendeis. Dokumente on võimalik neis sisalduvate sõnade alusel ka liigitada. Seejuures kasutatakse valdavalt statistilisi meetodeid, mis on algselt mõeldud inglise keele jaoks, kuid mida saab kasutada ka morfoloogiliselt keerulisemate keelte korral, kui sõnad algul viia algvormide kujule. Kui võrrelda kahte dokumenti neis sisalduvate sõnade esinemissageduste põhjal, siis algvormide põhjal tehtud statistika annab enamasti parema tulemuse kui sõnavormide peal tehtu. Samal moel võib läheneda ka dokumentidest kokkuvõtete tegemisele, kus proovitakse automaatselt eristada need dokumendi osad, kus arvatakse olevat dokumenti kõige täpsemalt iseloomustav tekst. Raamatust indeksisse minevate terminite automaatne valik on samuti juba vana ülesanne, mida saab lahendada automaatselt. Keeletehnoloogiliste rakenduste hulka kuulub ka ükskeelsete ja mitmekeelsete sõnastike kasutamine päringute tegemisel. Ükskeelsed sõnastikud, nt. sünonüümisõnastik ja WordNet-tüüpi andmebaas pakuvad variante, mida lisaks esialgsele otsi-terminile kasutada. Mitmekeelse sõnaraamatu abil saab ühendada info-otsimist mitmetest erikeelsetest dokumendikogumikest. See on just viimasel ajal muutunud oluliseks uurimisalaks ja selle tähtsust tõstab Euroopa ühinemine. TõlkimisestTõlkimine on nt Euroopa Ühenduse valitsusala suurim kuluartikkel, mis annab tööd tuhandetele tõlkidele. Arvutile toetuvad tõlkeprogrammid jagunevad laias laastus sõnastiku-põhisteks, tõlkemälu-põhisteks ja nn. tõelisteks masintõlkeprogrammideks. Sõnastiku-põhised programmid oskavad pakkuda lähtetekstis olevale sõnale konteksti sobivat vastet sihtkeeles. Tõlkemälu-põhised säilitavad mälus varem tõlgitud lähte- ja sihttekstid. Uut teksti tõlkides otsitakse mälust võimalikult sarnane varemtõlgitud tekstiosa ja pakutakse selle varemtehtud tõlget ka uude tõlkesse. Nn. tõelised masintõlkeprogrammid tõlgivad varem mitte kohatud lauseid: algul nad analüüsivad lähteteksti, siis tõlgivad sõna-haaval, kasutades oma sõnastikku, ja viimaks moodustavad sihtkeele lause, tuginedes grammatikareeglitele. Pisut ajaloostEsimene masintõlke projekt käivitati 1952. aastal USAs Georgetown'i ülikoolis füüsikaalaste tekstide tõlkimiseks vene keelest inglise keelde. Vahepeal leiti aga, et masintõlkega tegelemine on edutu ning vähendati selleks vajaminevaid rahalisi ressursse. Tegeleti vaid üksikute projektide arendamisega. 1970-ndatel aastatel käivitus SYSTRAN projekt, mille võttis kasutusele ka Euroopa Liit kasutamaks seda asina oma ametlike dokumentide tõlkimisel. Süsteemi töökiirus paranes märgatavalt ning lisati ka uusi keeltepaare. 1976. aastal muutus SYSTRAN tööstuslikuks süsteemiks. Vahepeal loodi ka mitmeid teisi masintõlke süsteeme (nt LOGOS, SUSY, SPANAM, ENHSPAN, TOVINA jt) Alates 1982. aastast on areng olnud väga kiire. Arenenud on nii tark- kui riistvara, ette on võetud suuri projekte. Ka masintõlkesüsteemid on saanud laialdasemalt kasutatuks, mitte üksnes ametiasutustes, vaid ka koduses arvutikasutuses. 1990ndail ilmusid turule personaalsed masintõlkesüsteemid, mis katavad suurema osa maailma enimkasutatavaist keeltest. Eesti keele jaoks masintõlkesüsteeme veel loodud ei ole, kuid palju on olemas süsteeme, mis selle loomisel abiks oleksid (nt morfoloogiline analüsaator, olemas on mitmekeelne korpus, milles ka eesti keel, semantiline andmebaas jpm). SYSTRAN kui Euroopa Liidus kasutatav masintõlkeprogrammMärkimisväärne sündmus Systrani ajaloos on 1975. aastal toimunud inglise-prantsuse tõlkesüsteemi esitlus Euroopa Ühenduse (CEC) komitee esindajatele, mille tulemusena sõlmiti Toma uue ettevõttega, World Translation Center'iga (WTC) leping Euroopa Ühenduse liikmesmaade keelte tõlkimissüsteemide arendamiseks. Tõlkesüsteemide arendusega hakkas tegelema Euroopa Ühenduse tõlkeosakond. Alustati 1976. aastal inglise-prantsuse versiooniga, järgnesid prantsuse-inglise, inglise-itaalia jt. Peale Euroopa Ühenduse on ka mitmed muud organisatsioonid ja ettevõtted Systrani arendanud, nt Systrani Instituut Saksamaal, World Translation Corporation Kanadas jt. Systrani arendusega tegelesid mitmeid aastaid erinevad organisatsioonid, lõpuks omandas Systrani õigused Prantsusmaa ettevõte Gachot. Alates 1986. aastast on ainus väljaspool ettevõte väljaspool Gachot'it, millel on õigused Systranile, IONA ettevõte Jaapanis, mis on Systran Corporation of Japan'i omanduses. Systrani edu näitab seegi, et see oli esimene masintõlkesüsteem, millele Euroopa Ühendus pühendas eraldi konverentsi - 1986. aastal toimus Luxemburgis World Systran Conference, kuhu kogunesid Systrani kasutajad kogu maailmast. Systrani põhisüsteem koosneb kahest osast:
Esimeseks sammuks on sõnastikust järelevaatamine ja morfoloogiline analüüs ning selle rakendamine kogu tekstile. Selles sammus identifitseeritakse teksti osad (pealkirjad, lõigud jne), identifitseeritakse mittevarieeruvad teksti osad (kindlaks määratud väljendid), ülejäänud sõnad vaadatakse sõnastikust järele ja rakendatakse morfoloogilist analüüsi tuvastamaks sõnalõppe jms. Järgmiseks sammuks on iga lause analüüs (laused jagatakse pea- ja kõrvallauseteks, määratakse esmased süntaktilised suhted, identifitseeritakse sõnad, mis on arvuliste kategooriate kaudu omavahel seotud, otsitakse üles subjekt ja predikaat jne. Kolmandaks sammuks on ülekanne: toimub tingimuslike idioomide ülekanne (standardsete idioomidega tegeleti varem), nende eessõnade ülekanne, millega varasemas staadiumis veel tegeletud pole, toimub strukturaalne ülekanne arvestades teatavaid sõnade semantilisi või süntaktilisi kategooriaid (s.t vaadatakse mingi sõna võimalikke vorme tulemuskeeles - millisesse sõnaklassi see sõna tõlgitavas tekstis kuuluma peaks, milline semantiline roll tal loodavas lauses olema peaks) jne. Viimases, sünteesiastmes, rakendatakse vaikimisi tõlkimist peamiste tüvede sõnastiku põhjal neile sõnadele, mida veel varem tõlgitud pole, toimub morfoloogiline genereerimine sellise struktuurse info põhjal nagu sugu, arv, kääne jne. Genereeritakse sõnajärg. EUROTRAEUROTRA programmiga on tegeldud juba üle kümne aasta. Programmiga alustamise põhjuseks oli justnimelt Euroopa mitmekeelsus, mistõttu tekkis tõlkeprobleeme, mida püüti lahendada. EUROTRA ettevalmistaval perioodil (1979 - 1985) hakati looma ning üles ehitama programmi. Samuti loodi sidemeid väljapoole keskust. Programmeerimiskeel, mida kasutati programmi loomiseks, oli PROLOG, täpsemalt üks selle erivariante, mis kohandatud spetsiaalselt selleks programmiks. Peamine programm teostus aastail 1985 - 1990. Peamiseks ülesandeks oli leida viis, kuidas arvutite abil tõlkida dokumente kõigisse üheksasse Euroopa Liidu ametlikku keelde. Probleemiks täieliku masintõlke puhul on see, et reeglina on tarvis tõlkida terviktekste, kuid semantika selgitamine arvutile on väga raske. Kuni semantilised probleemid on lahendamata, ei ole võimalik ilma inimese abita terviktekste perfektselt tõlkida. Kuna programmiga tegelesid peamiselt grammatikast huvituvad lingvistid, jäi tähelepanuta hulk muid olulisi aspekte, näiteks sõnaraamatud. Samuti jäeti hooletusse süsteemi testimine, valitud tarkvara ei osutunud kõige paremaks. Oluline on ka akadeemilise poole kaasamine projekti (nii teadus- kui äriasutuste koostöötamine loomuliku keele uurimisel), programmiga töötas vähemalt 380 inimest. Tähtsaks tuleb pidada ka seda, et tänu sellele projektile hakkasid ka teised riigid mõistma keeletele masintõlkeprogrammide loomise olulisust ning arendama keeletehnoloogiat. EUROTRA loodi kui tuumprojekt kõigile arvutuslingvistidele Liidu üheksa keelega tegelemiseks ning sellega tegeleti üle terve Euroopa. Lõppfaas (1990 - 1992). Mõne viimase aasta jooksul on programmi tehtud muudatusi. Juurde on tulnud palju uusi ideid ning on parandatud seda, mida eelmiste EUROTRA faaside puhul oli kritiseeritud. Üheks lõppfaasi nn. pärandiks on ALEP süsteem, oluline tarkvara loomuliku keele töötlemiseks. Õppides EUROTRA vigadest oli ALEPi loomine lihtsam ning tulemus parem. Tulevikus tuleks programmi kindlasti edasi arendada, mitte aga loobuda kõigest senitehtust. Probleemiks on ka see, et koostööd on tehtud liialt vähe (igaüks on tegelenud oma projektiga, teiste tulemusi ei ole ära kasutatud jne). Näiteks jäi EUROTRA projekti juures kasutamata suur hulk Systrani sõnastikke, millest kindlasti oleks olnud palju abi. Edaspidi tuleks rohkem tähelepanu pöörata keeleressursside loomisele ning uuendada ka Systrani programmi. EUROTRA juures on tegeletud kõigi masintõlke juures väga oluliste tahkudega: tehnoloogia, keeleteooria, grammatikareeglid morfoloogia, süntaksi ja semantika jaoks ning sõnastikud. Kolm põhilist faasi EUROTRA juures on analüüs, süntees ja teisendamine. Nii analüüs kui süntees on monolingvaalsed, teisendusfaas sõltub konkreetse keeltepaari omadustest. Euroopa Liidu üheksa ametliku keele jaoks on tarvis 72 teisendusfaasi. Sõnaraamatute osakaal ei ole süsteemis väga suur, kuna palju on tegeldud grammatikaarendustega (mida suurem on grammatikareeglite osakaal, seda väiksem on sõnastiku maht). Masintõlke ning ka konkreetselt EUROTRAga seoses on ellu kutsutud mitmeid projekte, kuivõrd tegeldud on kõigi Euroopa Liidu üheksa ametliku keelega. Palju on tehtud koostööd üle terve Euroopa. Olulisemad daatumid EUROTRA ajaloos:
Praegune seisKeeletehnoloogia on Euroopa Liidu ametliku strateegilise programmi osa, mis lisaks praktiliste raskuste ületamisele tänapäeva infoühiskonnas taotleb ka rahvuskeelte ja -kultuuride kaitsmist ühinevas Euroopas infotöötlusvahenditega. Ainus moodus tagamaks rahvuskultuuride ja -keelte areng on keele kui põhilise infokandja töötlus üle arvutite. Siia alla kuuluvad vahendid alates tavaliste bürootööde automatiseerimisest kuni täielike masintõlkesüsteemideni. Ainuüksi Euroopa Liidu keskaparatuuris on tõlke üle 2000, samuti on neid palju liikmesmaades. Just seetõttu ongi oluline, et masntõlge areneks ning väheneks tööjõukulutused. KokkuvõteKeeletehnoloogia arendamisel on üks olulisi sihte luua rahvuskeelte jaoks keeleressursse ja pooltooteid (arvutiprogramme). Siia alla kuuluvad ka kõik programmid, mida vajatakse masintõlkeks. Masintõlke olulisus Euroopa Liidu seisukohalt vaadelduna on see, et kuna iga liikmesmaa peab tõlkima oma dokumendid ka oma rahvuskeelde, on selleks tarvis erinevaid programme. On eriti oluline, et kogu materjal oleks olemas kõigis keeltes. Seetõttu finantseerib Euroopa Liit ka paljusid masintõlkega seotud projekte. Ka Eestis on käivitunud Keeletehnoloogia sihtprogramm, mille alla muu hulgas kuulub ka masintõlke probleemidega tegelemine. Kasutatud kirjandus
|
|
Kõiki Fillus publitseeritud materjale võib kasutada vaid
Autoriõiguse seadusega ettenähtud korras. |
|
| |||||