Miks pole Arvi Tavast kunagi täiendanud ridagi Vikipeediat?

Posted on
Arvi Tavast 2018. aastal “Wikipedia meets NLP” töötoas

Arvi Tavast juhib alates 2020. aasta septembrist Eesti Keele Instituuti. Rääkisime temaga terminiandmebaasidest ja Vikipeediast. Sai näiteks leitud, et kasutajate loodud sisu võib olla spetsialistide koostatust paremgi ning vikiprojektide tegevus eestikeelsete erialatekstide tootmisel võiks olla vägagi oluline omakeelsete terminite loomes. Miks on aga ikkagi nõnda, et Tavast ise Vikipeediasse artikleid kirjutanud ei ole?

Millega sa värske EKI direktorina tegeled? Mis on suuremad väljakutsed?

Väljakutseid on igasuguseid. Nende seas nii ootuspäraseid, sest EKI on väga traditsiooniline asutus, kui ka ootamatuid. Üldmulje on siiski oluliselt positiivsem kui tööle tulles kartsin. Tundub, et muutusi on tegelikult juba ammu oodatud.

Üks suurem teema, mis haakub ka siinsete küsimustega, on keeleinfo pakkumise ühtlustamine ja põhimõtete kooskõlastamine. Kuni päris viimase ajani oli EKIs viis ühel või teisel viisil keelekorraldusega tegelevat osakonda või töörühma, kes omavahel ei rääkinud, vaid avaldasid dubleerivaid ja konfliktseid seisukohti sõnastikes, käsiraamatutes, keelenõuvastustes, artiklites ja mujal. See koos seisukohtade kohati ebapiisava põhjendatusega tekitas lugejates hämmeldust ja EKIs endas kasvavat frustratsiooni. Veidi üle aasta tagasi õnnestus osa EKI üldkeelesõnastikke kokku panna ja Sõnaveebis avaldada, praegu tegeleme ülejäänud üldkeelesõnastike liitmisega, ja tegelikult ei ole sisulist vahet ka üld- ja oskussõnastike vahel. Põhimõtted soovime ühtlustada veel ühest küljest muude leksikaalse info allikatega, nt keelenõu, termininõu, terministandardimine, terminikomisjonid jne, ja teisest küljest muude keeletasemetega: õigekiri, süntaks, pragmaatika jne. Praegu suuname kõiki neid valdkondi omavahel rohkem suhtlema, tööd jaotama, dubleerimist ja konflikte vältima, ja senisest palju rohkem teadusuuringutel põhinema. 

2020. aasta Oskuskeelepäeval kõnelesid sellest, et üks hea terminiandmebaas peaks olema nagu Vikipeedia. Paneme info kohe üles ja lubame kõigil seda muuta ja täiendada, sest nii on otstarbekam. Miks nii?

Kui sina vikipedistina nii küsid, siis on keeruline vastata – kuidas ma ikka seletan sulle asju, mida sa must paremini tead. Aga kirjeldan siis oma arusaama. 

  • Inimeste võimed on küll ebaühtlaselt jaotunud, aga mitte nii ebaühtlaselt, et kogu infot eesti keele kohta valdakski ainult paarsada inimest, need, kes praegu sõnastikke koostavad. Ka ülejäänutel on palju anda.
  • Keel kipub olema teema, kus introspektsioon on uurimismeetodite hulgas eriti teenimatult kõrgel kohal. Väga lihtne on oma ettekujutust keelest samastada keelega. Tegelikult aga on inimeste keeletajud mõnikord üllatavaltki erinevad. Suurema vaatenurkade arvu kaasamine aitab tasapisi katta kogu seda kirjusust, ühest küljest andes adekvaatsema pildi reaalsusest ja teisest küljest tuues ilmsiks muidu varjatud erimeelsused, võimaldades soovi korral võtta jutuks nende lahendamist.
  • Kui sõnastiku täiendajaid või ka keele- või termininõu vastajaid on palju, siis suureneb tõenäosus, et keegi neist ikka on saadaval just praegu, mis peaks oluliselt tõstma vastuste saamise kiirust. Nt terminipäringutele vastuse saamise aega mõõdetakse praegu kuudes. Mulle meeldiks tunnid rohkem ja see tundub olevat igati tehtav.

Et see kõik toimiks, on vaja motiveerida kasutajaid terminibaasi arendamises kaasa lööma. Milliseid mõtteid juba on?

Korralikult töötavad eeskujud on olemas Wikipedia ja Stack Exchange’i kujul, kus panustajaid motiveerib lihtsalt panustamise soov, vähemal määral ka tunnustuse ja kuulumise vajadus. Pigem tuleb lihtsalt katsetada, kas meil õnnestub sama järele teha. 

Juba näiteks James Murray (1837–1915) kasutas Oxfordi inglise keele sõnaraamatu koostamisel vabatahtlike kaastööliste abi ja seda 19. sajandi lõpul. Miskipärast ei ole aga selline vikistiilis asjade tegemine siiamaani justkui laia tunnustust saanud, kuigi ees on arvukalt edukaid näiteid. Sealhulgas siitsamast Eestist. Kuidas seda seletada?

Arvan, et peamine seletus on hirm ebakindluse ees. Sõnastikud on olnud traditsiooniliste väärtuste kants, mille koostajate ambitsioon on pakkuda “õiget”, garanteeritud kvaliteediga infot. Kui vähe see õnnestub, on vikipedistid näidanud Encyclopedia Britannicast vigu otsides; mulle on samamoodi meeldinud osutada vastuoludele just nendes kõige autoriteetsemates sõnastikes ja terminibaasides. Aga ikka on nii koostajatel kui ka kasutajatel tugev tunne, nagu aitaks infoallika institutsionaalne kuuluvus ja ametinimetus kuidagi info kvaliteeti tagada.

Pidasin 2015. aastal samas Oskuskeelepäeval ettekande, kus rääkisin Vikipeedia rollist terminisõnastikuna. Rohkem ehk küll selle kiirusest ja mahust ning laiast kasutatavusest, mis aitab termineid kiiremini kasutajateni viia. Ei ole see ju mõeldud konkurendiks sõnastikele, vaid pigem talitleb täiendusena. Kas ja kuidas saaks vikiprojektid EKI arendatavale terminibaasile toeks olla? On siin ka mingeid otseseid soove või plaane?

Konkreetseid soove ega plaane ei ole. Aga kui kuldkalake juba küsib, siis üks võimalik mõte tuleb pähe küll. Üldsõnastike puhul on korpusest lähtumine olnud enesestmõistetav juba paarkümmend aastat. Oskussõnastikega nii lihtne pole, sest arvestatavas mahus eestikeelseid erialatekste pole kuskilt võtta. Tundub koguni, et eestikeelsete terminite kasutuse puudus ongi just see põhjus, mis motiveerib koostajaid oma ala terminibaasi koostama ja seeläbi termineid pakkuma. Vikipeedia korpus on juba praegu oluline osa eesti keele ühendkorpusest, aga kui vikiprojektid saaksid kuidagi veel rohkem eestikeelset erialateksti toota ja/või kättesaadavaks teha, siis sellest oleks kindlasti abi.

Vikipeedia muutis üsna põhjalikult arusaama entsüklopeediatest. Nüüd on siis järg terminisõnastike juures? Mis järgmiseks?

Mitte ainult termini- vaid üldse sõnastike juures, ja see pole nüüd järsku tekkinud. Urban Dictionaryst ja Wiktionaryst muidugi rääkimata, aga isegi traditsioonilised kirjastuste ja keeleinstituutide (ka EKI) väljaantavad sõnastikud on kasutajatelt sisendit vastu võtnud juba aastakümneid. Nüüd liigume jälle sammukese edasi.

Mis järgmiseks – ilmselt palju asju. Aknast välja vaadates tuleb esimesena pähe linnaplaneerimine. Kuidas tuvastada, kuhu pargis jalgrajad teha? Üks võimalus on lähtuda maastikuarhitekti introspektsioonist, ja seejärel alustada lõputut võitlust üle muru käijatega: tarad, manitsevad plakatid jne. Teine võimalus on alguses radu mitte teha, vaadata kus inimesed käivad, ja siis teha nende kohtade peale rajad. Võitluse osa jääb ära.Panustamise teadlikkuse mõttes sarnanevad Vikipeediaga otsesemalt sellised projektid nagu Citizen Science või Kaggle, kus keerukapoolsete ülesannete lahendusi saab pakkuda iga soovija. Majandusest samamoodi ühisrahastus: Kickstarter, Funderbeam vms, kus varasema kõrge sisenemisbarjääriga suurinvestorite seltskonna kõrval või lausa asemel saab investeerida igaüks. Viimased on hea illustratsioon ka su esimese miks-küsimuse juurde. Lisaks sellele, et nii tulevad käibesse varem jõude seisnud aju- või finantsressursid, läheb ka protsess oluliselt kiiremaks ja lihtsamaks.

Oled lähedalt kokku puutunud just infotehnoloogiasõnavara eesti keelde toomisega ja ka tõlkijaid ning toimetajaid õpetanud Tartu Ülikoolis ja Tallinna Ülikoolis. Nendesamade infotehnoloogiliste vahendite täiustumisel oleme jõudmas sinna, kus arvuti oskab järjest paremini meie vigu parandada ning küllap ei ole kaugel aeg, kus keskpärastel tõlkijatel läheb väga keeruliseks arvutiga võistlemine. Mida tähendavad sellised muutused keele arengule? Aga terminibaasidele?

Needsamad keskpärased tõlkijad on oma masinlike tõlgetega keele arengut alati mõjutanud, nii et selles mõttes ei muuda bioloogiliste masinate asendamine tehisnärvivõrkudega suurt midagi. Tegelikult on ju kogu eesti kirjakeele algselt loonud tõlkijad, kusjuures muu emakeelega tõlkijad. Tänapäeval tõlgete mõju keelele endale enam nii suur ei ole, pigem mõjutavad nad keele staatust. Viletsad tõlked tekitavad harjumuse näiteks makaronipakkidel alati eestikeelset kleepsu maha kraapida, et selle alt ükskõik millise muu keele tekstist keetmisaeg teada saada.

Terminibaasidele on üks konkreetne mõju ilmnenud just viimaste kuude jooksul, kui on lõpuks leitud meetod terminibaaside etteandmiseks neuromasintõlke treenimisel. See on järsult tekitanud masintõlke arendajate huvi ka meie terminibaaside vastu.

Arvi Tavast 2018. aastal

Räägiks ka sinust endast. Inseneritaustaga keelemees ei ole vist väga tavaline. Kuidas see sinuga juhtus?

Täiesti juhuslikult sattusin ülikooli ajal mingeid juhuslikke tõlketöid tegema, see oli tol ajal (80ndate lõpus) välismaiste klientide tõttu äärmiselt tulus tegevus, ja nii ma seda tegema jäin. Kümnekonna aasta pärast läksin ülikooli tagasi oma tegevusala teist poolt õppima.

Aga muuseas, inseneritaustaga keelemees pole tegelikult kuigi haruldane, ja üldisemalt x-taustaga y-mees on lausa üldlevinud nähtus, milleks tänapäeval üritatakse inimesi ette valmistada lausa haridussüsteemis. Erialavahetuste kasulikkuse ja kohati vältimatuse kohta julgeksin soovitada üht raamatut – David Epstein, Range: Why Generalists Triumph in a Specialized World.

Eelmise kümnendi algul olid mitmel aastal Vikipeedia tõlketalgute žüriis. Kindlasti ei olnud see aga sinu esimene kokkupuude selle veebientsüklopeediaga. Millised olid sinu varased kokkupuuted?

2000ndate alguses üritasin TÜ ja TLÜ terminoloogiakursuste kodutööde kujul rahvahankida Vikipeediasse enamvähem ühtlaselt struktureeritud artikleid oskussõnastike kohta. See katse jäi lõpuks soiku, kuna selgus, et Vikipeedia pole niisugustest artiklitest tegelikult üldse huvitatud.

Ja sinu enda kogemused Vikipeedia täiendamisel?

Täielik null.

Miks mõned inimesed täiendavad andmebaase, mõned mitte? See tundub ju nii lihtne – kui me kõik natuke lisame, saabki suur kogu valmis? 

Tõesti, hea küsimus. Mul on üks uurimisobjekt ju lausa käepärast võtta: miks, kui teoreetiliselt pooldan seda mudelit ja üldiselt olen üritanud panustada mitmesugustesse vabatahtlikesse algatustesse alates terministandardimisest kuni metsatulekahjude kustutamiseni, pole ma kunagi täiendanud ridagi Vikipeediat? Kuidagi on selline tunne, et see pole minu teema. Kuidagi imelik on hakata kirjutama oma esimest täiendust (mis poleks triviaalne redigeerimine). No ja puhtpraktiliselt on kogu aeg ees kirjutamist vajavate asjade järjekord, neist mõne tähtaeg ammu möödas, nii et naljalt ei teki mõtet, et tahaks midagi kirjutada, aga ei tea mida.

Millisena näed sina eestikeelse Vikipeedia rolli? Aga võrukeelse?

Üks asi on Vikipeedia roll. Vaatamata oma hästidokumenteeritud puudustele on Vikipeedia praeguseks ikkagi enamvähem ainu arvessetulev entsüklopeedia, kui on vaja midagi järele vaadata. Sellest täiesti sõltumatu teema on keelsus. Konkreetse infojupi otsimise jaoks pole keel oluline, küll aga võib omakeelse entsüklopeedia olemasolu olla oluline keelekollektiivi enesetunde jaoks. Teoreetiliselt võiks Vikipeedia artiklite kirjutamine olla ka omakeelse terminiloome motivaator, aga ma ei tea, kas ta seda praktiliselt on. Keegi võiks kunagi uurida, kui palju on eesti (või võru) termineid, mille esimene kasutusjuht on Vikipeedias. Kahtlustan, et väga vähe, kui üldse, aga uurinud ei ole ja välistada ei saa.

Intervjuu valmis seerias “Vikipeedilisi vaatlusi”.

Fotode autor on Uku Kruusamägi ning need on avaldatud litsentsi CC BY-SA 4.0 all.

Top