Vortara slalomo en la reto (eseo - parto1)
En la lastaj jardekoj oni ekuzis grandajn lingvajn tekstarojn aŭ korpusojn por lingvaj esploroj diversspecaj. Tio signifas, ke oni serĉas en grandaj tekstaroj por ekscii, kiuj vortoj estas uzataj, kiel ili estas uzataj, kiuj kombinoj oftas, kiuj gramatikaj formoj aperas ktp. Se en la tekstaroj troviĝas partoj el malsamaj tempoperiodoj, eblas ankaŭ tiel esplori la lingvan evoluon farante la saman serĉon en tekstaroj el diversaj epokoj.
Nacilingvaj tekstaroj de kelkdek aŭ cent milionoj da vortoj estas uzataj ekzemple kiel fontoj de vortaroj. Se en tia materialo iu vorto aperas dudekfoje aŭ kvindekfoje, eblas konsideri ĝin ”ekzistanta”, se ĝi aperas ducentfoje aŭ kvincentfoje eblas nomi ĝin komunuza ktp. Kompreneble, pri maloftaj fakvortoj ne eblas apliki tian simplan regulon.
Esperanto kaj aliaj neŝtataj lingvoj estas en alia situacio. Neniu prestiĝa kaj monhava institucio esploras ĝian lingvuzon kaj evoluon. Lastatempe, pli precize ekde la jaro 2002, tamen kreiĝas science uzebla tekstaro Esperanta dank’ al Esperantic Studies Foundation. Ĝi nomiĝas simple Tekstaro de Esperanto kaj estas prizorgata de la akademiano Bertilo Wennergren. En januaro 2005 ĝi entenis 4,7 milionojn da vortoj. Po du milionoj da vortoj estas ĉerpitaj el la periodoj antaŭ 1920 (La Biblio, La Faraono, Marta, Pro Iŝtar k.a.) kaj post 1980 (artikoloj el Monato kaj La Ondo de Esperanto k.a.). La mezaj periodoj do estas malmulte reprezentitaj.
Kvin milionoj da vortoj estas bona bazo por kelkaj specoj de esploroj. Tamen, por serĉi la aperon de relative maloftaj vortoj, aŭ por kompari la lingvon el diversaj epokoj, tio apenaŭ sufiĉas. Krome, la materialo konsistas preskaŭ nur el zorge redaktitaj kaj poluritaj tekstoj. Do, pli spontana lingvaĵo pli-malpli mankas. Tio povas esti avantaĝo, ĉar tio limigas la kvanton de lingvaj eraroj, tamen tio limigas ankaŭ la eblon esplori la vivantan, ĉiutage uzatan lingvon.
Dum la lasta jardeko eksplodis la fenomeno Interreto. Kiel konate, ĝi ofertis novan niĉon por la uzado de Esperanto, kaj ne estas tro aŭdace supozi, ke efektive la uzado de Esperanto en la lastaj jaroj ege kreskis, kvankam la nombro de uzantoj eble ne kreskis. Laŭ mia takso (legu sube pri la metodo) troviĝis en januaro 2005 pli ol 500.000 esperantlingvaj paĝoj en Interreto. Estas relative malfacile taksi la suman amplekson de tiuj paĝoj, sed mi supozas ke temas pri almenaŭ cent milionoj da vortoj.
Por kompari: Ĝis hodiaŭ aperis en Esperanto proksimume 170 originalaj verkoj kiujn eblus nomi romanoj. Ili enhavas sume 30 000 paĝojn, kaj mi taksas ilian suman amplekson je pli-malpli dek milionoj da vortoj. Do, kredeble Interreto hodiaŭ ampleksas almenaŭ dekoble tiom da Esperanta teksto, kiom la originala romanarto.
Ĉu eblas uzi Interreton kiel tekstaron por lingvaj studoj? Antaŭ ol respondi, oni povas tre facile konstati, ke tio jam okazas, kvankam nesisteme. Kiel konate, esperantistoj tre ŝatas diskuti kaj disputi pri lingvaj aferoj, kaj en tiaj diskutoj en retaj forumoj oni jen kaj jen trovas rezultojn de faritaj serĉoj.
Kompreneble tamen troviĝas problemoj. Mi klopodos jene listi kelkajn aferojn, kiujn necesas pripensi kiam oni uzas Interreton kiel tekstaron.
- Unue, necesas distingi, kiuj tekstoj estas efektive esperantlingvaj.
- Due, serĉante vorton, oni ne ricevas respondon pri kiomfoje aperas la vorto, sed pri kiom da ttt-paĝoj entenas la vorton. Oftaj vortoj ja povas aperi multfoje en unu paĝo.
- Trie, la menciitaj ttt-paĝoj povas ege varii laŭ amplekso. Unu retuzanto eble enmetis tutan romanon en unu dosieron, alia dividis sian materialon en centon da dosieroj. Se iu vorto aperas dudekfoje, povas temi pri dudek uzantoj, aŭ pri unu uzanto kiu enretigis ĝin en dudek dosierojn.
- Kvare, la uzantoj de Interreto estas aparta homgrupo, kies lingvaĵo eble ne spegulas la kutimojn de ĉiuj lingvuzantoj.
- Kvine, Interreto estas aparta medio kun apartaj kutimoj, moroj kaj kondiĉoj. Se oni serĉas informojn, oni devas esti preparita trovi miskomprenojn, antaŭjuĝojn, onidirojn, blagojn kaj misojn inter la seriozaj tekstoj. Same, se oni serĉas ian lingvan aferon, oni devas scii ke aperas tekstoj de komencantoj, reformemuloj, mistajpantoj, ŝercantoj kaj eble eĉ trompantoj.
- Sese, la plej oftaj serĉiloj ebligas serĉi nur tutajn vortojn, ne partojn de vortoj. Do, ekzemple ne eblas serĉi kiomfoje aperas iu specifa prefikso.
- Sepe, trovante vorton, oni ne scias en kiu senco ĝi estis uzata.
- Oke, vorto povas aperi en flua teksto, sed ankaŭ en vortlisto. Temas pri du specoj de uzado. Vorto povas esti eĉ ne uzata, sed menciata, eble kiel ”neuzenda”. La Interretaj serĉiloj traktas ĉiajn aperojn egale.
- Naŭe, kelkaj malsamaj kodigoj de supersignitaj literoj estas uzataj.
- Deke, eĉ se la paĝo estas Esperantlingva, povas aperi en ĝi nomoj aŭ tekstoj el aliaj lingvoj, kiuj fojfoje ĝenas la serĉadon.
Laŭ mia sperto, la fakto ke troviĝas multe da fuŝa kaj stranga lingvaĵo en Interreto tamen ne multe ĝenas, se oni serĉas aperon de apartaj vortoj. Krom en esceptaj kazoj, la eraroj kaj senintencaj fuŝoj ”dronas” en la normala lingvaĵo. Kaj se temas pri novaj formoj, proponoj, dialektaĵoj, neologismoj k.s., ili estas unu el pluraj interesaj kampoj de esplorado. Jen kelkaj ekzemploj pri fuŝoj: ”havas bonan” donas 1 040 trafojn, ”havas bona” 20 trafojn. ”Ekzemple” aperas en 43 900 paĝoj, ”eksemple” en 18, ”egzemple” en 22, ”exemple” en deko da kazoj, kie ne temas pri nacilingva vorto. Tamen escepte la fuŝoj relative pli oftas: ”kapitulaco” 111 trafoj, ”kapitulacio” 44.
Se oni volas eviti vortlistojn, oni povas uzi la trukon serĉi ne la bazan formon de vorto, (-o, -a, i ktp) sed derivitan formon (-on aŭ -oj, -an, -is ktp).
Por trovi nur Esperantajn paĝojn, mi ĉiam serĉas kune kun la vortoj ”kaj” kaj ”estas”. Laŭsperte, tio donas nur esperantlingvajn trafojn. Per tiu limigo oni perdas eble dek ĝis dek kvin procentojn el la eblaj trafoj, sed tio ne tre gravas, se oni ĉiam aplikas la saman limigon.
Nuntempe la ĉefaj serĉiloj subtenas Unikodon. Mi serĉis per kelkaj oftaj vortoj kaj trovis, ke 65 % el la Esperantaj ttt-paĝoj uzas tiun kodigon (januaro 2005). 17 % uzas X-sistemon, 11 % H-sistemon, 3 % Latin-3 kaj 4 % aliajn sistemojn.
La plej gravaj kaj prestiĝaj vortaroj de Esperanto formas serion: Plena Vortaro (PV) el 1930, Plena Ilustrita Vortaro (PIV1) el 1970 kaj Nova Plena Ilustrita Vortaro (NPIV) el 2002. Oni povas diskuti, ĉu vortaroj devas speguli la lingvan praktikon aŭ decidi ĝin. Ĉiuokaze estas klare, ke la redaktantoj de tiuj tri vortaroj kelkloke strebis influi la evoluon de Esperanto, kaj eble efektive sukcesis fari tion.
Tamen tiu serio el tri prestiĝaj pli-malpli normigaj vortaroj ne akordas inter si pri ĉiuj detaloj. Troviĝas kelkaj vortoj, kie la vortaristoj plenumis lingvan slalomon. Kion unu el ili proponas, tion en kelkaj okazoj alia deklaras evitinda aŭ konsideras neekzistanta. Sed ĉu la esperantistoj obeas tiujn sezonajn modojn de la vortaristoj? Ni vidu...
Ĉe unu grupo de vortoj la tri vortaroj plenumas kompletan slaloman ĝiron. En PV aperas la vorto navedo – ilo por pasigi vefton inter la varperoj dum teksado. En PIV1 ĝi ŝanĝis formon al naveto, sed en NPIV ĝi kameleone refariĝis navedo. Tute same estas pri la elektra unuo vato (W) el PV, kiu en PIV1 iĝis vatto (kun alternativa formo ŭato), kaj en NPIV denove vato. Simila kazo en PV estas venera, vorto kiu karakterizas malsanojn transdonatajn per seksaj kontaktoj. En PIV1 ĝi iĝis venerea, dum NPIV revenas al la origina venera kaj deklaras la formon venerea evitinda.
Preskaŭ tutan ĝiron plenumis la vortparo strando – plaĝo. Ambaŭ vortoj aperas en ĉiuj tri vortaroj, tamen ne egale. En PV strando estas la baza vorto, al kiu oni plusendas sub la kapvorto plaĝo. En PIV1 male plaĝo estas la ĉefa formo, sed en NPIV ili aperas pli-malpli egalrajtaj.
Bedaŭrinde ne facilas kontroli, ĉu tiu vortara slalomo iel influis (aŭ spegulas) la praktikan lingvuzadon. En la suba tabelo aperas la trafoj en la hodiaŭa Interreto kaj en tekstoj el du periodoj de la Tekstaro de Esperanto – antaŭ kaj post 1940. Kiel konstateblas, la vortokvantoj de la Tekstaro ne sufiĉas por skani la uzon de relative maloftaj vortoj.
La Interretaj serĉadoj ĉi tie kaj ĉie sube estas faritaj per la serĉilo Google kaj kun aldono de la serĉvortoj ”kaj” kaj ”estas” por ricevi nur Esperantlingvajn ttt-paĝojn. Kiam la vortoj enhavas supersignitajn literojn, la serĉo el 2005 entenas kodigojn laŭ Unikodo, X- kaj H-sistemojn, tiu el 2002 nur X-kodigon kaj Latin-3. Malplena ĉelo en la tabelo signifas, ke tiu serĉo ne estis farita.
Vorto | Tekstaro | Interreto | ||
-1940 | 1940-- | 2002 | 2005 | |
Navedo | 0 | 0 | 18 | |
Naveto | 0 | 0 | 22 | |
Vatoj/kilovatoj | 1 | 1 | 46 | |
Vattoj/kilovattoj | 0 | 0 | 36 | |
Ŭatoj/kiloŭatoj | 0 | 1 | 5 | |
Venera | 1 | 1 | 15 | 70 |
Venerea | 0 | 11 | 12 | 45 |
Strando | 0 | 26 | 87 | 382 |
Plaĝo | 0 | 53 | 62 | 572 |
Dua grupo de vortoj faras plenan ĝiron en la vortaroj. La vortoparo aprezi–apreci (taksi ion valora) ne aperas en PV. En PIV1 apreci estas la preferata formo, dum NPIV preferas la formon aprezi. El la duopo jahurto–jogurto PV kaj PIV1 preferas la unuan, sed NPIV traktas la duan kiel ĉefan formon. PV kaj PIV1 distingas arbuston (pli eta) de arbedo (pli granda), sed NPIV deklaras la duan evitinda, kaj kolektas ĉion de empetro ĝis sambuko sub arbusto.
En kelkaj kazoj la tri vortaroj grupiĝas alie. La vorto vando (interna dividmuro) aperas en PV, sed en PIV1 kaj NPIV oni sub vando nur plusendas al du aliaj, preferataj vortoj: septo kaj parieto. [En la jena tabelo, la cifero pri septo temas pri tiuj trafoj, kiuj havas la sencon "vando", ne pri la tonintervalo septo.] Simile estas pri razeno (herbotapiŝo), kiu aperas en PV, sed PIV1 kaj NPIV favoras la variaĵon gazono, kaj eĉ stampas razenon kiel ”evitindan”. Kaj en PV oni trovas la vorton poŭpo (la malantaŭa fino de ŝipo), unika pro sia diftongo, dum en PIV1 kaj NPIV oni plusendas de poŭpo al la formo pobo. Iom surprize estas, ke tiu poŭpo tamen ne estas klasita kiel evitinda, malgraŭ sia neklasika ”oŭ”. Kaj PV enhavas rodi (mordeti), dum PIV1 kaj NPIV preferas ronĝi.
Vorto | Tekstaro | Interreto | ||
-1940 | 1940- | 2002 | 2004 | |
Aprezi | 2 | 55 | 50 | 231 |
Apreci | 0 | 20 | 44 | 225 |
Jahurto | 0 | 1 | 10 | 43 |
Jogurto | 0 | 2 | 11 | 35 |
Arbusto | 43 | 32 | 288 | |
Arbedo | 0 | 14 | 122 | |
Vando | 9 | 39 | 40 | 197 |
Parieto | 0 | 2 | 4 | 25 |
Septo | 0 | 9 | 0 | 25 |
Razeno | 0 | 7 | 18 | 46 |
Gazono | 0 | 10 | 42 | 138 |
Poŭpo | 2 | 1 | 19 | 93 |
Pobo | 0 | 5 | 35 | 110 |
Rodi | 0 | 0 | 28 | |
Ronĝi | 0 | 16 | 29 | |
Vipuro | 26 | 8 | 122 | |
Vipero | 13 | 1 | 38 |
Al ĉi tiu grupo eblas kalkuli ankaŭ la klasikan paron vipero–vipuro. En PV aperas nur la fundamenta vipuro, en PIV1 troviĝas ambaŭ, sed vipuro tie ŝajnas ankoraŭ la preferata formo. En NPIV tamen la vipero iom surprize aperas kiel baza formo, dum sub vipuro oni nur plusendas al vipero.
En la plej multaj kazoj supre traktitaj malfacilas trovi rilaton inter la vortaraj ŝanĝoj kaj la praktike uzata lingvo. En pluraj okazoj la Interretaj esperantistoj ŝajne havas aliajn normojn ol la plej prestiĝajn vortarojn. Relative multaj ŝajne neglektas aŭ ignoras indikojn pri ”evitindeco”. En vivanta lingvo tio ne estas tre stranga, eble oni tamen povas esperi, ke estontaj vortaroj iomete atentos la realan lingvuzon. Almenaŭ pri la vortoj aprezi, vando, vipuro, plaĝo kaj gazono oni kuraĝas diri, ke la lingvuzo ŝajnas relative stabila, kvankam ja ankaŭ konkuraj formoj estas uzataj. Ne facilas kompreni, kial la daŭre viva razeno aŭ la oportune preciziga arbedo estus ”evitindaj”. Kaj la persista PIVa malŝato al vando jam komencas simili malsanetan fobion!
Jen la unua triono de la premiita eseo. Baldaŭ sekvos la dua, kie la aŭtoro Sten Johansson traktos temojn karajn al ĉiu esperantisto: neologismojn, landonomojn kaj la literon "ĥ".