Vi estas ĉi tie: Hejmo / 2005 / Interreto / Vortara slalomo en la reto (eseo - parto1)

Vortara slalomo en la reto (eseo - parto1)

de Redakcio Laste modifita: 2005-11-29 22:25
La suba eseo gajnis la unuan premion (Premion Luigi Minnaja) en la branĉo Eseo de la Belartaj Konkursoj 2005. En Libera Folio ĝi aperos en tri partoj. En ĉi tiu unua parto la aŭtoro diskutas kelkajn bazajn aferojn pri sia temo kaj krome prezentas "vortaran slalomon" de kelkaj vortoj. La interretaj serĉoj en la eseo estas faritaj per la serĉilo Google, plej malfrue en januaro 2005. Se oni hodiaŭ (oktobro 2005) ripetas la serĉojn, oni ricevas pli-malpli trioblan nombron da trafoj. Parte tion sendube kaŭzas daŭra kresko de Interreto, sed supozeble ĉefe pli rapida kresko de Google. La titolo de la tuta premiita eseo de Sten Johansson estas "Uzi Interreton kiel tekstaron por lingvaj esploroj".

Interreta statistikoEn la lastaj jardekoj oni ekuzis grandajn lingvajn tekstarojn aŭ korpusojn por lingvaj esploroj diversspecaj. Tio signifas, ke oni serĉas en grandaj tekstaroj por ekscii, kiuj vortoj estas uzataj, kiel ili estas uzataj, kiuj kombinoj oftas, kiuj gramatikaj formoj aperas ktp. Se en la tekstaroj troviĝas partoj el malsamaj tempoperiodoj, eblas ankaŭ tiel esplori la lingvan evoluon farante la saman serĉon en tekstaroj el diversaj epokoj.

Nacilingvaj tekstaroj de kelkdek aŭ cent milionoj da vortoj estas uzataj ekzemple kiel fontoj de vortaroj. Se en tia materialo iu vorto aperas dudekfoje aŭ kvindekfoje, eblas konsideri ĝin ”ekzistanta”, se ĝi aperas ducentfoje aŭ kvincentfoje eblas nomi ĝin komunuza ktp. Kompreneble, pri maloftaj fakvortoj ne eblas apliki tian simplan regulon.

Esperanto kaj aliaj neŝtataj lingvoj estas en alia situacio. Neniu prestiĝa kaj monhava institucio esploras ĝian lingvuzon kaj evoluon. Lastatempe, pli precize ekde la jaro 2002, tamen kreiĝas science uzebla tekstaro Esperanta dank’ al Esperantic Studies Foundation. Ĝi nomiĝas simple Tekstaro de Esperanto kaj estas prizorgata de la akademiano Bertilo Wennergren. En januaro 2005 ĝi entenis 4,7  milionojn da vortoj. Po du milionoj da vortoj estas ĉerpitaj el la periodoj antaŭ 1920 (La Biblio, La Faraono, Marta, Pro Iŝtar k.a.) kaj post 1980 (artikoloj el Monato kaj La Ondo de Esperanto k.a.). La mezaj periodoj do estas malmulte reprezentitaj.

Kvin milionoj da vortoj
estas bona bazo por kelkaj specoj de esploroj. Tamen, por serĉi la aperon de relative maloftaj vortoj, aŭ por kompari la lingvon el diversaj epokoj, tio apenaŭ sufiĉas. Krome, la materialo konsistas preskaŭ nur el zorge redaktitaj kaj poluritaj tekstoj. Do, pli spontana lingvaĵo pli-malpli mankas. Tio povas esti avantaĝo, ĉar tio limigas la kvanton de lingvaj eraroj, tamen tio limigas ankaŭ la eblon esplori la vivantan, ĉiutage uzatan lingvon.

Dum la lasta jardeko eksplodis la fenomeno Interreto. Kiel konate, ĝi ofertis novan niĉon por la uzado de Esperanto, kaj ne estas tro aŭdace supozi, ke efektive la uzado de Esperanto en la lastaj jaroj ege kreskis, kvankam la nombro de uzantoj eble ne kreskis. Laŭ mia takso (legu sube pri la metodo) troviĝis en januaro 2005 pli ol 500.000 esperantlingvaj paĝoj en Interreto. Estas relative malfacile taksi la suman amplekson de tiuj paĝoj, sed mi supozas ke temas pri almenaŭ cent milionoj da vortoj.

Por kompari: Ĝis hodiaŭ aperis en Esperanto proksimume 170 originalaj verkoj kiujn eblus nomi romanoj. Ili enhavas sume 30 000 paĝojn, kaj mi taksas ilian suman amplekson je pli-malpli dek milionoj da vortoj. Do, kredeble Interreto hodiaŭ ampleksas almenaŭ dekoble tiom da Esperanta teksto, kiom la originala romanarto.

Ĉu eblas uzi Interreton kiel tekstaron por lingvaj studoj? Antaŭ ol respondi, oni povas tre facile konstati, ke tio jam okazas, kvankam nesisteme. Kiel konate, esperantistoj tre ŝatas diskuti kaj disputi pri lingvaj aferoj, kaj en tiaj diskutoj en retaj forumoj oni jen kaj jen trovas rezultojn de faritaj serĉoj.

Kompreneble tamen troviĝas problemoj. Mi klopodos jene listi kelkajn aferojn, kiujn necesas pripensi kiam oni uzas Interreton kiel tekstaron.

  • Unue, necesas distingi, kiuj tekstoj estas efektive esperantlingvaj.
  • Due, serĉante vorton, oni ne ricevas respondon pri kiomfoje aperas la vorto, sed pri kiom da ttt-paĝoj entenas la vorton. Oftaj vortoj ja povas aperi multfoje en unu paĝo.
  • Trie, la menciitaj ttt-paĝoj povas ege varii laŭ amplekso. Unu retuzanto eble enmetis tutan romanon en unu dosieron, alia dividis sian materialon en centon da dosieroj. Se iu vorto aperas dudekfoje, povas temi pri dudek uzantoj, aŭ pri unu uzanto kiu enretigis ĝin en dudek dosierojn.
  • Kvare, la uzantoj de Interreto estas aparta homgrupo, kies lingvaĵo eble ne spegulas la kutimojn de ĉiuj lingvuzantoj.
  • Kvine, Interreto estas aparta medio kun apartaj kutimoj, moroj kaj kondiĉoj. Se oni serĉas informojn, oni devas esti preparita trovi miskomprenojn, antaŭjuĝojn, onidirojn, blagojn kaj misojn inter la seriozaj tekstoj. Same, se oni serĉas ian lingvan aferon, oni devas scii ke aperas tekstoj de komencantoj, reformemuloj, mistajpantoj, ŝercantoj kaj eble eĉ trompantoj.
  • Sese, la plej oftaj serĉiloj ebligas serĉi nur tutajn vortojn, ne partojn de vortoj. Do, ekzemple ne eblas serĉi kiomfoje aperas iu specifa prefikso.
  • Sepe, trovante vorton, oni ne scias en kiu senco ĝi estis uzata.
  • Oke, vorto povas aperi en flua teksto, sed ankaŭ en vortlisto. Temas pri du specoj de uzado. Vorto povas esti eĉ ne uzata, sed menciata, eble kiel ”neuzenda”. La Interretaj serĉiloj traktas ĉiajn aperojn egale.
  • Naŭe, kelkaj malsamaj kodigoj de supersignitaj literoj estas uzataj.
  • Deke, eĉ se la paĝo estas Esperantlingva, povas aperi en ĝi nomoj aŭ tekstoj el aliaj lingvoj, kiuj fojfoje ĝenas la serĉadon.


Laŭ mia sperto,
la fakto ke troviĝas multe da fuŝa kaj stranga lingvaĵo en Interreto tamen ne multe ĝenas, se oni serĉas aperon de apartaj vortoj. Krom en esceptaj kazoj, la eraroj kaj senintencaj fuŝoj ”dronas” en la normala lingvaĵo. Kaj se temas pri novaj formoj, proponoj, dialektaĵoj, neologismoj k.s., ili estas unu el pluraj interesaj kampoj de esplorado. Jen kelkaj ekzemploj pri fuŝoj: ”havas bonan” donas 1 040 trafojn, ”havas bona” 20 trafojn. ”Ekzemple” aperas en 43 900 paĝoj, ”eksemple” en 18, ”egzemple” en 22, ”exemple” en deko da kazoj, kie ne temas pri nacilingva vorto. Tamen escepte la fuŝoj relative pli oftas: ”kapitulaco” 111 trafoj, ”kapitulacio” 44.

Se oni volas eviti vortlistojn, oni povas uzi la trukon serĉi ne la bazan formon de vorto, (-o, -a, i ktp) sed derivitan formon (-on aŭ -oj, -an, -is ktp).

Por trovi nur Esperantajn paĝojn, mi ĉiam serĉas kune kun la vortoj ”kaj” kaj ”estas”. Laŭsperte, tio donas nur esperantlingvajn trafojn. Per tiu limigo oni perdas eble dek ĝis dek kvin procentojn el la eblaj trafoj, sed tio ne tre gravas, se oni ĉiam aplikas la saman limigon.

Nuntempe la ĉefaj serĉiloj subtenas Unikodon. Mi serĉis per kelkaj oftaj vortoj kaj trovis, ke 65 % el la Esperantaj ttt-paĝoj uzas tiun kodigon (januaro 2005). 17 % uzas X-sistemon, 11 % H-sistemon, 3 % Latin-3 kaj 4 % aliajn sistemojn.

La plej gravaj kaj prestiĝaj vortaroj de Esperanto formas serion: Plena Vortaro (PV) el 1930, Plena Ilustrita Vortaro (PIV1) el 1970 kaj Nova Plena Ilustrita Vortaro (NPIV) el 2002. Oni povas diskuti, ĉu vortaroj devas speguli la lingvan praktikon aŭ decidi ĝin. Ĉiuokaze estas klare, ke la redaktantoj de tiuj tri vortaroj kelkloke strebis influi la evoluon de Esperanto, kaj eble efektive sukcesis fari tion.

Tamen tiu serio el tri prestiĝaj pli-malpli normigaj vortaroj ne akordas inter si pri ĉiuj detaloj. Troviĝas kelkaj vortoj, kie la vortaristoj plenumis lingvan slalomon. Kion unu el ili proponas, tion en kelkaj okazoj alia deklaras evitinda aŭ konsideras neekzistanta. Sed ĉu la esperantistoj obeas tiujn sezonajn modojn de la vortaristoj? Ni vidu...

Ĉe unu grupo de vortoj la tri vortaroj plenumas kompletan slaloman ĝiron. En PV aperas la vorto navedo – ilo por pasigi vefton inter la varperoj dum teksado. En PIV1 ĝi ŝanĝis formon al naveto, sed en NPIV ĝi kameleone refariĝis navedo. Tute same estas pri la elektra unuo vato (W) el PV, kiu en PIV1 iĝis vatto (kun alternativa formo ŭato), kaj en NPIV denove vato. Simila kazo en PV estas venera, vorto kiu karakterizas malsanojn transdonatajn per seksaj kontaktoj. En PIV1 ĝi iĝis venerea, dum NPIV revenas al la origina venera kaj deklaras la formon venerea evitinda.

Preskaŭ tutan ĝiron plenumis la vortparo strando – plaĝo. Ambaŭ vortoj aperas en ĉiuj tri vortaroj, tamen ne egale. En PV strando estas la baza vorto, al kiu oni plusendas sub la kapvorto plaĝo. En PIV1 male plaĝo estas la ĉefa formo, sed en NPIV ili aperas pli-malpli egalrajtaj.

Bedaŭrinde ne facilas kontroli, ĉu tiu vortara slalomo iel influis (aŭ spegulas) la praktikan lingvuzadon. En la suba tabelo aperas la trafoj en la hodiaŭa Interreto kaj en tekstoj el du periodoj  de la Tekstaro de Esperanto – antaŭ kaj post 1940. Kiel konstateblas, la vortokvantoj de la Tekstaro ne sufiĉas por skani la uzon de relative maloftaj vortoj.

La Interretaj serĉadoj
ĉi tie kaj ĉie sube estas faritaj per la serĉilo Google kaj kun aldono de la serĉvortoj ”kaj” kaj ”estas” por ricevi nur Esperantlingvajn ttt-paĝojn. Kiam la vortoj enhavas supersignitajn literojn, la serĉo el 2005 entenas kodigojn laŭ Unikodo, X- kaj H-sistemojn, tiu el 2002 nur X-kodigon kaj Latin-3. Malplena ĉelo en la tabelo signifas, ke tiu serĉo ne estis farita.

VortoTekstaro Interreto 
 -19401940--20022005 
Navedo00 18
Naveto0
0
 22
Vatoj/kilovatoj
1
1
 46
Vattoj/kilovattoj0
 36
Ŭatoj/kiloŭatoj0
1
 5
Venera1
1
15
70
Venerea0
11
12
45
Strando0
26
87
382
Plaĝo0
53
62
572

Dua grupo de vortoj faras plenan ĝiron en la vortaroj. La vortoparo aprezi–apreci (taksi ion valora) ne aperas en PV. En PIV1 apreci estas la preferata formo, dum NPIV preferas la formon aprezi. El la duopo jahurto–jogurto PV kaj PIV1 preferas la unuan, sed NPIV traktas la duan kiel ĉefan formon. PV kaj PIV1 distingas arbuston (pli eta) de arbedo (pli granda), sed NPIV deklaras la duan evitinda, kaj kolektas ĉion de empetro ĝis sambuko sub arbusto.

En kelkaj kazoj la tri vortaroj grupiĝas alie. La vorto vando (interna dividmuro) aperas en PV, sed en PIV1 kaj NPIV oni sub vando nur plusendas al du aliaj, preferataj vortoj: septo kaj parieto. [En la jena tabelo, la cifero pri septo temas pri tiuj trafoj, kiuj havas la sencon "vando", ne pri la tonintervalo septo.] Simile estas pri razeno (herbotapiŝo), kiu aperas en PV, sed PIV1 kaj NPIV favoras la variaĵon gazono, kaj eĉ stampas razenon kiel ”evitindan”. Kaj en PV oni trovas la vorton poŭpo (la malantaŭa fino de ŝipo), unika pro sia diftongo, dum en PIV1 kaj NPIV oni plusendas de poŭpo al la formo pobo. Iom surprize estas, ke tiu poŭpo tamen ne estas klasita kiel evitinda, malgraŭ sia neklasika ”oŭ”. Kaj PV enhavas rodi (mordeti), dum PIV1 kaj NPIV preferas ronĝi.

VortoTekstaro
 Interreto
 
 -1940
1940-20022004
Aprezi2
55
50
231
Apreci0
20
44
225
Jahurto0
1
10
43
Jogurto
0
2
11
35
Arbusto43
32
 288
Arbedo0
14
 122
Vando9
39
40
197
Parieto0
2
4
25
Septo09
0
25
Razeno0
7
18
46
Gazono0
10
42
138
Poŭpo2
1
19
93
Pobo
0
5
35
110
Rodi
0
0
 28
Ronĝi
0
16
 29
Vipuro
26
8
 122
Vipero13
1
 38

Al ĉi tiu grupo eblas kalkuli ankaŭ la klasikan paron vipero–vipuro. En PV aperas nur la fundamenta vipuro, en PIV1 troviĝas ambaŭ, sed vipuro tie ŝajnas ankoraŭ la preferata formo. En NPIV tamen la vipero iom surprize aperas kiel baza formo, dum sub vipuro oni nur plusendas al vipero.

En la plej multaj kazoj supre traktitaj malfacilas trovi rilaton inter la vortaraj ŝanĝoj kaj la praktike uzata lingvo. En pluraj okazoj la Interretaj esperantistoj ŝajne havas aliajn normojn ol la plej prestiĝajn vortarojn. Relative multaj ŝajne neglektas aŭ ignoras indikojn pri ”evitindeco”. En vivanta lingvo tio ne estas tre stranga, eble oni tamen povas esperi, ke estontaj vortaroj iomete atentos la realan lingvuzon. Almenaŭ pri la vortoj aprezi, vando, vipuro, plaĝo kaj gazono oni kuraĝas diri, ke la lingvuzo ŝajnas relative stabila, kvankam ja ankaŭ konkuraj formoj estas uzataj. Ne facilas kompreni, kial la daŭre viva razeno aŭ la oportune preciziga arbedo estus ”evitindaj”. Kaj la persista PIVa malŝato al vando jam komencas simili malsanetan fobion!

Jen la unua triono de la premiita eseo. Baldaŭ sekvos la dua, kie la aŭtoro Sten Johansson traktos temojn karajn al ĉiu esperantisto: neologismojn, landonomojn kaj la literon "ĥ".

arkivita en:
edmundo
edmundo diras:
2005-11-07 15:11
  1. Kial oni uzas la vortojn "kaj" kaj "estas" por rekoni Esperantajn tekstojn anstataŭ ekzemple "kaj" kaj "la"?
  2. Per kiu serĉilo eblas trovi la paĝojn, kiuj uzas Latin-3? (Oni povas tre facile trovi la paĝojn, kiuj estas en Latin-3 misetikedita kiel Latin-1 aŭ miskonvertitaj el Latin-3, sed tio estas alia afero. Jen pagxo gxuste kodita en Latin-3, kiu estas trovebla per Guglo, se oni sercxas peri "ĝisnunaj Times": http://www.esperanto-turismo.com/historio/iso3/enkodigo.html)
jens_s_larsen
jens_s_larsen diras:
2005-11-08 15:20

"kaj la" estas netauxga por selekti Esperantajn pagxojn, cxar Norvege la du vortoj signifas "kajo" (ankaux estas vira nomo) kaj "lasi".

edmundo
edmundo diras:
2005-11-08 15:51

Dankon. Tio estas interesa. Jen kelkaj rezultoj el Guglo:

+kaj +estas : 1.530.000 +kaj +la : 1.850.000 +kaj : 4.990.000 +la : 1.330.000.000 +estas : 29.000.000 +kaj +estas -la : 11.400 +kaj +la -estas : 1.670.000 [*] +kaj +la +estas : 1.480.000

+kaj +la [NORVEGA] : 45.400 +kaj [NORVEGA] : 45.500 +la [NORVEGA] : 3.310.000

Tiuj rezultoj montras al mi, ke mi ne komprenas, kiel funkcias Guglo. La rezulto markita per [*] estas speciale nekredebla. Tamen, mi kontrolis kelkajn el la paĝoj inter la unuaj dek trovitaj, kaj ili efektive ŝajnas ne enhavi la vorton "estas". Mi volus scii, kiom da Esperantaj paĝoj oni efektive ellasas per insisto pri "estas".

edmundo
edmundo diras:
2005-11-08 16:03

Yahoo.com donas pli kompreneblajn rezultojn: estas 2,3 milionoj da paĝoj kun kaj kaj la, el kiuj nur 1,2 milionoj havas ankaŭ estas. La paĝoj kun kaj kaj estas sen la estas nur 1780, kaj la norvegaj paĝoj kun kaj kaj la estas simile malmultaj. El tio mi konkludas, ke pli indas uzi kaj kaj la ol kaj kaj estas.

Sten
Sten diras:
2005-11-09 18:34

Mi provos iomete respondi.

Kiel mi skribis, de multaj jaroj mi uzas kaj+estas, ĉar laŭ mia sperto tio donas a) praktike nur Esperantlingvajn trafojn kaj b) relative malmultajn maltrafojn. Inter tiuj, a) pli gravas ol b).

La vorton ”la” mi ne uzas, ĉar ĝi nenion aldonas al la serĉo – Google simple ignoras ĝin, same kiel ”the” . Kaj nura ”kaj” ne sufiĉas, ĉar ĝi aperas kiel vorto aŭ nomo en kelkaj lingvoj. Do, el la 1,85 aŭ 2,3 milionoj da paĝoj kun kaj+la, certe multaj estas svedaj, ĉeĥaj ktp.

Hodiaŭa serĉo donas: ĉu 238 000, ĉu kaj estas 192 000, aŭ 420 000, aŭ kaj estas 324 000 (unikode). Laŭ tio oni ŝajne maltrafas 20-23 %, iomete pli ol laŭ pli fruaj serĉoj, sed mi preferas tion ol riski ke parto de la serĉoj estas ne Esperantaj. Kompreneble, necesas apliki la saman limigon en ĉiuj serĉoj, por havi kompareblon. Kaj je tempaj komparoj, necesas uzi saman limigon kiel lastfoje…

Por serĉi Latin-3an ”leĝera” mi serĉis simple ”leøera”. Mi bedaŭras se tio donas nur ”falsajn” paĝojn, sed mi ne scias kiel trovi la ”verajn”. Cetere, tio ne plu gravas, ĉar mi ne plu serĉas Latin-3on. En 2002 mi ja serĉis, sed pli grava manko tiam estis, ke mi tiam ne kapablis serĉi Unikode.

Amike /Sten

edmundo
edmundo diras:
2005-11-10 11:00

Guglo ne ignoras la vorton "la", se oni antaŭmetas la signon "+": "+la".

Ebla malavantaĝo de "estas": iuj neologismemaj aŭtoroj (ekz. Fernando de Diego) penas eviti la vorton "estas" kaj eble estus do malbone reprezentataj en la specimeno. Ĝenerale mi timas, ke la vorto "estas" ne sufiĉe oftas en certaj specoj de teksto. (Mi intence evitis ĝin en la antaŭa frazo, por ke ĉi tiu teksteto ne havu la vorton, krom citite!)

Mi supozas, ke por esti plej certa oni uzus plurajn tiajn vortparojn kaj komparus la rezultojn ...

Sten
Sten diras:
2005-11-10 12:45

Interese! (Cetere, mi ĵus rimarkis ke la unikodaj serĉoj funkcias nur se mi uzas Esperantlingvan Google...)

Do mi rapide ripetis la hieraŭajn serĉojn, kaj jen: ĉu 237 000, ĉu kaj estas 190 000, ĉu kaj +la 211 000 aŭ 418 000, aŭ kaj estas 322 000, aŭ kaj +la 372 000

Do, laŭ tiu serĉo ŝajnas ke +la estas iom pli bona ol estas. Evidente, troviĝas paĝoj sen ambaŭ vortoj.

Tamen restas kontroli, ĉu +la donas ne-Esperantlingvajn paĝojn, do mistrafojn. Por iom provoki, mi faris la jenan serĉon: båt kaj estas 87, båt kaj +la 835 La 87 ŝajnas esti plejparte Esperantaj, la 835 estas plejparte skandinavlingvaj.

Do, se mi serĉas esperantan vorton, kiu hazarde povas troviĝi ankaŭ en iu alia lingvo, ni diru ekz. "pobo" aŭ "naveto" aŭ "olim" aŭ "far", ŝajnas esti pli granda risko ricevi ne-esperantajn trafojn uzante +la ol uzante "estas".

Amike /Sten

jxeromo
jxeromo diras:
2005-11-10 13:46

la sercxofasado "kukolo" funkcias kun "+la kaj". tio tauxgas por vortara laboro, cxar oni sercxas ekzemplojn, do pli bone oni trovu cxiujn aperojn de vorto mikse kun kelkaj lingvokonfuzoj (alivorte pli gravas kompleteco ol gxusteco). eble estus bone proponi "la" "kaj" "estas" unuope kaj lasi al la uzanto la elekton?

pri la miskalkuloj en google artikolis j. veronis el la universitato de aix-en-provence : - (france) http://aixtal.blogspot.com/2005/02/web-le-mystre-des-pages-manquantes-de.html - (angle) http://aixtal.blogspot.com/2005/02/web-googles-missing-pages-mystery.html (kun kelkaj ligoj al pli fruaj samtemaj artikoloj)

blegau2000
blegau2000 diras:
2005-11-17 04:38

Saluton,

Mi mem faris amatoran esploreton pri nombro da retpagxoj en diversaj lingvoj. Mi ankaux uzis guglo, kaj sercxis metante en la sercxilo la lingvon nomon kaj etajn oftajn vortojn, t.e.:

esperanto, kaj: lingvo, kaj, kiam, kial, kvar, kvin, tri, dek, lerni, neniam

mi faris la saman pri la angla: english, kaj: language, and, when, why, ktp

ankaŭ pri la franca kaj la sveda mi faris.

Mi poste kalkulis la mezajn valorojn de cxiuj tiuj sercxoj (ekzemple nombro da pagxoj kun "esperanto" kaj "kvar" (103000 pagxoj)/ nombro da pagxoj kun "english" kaj "four" (168000000 pagxoj)) kaj obligis al la parolantonombro de tiuj lingvoj (ekzemple pli malpli 500 000 000) por la angla), kaj kvankam la analizo ne estis tiom scienca, la rezultoj sxajnis al mi suficxe kredeblaj kaj stabilaj kaj eble instigus plurajn analizetojn similajn.

Miaj rezultoj estas: EO kompare EN donus 336 289 esperantaj parolantoj EO kompare SV: 519 222 parolantoj EO komprea FR: 1 141935 parolantoj

Sciante ke la anglan superregas interreton mi tre mirus se esperantistoj estus po ulo pli efikaj kaj aktivaj ol la anglaj parolantoj interrete. Samtempe, estas imagebla (kaj eble ecx sxajna) ke po ulo ili estas pli aktivaj ol la francparolantoj. Do, oni atingas pli malpli tiujn rezultojn ofte ripetitaj en esperantaj rondoj, t.e. ke sxajne ekzistas inter 500 000 kaj 1 000 000 esperantaj parolantoj.

Kompreneble, tio estas unue amuzeta ludo, sed, eble gxi tamen povus esti utila al iu...

Se vi nur sercxus "esperanto" kaj komparu al "english", "francais" aux "svenska", vi trovus ke estas inter 4 kaj 20 milionoj da esperanto parolantoj, preskaŭ certa troigo. Sxajnas al mi ke kulpas cxiuj tiuj firmaoj kiuj prezentas sian varon kiel esperantan, ekzemple "la esperanta sapo" (universala sapo, tauxgas por cxiuj), ktp. ;)

plej amike boris-antoine legault, el montrealo.

edmundo
edmundo diras:
2005-11-17 13:00

Tiaj kalkuloj estas interesaj, sed eble ne necesas mem taksi la nombrojn de retpaĝoj, ĉar multaj homoj jam faris tion. Ekzemple:

http://www.clickz.com/stats/sectors/demographics/article.php/408521

Ĉu plej validas la komparoj kun la angla kaj la franca (lingvoj uzataj internacie), aŭ kun la lingvoj, kiuj havas pli similajn nombrojn de parolantoj aŭ retpaĝoj (eble la litova aŭ la islanda)?

blegau2000
blegau2000 diras:
2005-11-18 16:32

Jes edmundo mi tute konsentas, certe plej bonus se oni havus gxustan statistikon pri kiom da pagxoj ekzistas en la lingvo Esperanto. Bedauxrinde en tiu retpagxo kiun vi mencias mi ne vidis esperanton en la lingva listo. Cxu pro tio ke ekzistas malpli da pagxoj en esperanto ol en la euxska aux en la bulgara aux cxar enketintoj nur ne traktis esperanton?

Pri la alia komento, mi fakte ne scias kun kiuj lingvoj oni devus kompari. La franca kaj la angla jes estas tre uzataj lingvoj de komercistoj, registraroj kaj diversaj organizajxoj, do eble ili po ulo havas pli da retpagxoj ol aliaj lingvoj. Samtempe sxajnas al mi ke esperantistoj estas pli aktivaj cxe la reto ol neesperantistoj gxenerale. Sed kiel scii? Mi komparis al la franca la angla kaj la sveda nur pro tio ke mi konas tiujn lingvojn...

plej amike, boriso

blegau2000
blegau2000 diras:
2005-11-18 16:56

Pardonu mian plian respondon ;)

Pripensante la aferon, sxajnas al mi ke provo sciigxi pri kiom da esperantistoj ekzistas uzante tian statistikon, kvankam ili povus montri kiomgrade esperanto estas uzata interrete, neniam povus esti tute fidindaj. Tamen, estus tre interese scii kiom da pagxoj estas en esperanto nun, kaj kompari tra la jaroj. Cetere, el lingvdiverseca vidpunkto, estus fakte tre interese scii pri evoluo de aliaj "malgrandaj" lingvoj en la reto. La statistikoj de la multlingva enciklopledio "vikipedio" estas tre interesaj (http://en.wikipedia.org/wikistats/EN/TablesArticlesTotal.htm), sed cxu ili vere spegulas la nombro da retpagxoj en la diversaj lingvoj?

Do, eble tio povus esti nova lingvdiverseca projekto de UEA? ;)

boriso ;)

jxeromo
jxeromo diras:
2005-11-21 15:44

serioze, tia studo estas provinda. cxiuj publike alireblaj taksoj pri lingvoj en interreto estas malnovaj, aperis nur du- aux trifoje, kaj koncernas nur grandajn lingvojn.

ne estus tro malfacile kolekti la 4 aux 5 distingajn vortojn de kelkaj diversgrandaj lingvoj, periode provi ilin en 2 aux 3 cxefaj sercxiloj, kaj konservi la rezultojn.