Virinaj voĉoj mankas en Esperanta datumaro

de Libera Folio je 2020-01-202020-01-20 en interreto, movado

Pli ol ducent homoj jam partoprenas en projekto, kiu strebas instrui al komputiloj, kiel veraj esperantistoj parolas. Nur sep procentoj el ili estas virinoj. La projekto Common Voice helpas krei parolrekonajn sistemojn, sendependajn de grandaj firmaoj.

La nekomerca komputa fondaĵo Mozilla ĵus publikigis novan version de sia datumaro kun pli ol unu gigabajto da registritaj voĉoj en Esperanto. Estas entute 41 horoj da registraĵoj, el kiuj 35 horoj jam estas kontrolitaj kaj aprobitaj de la kunlaborantoj de la projekto.

Estas registritaj la voĉoj de 215 diversaj personoj, el kiuj 70 procentoj indikis ke ili estas viroj, dum 7 procentoj indikis, ke ili estas inoj.

Entute estas registraĵoj en 40 lingvoj. Multaj pli grandaj lingvoj havas malpli da kontribuantoj. Ekzemple estas registritaj nur 99 voĉoj en la sveda (8 procentoj inaj) kaj 51 voĉoj en la slovena (16 procentoj inaj). En la angla aliflanke estas registritaj pli ol 51.000 voĉoj (13 procentoj inaj)

Ni petis Stefan Grotz, unu el la kontribuantoj de la Esperanta sekcio, rakonti pli pri Common Voice.

Libera Folio: Por kio utilas la projekto?

Stefan Grotz: – Por grandaj lingvoj kiel la angla la projekto signifas sendependecon de grandaj firmaoj. Programistoj nun povas krei sendependajn voĉajn aplikaĵojn sen la devo uzi sistemojn de firmaoj kiel Google, Apple aŭ Amazon. Tio pliigas novigon kaj ankaŭ helpos protekti privatajn datumojn.

– Por multaj malgrandaj lingvoj kiel Esperanto la projekto simple estas la unua ŝanco por havi iun ajn parolrekonan sistemon. Havi tian datumaron en Esperanto ebligas multajn projektojn. Mi ekzemple esperas ke en kelkaj jaroj la kurso en Duolingo ankaŭ havos parolrekonan sistemon por trejni la prononcadon. Aliaj lingvoj jam havas tian funkcion.

Kial laŭ vi indus, ke esperantistoj kontribuu?

– Ĉiuj voĉoj estas malsamaj, precipe en Esperantujo. Tial por krei bonfunkcian sistemon uzeblan por ĉiuj oni bezonas tre grandan kvanton da voĉaj datumoj. Tial ni volas akiri voĉojn de ĉiuj seksoj, akĉentoj kaj aĝoj en la datumbazo. Tiel estontaj sistemoj funkcios por ĉiuj.

Kiel oni tion faru?

– En la retejo oni trovas du sekciojn: “Paroli”, kie oni povas registri la frazojn, kiuj aperas sur la ekrano, kaj “Aŭskulti”, kie oni povas kontribui, reviziante la frazojn registritajn de aliaj uzantoj. Do oni kontrolas, ke la registrita frazo kongruas kun la skribita frazo. Se vi ne ŝatas unuopan frazon, vi ĉiam povas klaki al “ignori”, aŭ al “denunci” se ĝi enhavas erarojn.

– Se oni volas fari pli, vi ankaŭ povas helpi traduki la retejon aŭ helpi kolekti novajn frazojn por la projekto. La celo estas unu miliono da frazoj, ni jam havas ĉirkaŭ 110.000 frazojn.

Ĉu oni devas havi aparte bonan prononcon?

– Ni volas kolekti verajn voĉojn de veraj homoj. Ne gravas, ĉu vi havas perfektan prononcon. Ankaŭ la kvalito de via mikrofono ne gravas. Sed diverseco gravas. Helpu nin akiri egalajn kvantojn de ĉiuj seksoj, akĉentoj kaj aĝoj en la datumbazo por eviti subprezentojn. 15 minutoj da voĉo, 225 registraĵoj, de ĉiu persono estus ideala, sed ĉiu donaceto estas utila.

Ĉu multaj esperantistoj jam kontribuis?

– La projekto progresas, do la nombroj daŭre kreskas. La lasta elŝutebla eldono de la datumaro el decembro 2019 enhavas 1 GB da registradoj kun 35 horoj da validigitaj registraĵoj de 215 personoj. 70% de la voĉoj estas vira kaj 7% ina. La ceteraj ne kreis konton. Nun (en januaro 2020) jam 300 personoj donacis 45 horojn. Mi esperas ke ni atingos 100 horojn por la sekvanta eldono de la datumaro en aŭgusto.

Rilataj

24 Komentoj

plej malnova

plej nova plej populara

Entekstaj komentoj

Vidu ĉiujn komentojn

Edmundo

2020-01-20 12:15

La ligo al “retejo” ne funkcias. Estu HTTPS anstataŭ HTTP: https://voice.mozilla.org/eo

Kalle Kniivilä

2020-01-20 12:18

Respondo al Edmundo

Dankon, korektite.

johanoeo

2020-01-20 16:14

“– En la retejo oni trovas du sekciojn: “Paroli”, …tiu ĉi ligilo ne funkcias, kaj la du aliaj min gvidas al la projekto, sed la paĝo estas ege konfuza, ke mi vere ne scias kion fari por kontribui mian voĉon.

Kalle Kniivilä

2020-01-20 16:25

Respondo al johanoeo

Restis eraro en la ligilo, ĝi estas nun korektita. Se vi iros nun al
https://voice.mozilla.org/eo
vi trovos klaran instrukcion.

Stefan Grotz

2020-01-20 19:22

Dankon pro la artikolo! Se iu havas pli da demandoj, simple demandu min 🙂

Mike Leon

2020-01-21 3:40

Respondo al Stefan Grotz

Sukceson al via projekto. Mi ne povas toleri la robotan voĉon de Google Translate en Esperanto, tial anstataŭe mi elektas la ĉeĥan (agrablan virinan) voĉon. Kun unu malavantaĝo: oni devas ŝanĝi ciferojn al vortoj, se ne, ĉe ”Mankas kandidato por organizi IJK-n en 2021” oni aŭdas: ”Mankas kandidato por organizi IJK-n en dvacet dvacet jedna”.

stergro

2020-01-21 11:00

Respondo al Mike Leon

Saluton MIke,
la projekto ne estas pri krei robotan voĉon sed pri krei parolrekonan sistemon, do voĉo al teksto, ne teksto al voĉo. Sed mozilla ankaŭ havas teksto al voĉo projekton kiu nomiĝas mozilla TTS. Sed neniu laboras pri tio.

Hejmano

2020-01-21 19:39

Estas mojosa projetko!
Virinojn la projekto-estrantoj do devas pli partoprenigi.

Oni uzu la italan akcenton por paroli Esperante : ofte ĝi estas tute korekta.

-3

Krizipo

2020-01-21 23:19

Respondo al Hejmano

Ĉiu ajn akcento estas ĝusta, se ĝi estas sur antaŭlasta silabo.
Kaj ĉiu ajn akĉento estas ĝusta, se ĝi estas laŭ la reguloj de Esperanto.

Hejmano

2020-01-22 15:28

Respondo al Krizipo

Jes, mi scias, sed la itala akcento estas miaopinie tre bela.
Nur estas propono. Kompreneble mi ne volas devigi homojn je fari tion, mi nur proponas, ke oni parolu tiamaniere. Senkulpigu min se ne estis sufiĉe klara.

stergro

2020-01-22 16:07

Respondo al Hejmano

Saluton Hejmano,
la projekto ne estas pri krei belan robotan voĉon sed pri krei parolrekonan sistemon kiu transskribas la vortoj de homoj al teksto. Tial plej bone la homoj parolu kun siaj naturaj akcentoj.

SIMONET Noël

2020-01-23 11:46

Kiam pluraj virinoj ne samlingvanoj parolas inter si , kaj bone komprenigxas, ili forgesas la gramatikon.

-12

Hejmano

2020-01-23 19:13

Respondo al SIMONET Noël

Kial, se veras, nur virinoj?

simonet.noel

2020-02-02 23:36

Respondo al Hejmano

Pravas.
La eksperimento okazis dum mi estis multe pli juna, somere mia laboro devigis mi atendi inter du liveroj da vestoj ne ankoraux finitaj por poste transporti ilin el atelieroj al aliaj atelieroj. Auxdante kaj spektante laborantajn kudristinojn el Portugalijo kaj el Hispanijo parolante kaj laborante kune dum la tuta tago, mi demandis kiun inter-lingvon ili devis uzi por interkomprenigxi cxar estis mirinde la rapideco de la konversacioj! Ili respondis al mi (en la franclingvana) ke estis uzata de cxiu sia denaska mem propra. Mi konkludis ke la gramatikoj ne estis rimarkitaj.

-2

Yves Bellefeuille

2020-01-24 2:33

Ŝoke multaj frazoj havas gramatikajn kaj aliajn erarojn.

Mi komprenas ke oni devas zorge elekti la legotajn frazojn, ĉar ĉio devas esti libere uzebla, sed la tuta verkaro de Zamenhof, ekzemple, estas nun libere uzebla ĉie en la mondo.

Krizipo

2020-01-24 10:31

Respondo al Yves Bellefeuille

Ankaŭ mi trovis erarajn frazojn, sed ne ŝoke multajn. Se mi atingas eraran frazon, mi ne elparolas, sed ignoras ĝin. Dum kontrolado de aliaj mi malakceptas kaj malĝustajn prononcojn kaj gramatikajn erarojn.

Krizipo

2020-01-24 16:10

Respondo al Krizipo

Mi ĵus rimarkis: La konvena ago estas ne “ignori”, sed “denunci”. Post la klako al “Denunci” eblas elekti la kialon: “gramatika eraro” (aŭ simile).

stergro

2020-01-24 10:59

Respondo al Yves Bellefeuille

Jes tio estas problema. Ni jam kolektis pli ol 10 000 frazoj el malnovaj libroj kiel la verkaro de Zamenhof mane. Sed tio ne sufiĉas, tial ni importis frazojn el vikipedio.
Liberafolio permis uzi siajn artikolojn por la projekto. Ni jam importis pli ol 1500 frazojn, se vi volas vi povas helpi validigi illin ĉe la “sentence-collector”: https://common-voice.github.io/sentence-collector/#/
(validigado plej bone funkcias en kun la poŝtelefono en la “swipe mode”.

stergro

2020-01-24 11:50

Respondo al stergro

100 000 frazoj estas ĉirkaŭ 70 horoj, ni finfine bezonos 1000 horojn sen ripetadoj.

Francisco Javier Moleón

2020-01-25 12:11

Mia dubo estas: ĉu (gramatikaj) eraroj vere ĝenas ĉi tie?

Mi celas: se la celo de la tuto estas instrui maŝinon rekoni kombinojn de silaboj kaj sonoj, tiam ne vere gravas (ĉu?), ĉu la frazo estas (gramatike) plene ĝusta aŭ plene malĝusta.

Ekz. la frazo “li aĉetis pano kaj estas mardon tamen venkis la” estas kaj gramatike kaj logike erara. Tamen por ke la maŝino lernu, kiel homoj prononcas tiujn vortojn, tute ne gravas, ĉu la frazo havas gramatikan kaj logikan sencon. Ĉiu ajn esperantisto kapablas laŭte elparoli senprobleme tiun sensencan frazon – provu. Aŭ ĉu vere konvenas/nepras, ke la frazoj estu sencohavaj el gramatika kaj logika vidpunktoj? Se jes, kial?

Yves Bellefeuille

2020-01-25 21:42

Respondo al Francisco Javier Moleón

Tie ĉi oni diras ke la frazoj devas esti senco-havaj kaj gramatike ĝustaj: https://discourse.mozilla.org/t/discussion-of-new-guidelines-for-uploaded-sentence-validation/37718 .

Oni eĉ diras, ke oni ne uzu frazon se estas citilo komence de ĝi, sed ne fine, kvankam tio absolute ne ŝanĝus la prononcon.

stergro

2020-01-26 0:03

Respondo al Francisco Javier Moleón

Jes kaj ne. Jes la prononcado estas plej grava. Ankaŭ homoj kelkfoje parolas kun gramatikaj eraroj, do tio povas esti bonan trajnan materialon.

Sed kiel Yves jam diris, Mozilla celas crei datumaron sen erarojn. Ankaŭ maŝinlernadaj sistemoj provas antaŭdiri la verŝajnan frazon kiam ĝi ne tute komprenas frazojn. Sed tio nur funkcias kun bonan trejna materialo

Yves Bellefeuille

2020-01-26 1:13

Respondo al stergro

Mi aŭdis frazojn kie “s” estis erare prononcita “z”. Kion mi faru tiam? La prononco certe estas erara, sed aliflanke tio estas ofta eraro.

Ĉu oni instruu al la sistemo ke ĝi rekonu tiun oftan eraron, aŭ ne?

Kolĉiko

2020-02-11 23:26

Respondo al Yves Bellefeuille

Ankaŭ mi ofte aŭdas frazojn kie ”s” estas erare prononcita ”z”. Ĝis nun mi rifuzis ilin. Via mesaĝo kreas dubon : eble mi devintus akcepti tiajn frazojn…

wpDiscuz

Francisco Javier Moleón pri Islanda majstroverko dronis en kafo: “Jen vera okazaĵo: dum mia iama deĵoro en la libroservo de la Centra Oficejo mi ricevis mendon por La danĝera…” apr 22, 22:30

Lee Miller pri Islanda majstroverko dronis en kafo: “Grava averto.” apr 22, 09:54

Araneo pri Rusaj esperantistoj verkos pri milito: “Granda cinikismo: komenci militon kune kun partnero (sovetio – Germanio, septembro de 1939) kaj poste festi vekon super eksa partnero!…” apr 14, 06:19

Araneo pri Rusaj esperantistoj verkos pri milito: “Sovetio komencis la II MM-on la 17an de septembro 1939 kaj nun festas datrevenon eb la Granda Patruja milito. Granda…” apr 14, 06:11

Jens Stengaard Larsen pri Mondpopolo manifestiĝas: “La homa lingvo per si mem estas perfekta. Tion pruvas la fakto ke oni ĉiam trovas sian denaskan lingvon la…” apr 11, 08:44

Konigi ĉi tion:

Rilataj

Mankas kandidato por organizi IJK-n en 2021

Ĉiutagaj novaĵoj de la mondo nun en Esperanto