Les llengües desfavorides necessiten traducció automàtica – Mikel L. Forcada

La traducció automàtica pot ajudar les llengües desfavorides. Si una llengua és viva avui dia, ho és perquè és digitalment viva i té una presència rellevant en Internet. Si no és així, els parlants aprenen i usen altres llengües per a viure en línia, i la llengua desapareix dels àmbits digitals de relació social i econòmica, cada volta més rellevants. Els continguts textuals són encara una bona part dels continguts de la xarxa. La traducció automàtica pot ajudar a generar-ne per a una llengua desfavorida, a partir de textos en alguna llengua més puixant, i, consegüentment, impulsar la vitalitat d’aquesta llengua en Internet.

L’article “Construir sistemes de traducció automàtica per a llengües menors: reptes i efectes” (Revista de Llengua i Dret, Journal of Language and Law, 73, 1–20) parla dels reptes que es presenten a l’hora de construir sistemes de traducció automàtica i dels efectes que se’n deriven, i en descriu alguns casos interessants.

Però, com ajuda la traducció automàtica? La traducció automàtica es pot usar fonamentalment per a dos propòsits. La pot usar qualsevol persona per a fer-se’n una idea o fins i tot per a comprendre completament un text originalment escrit en una llengua que no entén (assimilació) o un professional de la traducció com a esborrany de partida per a produir una traducció que s’ha de publicar. Si la traducció automàtica funciona bé, d’una banda es poden publicar continguts només en la llengua desfavorida i permetre que els parlants d’altres llengües els assimilen amb l’ajuda de la traducció automàtica, però, de l’altra, “la disponibilitat de traducció automàtica des d’una de les llengües dominants circumdants pot contribuir a l’augment de la ‘normalitat’ de la llengua menor en el sentit d’estendre’n l’ús familiar i domèstic a contextos socials més formals com ara l’escola, els mitjans de comunicació, l’administració, el comerç, etc.”, tot generant continguts de tota mena que es disseminaran en la llengua desfavorida. Tant en un cas com en l’altre, millora la visibilitat i la presència digital de la llengua, se n’estimula l’alfabetització i s’ajuda a consolidar un estàndard escrit compartit.

   Per a generar contingut per a la llengua desfavorida de qualitat en format electrònic s’ha de disposar de moltíssim contingut, que a més ha de ser bilingüe. Caldria generar-ne per a començar.

És difícil fer sistemes de traducció automàtica moderns per a llengües menudes. Construir un sistema de traducció automàtica per a una llengua menuda no és gens fàcil. La major part dels sistemes que s’usen en l’actualitat (per exemple, els que tothom usem en Internet, no cal dir marques) són sistemes de traducció automàtica neurals. Aquests sistemes neurals, que també s’anomenen d’aprenentatge profund (en anglés, deep learning) són un tipus de sistemes d’intel·ligència artificial, i es diuen neurals perquè l’ordinador executa un programa que simula grans xarxes de neurones artificials, que al seu torn són una versió molt simplificada de les neurones que trobem en els sistemes nerviosos dels animals. Aquests sistemes de traducció automàtica neural poden aprendre i se’ls ha d’entrenar amb molts exemples d’oracions ja traduïdes. Ací rau un dels problemes principals (no és l’únic, però): per a traduir raonablement d’una llengua afavorida a una llengua desfavorida necessitem molts milers, a voltes milions d’oracions amb la traducció corresponent. Dit d’una altra manera: per a generar continguts per a la llengua desfavorida hem de disposar ja de moltíssim contingut, que a més ha de ser bilingüe, i amb cada oració en una llengua alineada amb la corresponent en l’altra. Com que la llengua desfavorida en gran part ho és perquè no disposa de contingut bilingüe de qualitat en format electrònic, caldria generar-ne per a començar.

   Si aconseguim que els experts en traducció de la llengua desfavorida superen la desconfiança que tenen cap a les tecnologies de la llengua i aprenguen a codificar el que saben en forma de regles i diccionaris, podem començar a construir sistemes de traducció automàtica per a la llengua.

Recuperar una tecnologia vintage? Han passat ja quasi setanta anys de l’aparició dels primers programes experimentals de traducció automàtica. Fins al canvi de mil·lenni, la tecnologia que usaven aquells programes, que podem anomenar traducció automàtica basada en regles, es basava en una aproximació completament diferent. En aquesta aproximació, després de simplificar moltíssim la tasca de traducció, de manera que siga mecanitzable, és a dir, programable en un ordinador, els coneixements sobre traducció entre les dues llengües es codifiquen en diccionaris electrònics i fitxers amb regles, i un motor de traducció les aplica per a traduir el text. Si aconseguim que els experts en traducció de la llengua desfavorida superen la desconfiança que moltes voltes tenen cap a les tecnologies de la llengua i aprenguen a codificar el que saben en forma de regles i diccionaris, podem començar a construir sistemes de traducció automàtica per a la llengua. En contrast amb els sistemes neurals, que no són tan sensibles a la proximitat entre les llengües, els sistemes basats en regles funcionen particularment bé per a llengües emparentades, de manera que si la llengua desfavorida és de la mateixa família que una llengua afavorida amb la qual té contacte, podrien ser molt útils. En qualsevol cas, queda clar que crear diccionaris i escriure regles tampoc és una tasca fàcil: requereix formació, experiència i esforç.

   Si dedicàrem esforç a escriure diccionaris i regles per a un sistema basat en regles podríem tindre un sistema de traducció útil. A més, hauríem codificat en suport informàtic molts coneixements lingüístics sobre la llengua desfavorida. La traducció automàtica basada en regles pot ser l’única estratègia amb possibilitats de reeixir.

Quina tecnologia, doncs? Per a decidir entre els moderns sistemes neurals i els clàssics sistemes de regles, caldria comparar els esforços necessaris però també l’impacte. D’una banda, generar els corpus necessaris per a entrenar sistemes neurals comportaria la traducció professional de centenars de milers de mots; és a dir, un cost de desenes de milers d’euros i anys de treball. I si dedicàrem aquest esforç a escriure diccionaris i regles per a un sistema basat en regles? En el cas d’algunes llengües, podríem tindre un sistema de traducció útil, però, a més, hauríem codificat en suport informàtic molts coneixements lingüístics sobre la llengua desfavorida. De fet, en alguns casos, la traducció automàtica basada en regles pot “ser l’única estratègia amb possibilitats de reeixir”.

Programari lliure, coneixement obert: si la creació dels diccionaris i de les regles per a un sistema basat en regles es fa de manera que els resultats es publiquen amb llicències que en permeten l’ús lliure i la col·laboració de com més experts millor, la llengua desfavorida guanya recursos que es poden usar en altres tecnologies de la llengua, com ara correctors ortogràfics i gramaticals, que poden atenuar l’estatus de desfavoriment digital de la llengua. Hi ha llicències de programari lliure que es poden aplicar també a regles i diccionaris, les quals, a més de permetre la difusió i l’ús sense entrebancs de les versions originals o derivades del producte, obliguen a distribuir els resultats derivats amb la mateixa llicència lliure, “com ara la Llicència General Pública GPL de GNU o la llicència Creative Commons Reconeixement Compartir-Igual, CC-BY-SA”. Com a resultat, s’afavoreix la creació de comunitats de desenvolupament comunitari de recursos també comuns. Com s’explica en l’article, “Idealment, els recursos lingüístics i el programari per a la llengua menor haurien de poder ser gestionats com un comú”, per analogia a com “en la vida analògica, un comú és un tros de terra d’ús comunitari, és a dir, no dividit, destinat, per exemple, a la pastura, o una zona oberta al públic en un municipi”.

   Apertium és una plataforma de traducció automàtica lliure i les dades obertes necessàries per a traduir entre moltes llengües, amb èmfasi en llengües desfavorides. Funciona particularment bé entre llengües pròximes, però s’usa també per a obtenir traduccions entre llengües més allunyades.

Apertium és un projecte que desenvolupa, des de 2005, una plataforma de traducció automàtica lliure i les dades obertes necessàries per a traduir entre moltes llengües, amb èmfasi en llengües desfavorides. La llicència lliure usada per Apertium ha atret centenars de desenvolupadors, molts dels quals són activistes a favor de llengües desfavorides. Apertium funciona particularment bé entre llengües pròximes, però s’usa també per a obtenir traduccions entre llengües més allunyades, i, de fet, és la plataforma que s’ha usat en els casos estudiats en l’article, sis casos on es descriu: com s’ha aconseguit crear un sistema de traducció automàtica útil i disponible públicament entre una llengua menor i una llengua principal; els reptes a què s’ha hagut d’enfrontar el desenvolupament; els efectes que ha tingut sobre la llengua menor, i els recursos que s’han hagut de generar, sobretot, però no només, per l’escassesa de recursos com els que caldrien per a crear sistemes més moderns com els neurals.

Je ne comprends pas la langue bretonne. El bretó o brezhoneg és una llengua cèltica que parlen unes dues-centes mil persones a l’oest de Bretanya, al nord-est de França, la qual “no té pràcticament cap reconeixement legal a França”. L’Ofis Publik ar Brezhoneg és la principal organització que promou aquesta llengua, que té un estàndard escrit ben establert i comunament acceptat. Una iniciativa de l’Ofis, de la Universitat d’Alacant i de l’empresa valenciana Prompsit Language Engineering, va permetre llançar la primera versió d’un traductor francés→bretó basat en Apertium. “En l’actualitat, la qualitat del francés generat no és adequada per a ser posteditada [corregida per un professional de la traducció], però sí que és suficient perquè una persona francòfona puga fer-se una idea aproximada del significat d’un text bretó”. De fet, aquest és l’únic sistema de traducció automàtica disponible encara per al bretó. Un efecte secundari interessant és que, gràcies a la llicència lliure usada, les dades construïdes s’han pogut reutilitzar per a construir el corrector gramatical lliure LanguageTool per a la llengua bretona.

La traducció automàtica i l’estandardització de l’occità. Occità és el nom modern d’una llengua que va gojar de gran prestigi durant l’edat mitjana però que ara es troba fortament desfavorida, sense cap reconeixement legal (excepte a Catalunya on l’aranés, una variant de l’occità gascó, és oficial) i amb problemes d’estandardització de la varietat escrita, en part per la diversitat de les parles que la integren. El desenvolupament del sistema Apertium entre l’occità aranés i el català, iniciat el 2006, i amb suport de la Generalitat de Catalunya a través de diversos projectes i contractes, es va estendre a l’occità general, cosa que va comportar la creació d’una comissió lingüística amb lingüistes de prestigi de diverses regions de parla occitana, ja que s’havia de fixar l’estàndard dels textos que produiria el traductor. El qual, finalment, després de deu reunions, es basa fonamentalment en l’anomenat occitan referenciau, descrit amb la nòrma clàssica. Recentment, el projecte Apertium ha fet públic un traductor entre el francés i l’occità, que connecta aquest últim amb la llengua dominant amb la qual té més contacte. En tot cas, fins ara, “La disponibilitat de sistemes de traducció automàtica cap a l’occità han facilitat notablement la creació de contingut en occità a partir de contingut en espanyol o en català; per exemple, articles de la Wikipedia”.

Dos estàndards digitals per a l’aragonés? L’aragonés, llengua romànica pirenaica en greu perill, amb potser 10.000 parlants, disposa de traducció automàtica de l’espanyol i del català, basada en Apertium, gràcies a la iniciativa de Juan Pablo Martínez, professor de la Universitat de Saragossa. L’ortografia elegida és la de l’Estudio de Filologia Aragonesa. En paraules del mateix Martínez, “L’existència del traductor ha donat visibilitat a l’aragonès en diferents camps, i ha ajudat que altres projectes s’enlairessin (com ara Softaragonés), multiplicant l’efecte de visibilitat externa”. Però més recentment, el govern d’Aragó ha encarregat a una empresa la creació, també basada en Apertium, d’un sistema oficial de traducció de l’aragonés basat en una ortografia alternativa provisional, més semblant a la proposada pel Consello d’a Fabla Aragonesa. El cas de l’aragonés, “il·lustra, d’una banda, els beneficis de connectar la llengua menor a comuns actius de continguts, programari i recursos lingüístics […] que possibiliten i promoguen l’ús de la llengua, però també els riscos de fragmentació normativa que comporta l’ús de les eines lliures per parts d’actors que promouen codificacions alternatives d’una llengua menor que encara no en té una de suficientment estable”.

I tres casos més. L’article descriu en detall tres casos més on Apertium s’ha usat per a llengües menors. El primer, el cas de la traducció automàtica entre els dos estàndards escrits del noruec, el bokmål, l’estàndard dominant urbà, molt influït pel danés de l’antiga metròpoli i el nynorsk, l’estàndard desfavorit, més rural, i basat en les varietats no tan influïdes; entre altres coses s’explica que el sistema s’ha fet molt famós entre l’alumnat de batxillerat de regions de predomini bokmål quan han de fer els deures de nynorsk. El segon cas és també noruec, i descriu el desenvolupament de l’únic sistema existent per al sami septentrional (una llengua finoúgrica d’uns vint mil parlants, de les abans anomenades lapones) al noruec bokmål, en el marc de la iniciativa Giellatekno de desenvolupament d’eines lingüístiques per al sami. El tercer cas és el del rescat, basant-se en recursos existents en Apertium, del traductor SALT de la Generalitat Valenciana, en haver-se perdut —en circumstàncies ben estranyes— les dades necessàries per continuar desenvolupant la versió anterior, que havia donat servei a milers d’usuaris durant ben bé vint anys.

   En conclusió, la traducció automàtica té com a resultat un comú de recursos que permet la creació d’altres tecnologies per a les comunitats lingüístiques desfavorides.

En conclusió, la traducció automàtica pot ajudar les llengües desfavorides, com es mostra en l’article, a ser més presents i vives en un món cada volta més digitalitzat, ja que facilita, d’una banda, la creació de textos en la llengua desfavorida, i d’altra, que parlants d’altres llengües hi tinguen accés; el desenvolupament és sovint obert i amb orientació comunitària, gràcies a l’existència de plataformes que proveeixen de programari i de dades amb llicències lliures. El resultat és un comú de recursos que permet la creació d’altres tecnologies per a les comunitats lingüístiques desfavorides.

 

Mikel L. Forcada
Catedràtic de llenguatges i sistemes informàtics en la Universitat d’Alacant, president de l’Associació Europea de Traducció Automàtica (EAMT) des de 2015, fundador i membre del Comité de Gestió de la plataforma de traducció automàtica de codi obert Apertium, i cofundador i director d’investigació de l’empresa de tecnologia lingüística Prompsit Language Engineering

Deixa un comentari