AINA, un projecte d’intel·ligència artificial en clau catalana – Maite Melero i Marta R. Costa-jussà

El desembre passat vàrem mantenir unes converses disteses però plenes de contingut amb tres figures clau del panorama de la intel·ligència artificial mundial, que tenen en comú que són nascudes i formades a Catalunya i que comparteixen un interès comú per la perspectiva catalana d’aquesta tecnologia puntera. Aquestes converses es van publicar al número 74 d’aquesta Revista (DOI: http://dx.doi.org/10.2436/rld.i74.2020.3503). Gairebé coincidint en el temps, el conseller de Polítiques Digitals i Administració Pública, Jordi Puigneró, va presentar públicament el projecte AINA, creat amb l’objectiu de garantir el català en l’era digital.

   Una de les conclusions més rellevants que vàrem extreure de les nostres entrevistes recollides al núm. 74 de l’RLD és que les aplicacions en intel·ligència artificial estan millorant molt en termes de qualitat gràcies a les tècniques d’aprenentatge no supervisat amb xarxes neuronals.

Una de les conclusions més rellevants que vàrem extreure de les nostres entrevistes és que les aplicacions en intel·ligència artificial estan millorant molt en termes de qualitat gràcies a les tècniques d’aprenentatge no supervisat amb xarxes neuronals. Ja sabem que la intel·ligència artificial s’alimenta de grans quantitats de dades. Mentre que fins ara aquestes dades havien d’estar anotades o etiquetades manualment per cadascuna de les tasques que es pretenia resoldre (traducció automàtica, sistemes de diàleg, etc.) amb un cost  pràcticament només a l’abast de llengües grans com l’anglès, actualment, hi ha una línia d’investigació molt prometedora que permet millorar les aplicacions intel·ligents utilitzant dades no etiquetades, és a dir, text lliure. Són les anomenades tècniques d’aprenentatge no supervisat. Aquestes tècniques, complementades amb l’ús de models preentrenats de la llengua, estan augmentant de forma notable la qualitat de les aplicacions d’intel·ligència artificial.

   Un model de llengua s’entrena sobre text lliure aprenent la probabilitat d’una seqüència determinada de paraules. El gran avantatge és que això ho pot aprendre a partir de text normal i corrent, com ara col·leccions de notícies, la Viquipèdia o text recollit del web.

Per posar un exemple, podem utilitzar un model preentrenat de llengua per millorar molt la qualitat d’un sistema automàtic de pregunta-resposta (per exemple, un xatbot) Què vol dir un model preentrenat de llengua? Un model de llengua s’entrena sobre text lliure aprenent la probabilitat d’una seqüència determinada de paraules. Per exemple, un model del català sap que la seqüència “L’Einstein va ser un científic” és més probable que “L’Einstein ser va científic un”. El gran avantatge és que això ho pot aprendre a partir de text normal i corrent, com ara col·leccions de notícies, la Viquipèdia o text recollit del web. Aquest model de llengua s’incorpora llavors en l’entrenament del xatbot. Per entrenar el xatbot a contestar preguntes, sí que necessitarem dades etiquetades que marquin què és una pregunta i quina és la seva possible resposta. Típicament, si diem “qui va ser Einstein?” la resposta podria ser “un científic de renom”. Gràcies al model preentrenat de llengua, no necessitarem tantes dades etiquetades, donat que el sistema ja té molta informació prèvia, com ara que la seqüència “un científic de renom” és molt probable en el context de “qui va ser Einstein?”. Es diu llavors que el xatbot ha estat preentrenat amb un model de llenguatge.

Les xarxes neuronals es remunten als anys 60, quan un psicòleg cognitiu, Frank Rosenblatt, es va inventar el perceptró, el primer algorisme inspirat en les connexions neuronals del cervell humà. El perceptró era una xarxa neuronal artificial molt bàsica, d’una única neurona o connexió, capaç d’aprendre a partir d’exemples. D’aprendre dels exemples se’n diu aprenentatge supervisat.  Posem per cas que volem aprendre de manera supervisada  a reconèixer imatges de gats, llavors li hem de dir al sistema moltes vegades “això és un gat”. I ho fem a través de conjunts de dades específicament anotades per a la tasca que volem que la màquina resolgui. Les xarxes neuronals s’han anat fent cada cop més complexes, i sobretot més profundes, amb gran quantitat de capes de neurones.

Esquema d'una xarxa neuronal d'una sola capa
Esquema d’una xarxa neuronal d’una sola capa (Imatge By Dake, Mysid – Wikimedia Commons)

   Les innovacions en intel·ligència artificial han sigut constants en els últims anys. El 2017 va aparèixer una nova arquitectura neuronal anomenada transformer. El fet diferencial del transformer és que és capaç de mantenir la informació de context al passar d’una capa neuronal a l’altra.

Les innovacions en intel·ligència artificial han sigut constants en els últims anys. El 2017 va aparèixer una nova arquitectura neuronal anomenada transformer. El fet diferencial del transformer és que és capaç de mantenir la informació de context al passar d’una capa neuronal a l’altra, la qual cosa permet la desambiguació de sentit de les paraules, fonamental per la traducció automàtica (l’àrea on primer es va aplicar aquesta arquitectura) però també per la comprensió del llenguatge en general. És a dir, fins llavors, les paraules estaven representades als models per un vector numèric. A les xarxes transformer el vector numèric representa no només la paraula sinó també el seu context, de manera que, per exemple, la paraula cor (de cor musical) té un vector diferent de cor (múscul cardíac).  La informació de context també és essencial per gestionar bé fenòmens com la concordança o la coreferència. L’èxit del transformer en traducció automàtica va ser tan rotund que en pocs mesos tots els sistemes el van adoptar i no va trigar gaire a fer el salt a altres àmbits del processament de la llengua.

   Al 2018, Google va entrenar un model de l’anglès amb l’arquitectura transformer sobre un corpus massiu de dades, més de 3000 milions de paraules! Es tracta del Bidirectional Encoder Representation for Transformer. De seguida se’n va fer una versió multilingüe entrenada sobre més de 100 llengües.

Al 2018, Google va entrenar un model de l’anglès amb l’arquitectura transformer sobre un corpus massiu de dades, més de 3000 milions de paraules! Es tracta del Bidirectional Encoder Representation for Transformer (més conegut per les seves sigles BERT). Entrenat sobre text sense anotar, BERT aprèn a predir paraules en una frase de la qual s’han amagat un 15% de les paraules i aprèn a dir si una frase segueix a una altra. L’èxit de BERT va ser immediat. Com a model preentrenat, BERT és com una mena de navalla suïssa que funciona bé per a qualsevol tasca de processament de la llengua. De seguida se’n va fer una versió multilingüe entrenada sobre més de 100 llengües. No van trigar a aparèixer altres variacions sobre la mateixa idea. La familia de models preentrenats GPT apareixen el 2019. Els GPT s’entrenen per a predir la següent paraula donat un context previ. Això li dona capacitats generatives, com per exemple ser capaç de resumir un text o escriure poemes. A partir d’aquí la cursa s’accelera i els models són cada cop més complexos computacionalment parlant, p. e. el GPT-3 s’entrena amb 175 mil milions de paràmetres, els últims models de Google, el T5 (Text-To-Text Transfer Transformer) i el novíssim Switch ja passen del bilió de paràmetres. A més a més, el pas del laboratori a producció d’aquestes noves tecnologies és cada cop més ràpid. Des de l’any passat, Google utilitza BERT per resoldre el 100% de les seves cerques en més de 70 idiomes diferents.

Per construir un model general de llengua, per exemple, per al català, necessitem doncs quantitats massives de text, però ja hem vist que no cal que aquest text sigui anotat manualment, és suficient que sigui text en català. Amb l’exemple del xatbot hem explicat com podem fer servir un model de llengua per millorar la qualitat d’una aplicació qualsevol. Un model preentrenat per a una llengua, és per tant un recurs de primer ordre, que pot ser adaptat per resoldre multitud de tasques lingüístiques reentrenant amb conjunts anotats molt més petits dels que es necessitaven abans. De fet, com més massiu el model preentrenat, més petit cal que sigui el corpus anotat per la tasca. Per exemple, amb només 10 frases s’ha ensenyat al model GPT-3 a escriure un assaig sobre perquè els humans no han de tenir por de la intel·ligència artificial (podeu trobar aquests assaigs i moltes altres mostres de text artificial a la xarxa).

Els models preentrenats i l’aprenentatge no supervisat han obert les portes a una supervivència digital que abans només es podia garantir per a les llengües globals. La tecnologia avança rapidíssimament i cada pocs mesos apareixen noves arquitectures, que fan obsoletes les anteriors. El que persisteix però és la importància de les dades, tant més les dades de qualitat, netes i ben classificades.

   El nou projecte AINA neix al mig d’aquest vertiginós moment tecnològic amb la missió de generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d’aplicacions intel·ligents. Això implica recollir grans quantitats de dades, catalogar-les, tractar-les i preparar-les. Aquestes dades serveixen en primera instància per entrenar un gran model del català.

El nou projecte AINA neix al mig d’aquest vertiginós moment tecnològic amb la missió de generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d’aplicacions intel·ligents. Això implica recollir grans quantitats de dades, catalogar-les, tractar-les i preparar-les. Aquestes dades serveixen en primera instància per entrenar un gran model del català. A continuació, s’anotaran subconjunts d’aquestes dades, que serviran per adaptar el model preentrenat bàsic a resoldre tasques específiques (sistemes conversacionals, de traducció automàtica, d’elaboració de resums, etc.). Alguns d’aquests subconjunts anotats es reservaran per a poder avaluar automàticament el resultat dels models adaptats.

Gràfica de les dades del corpus textual català: DOGC (5,8%), CAWaC (29,7%), Oscar (31,7%), Open subtitles (0,5%), Viquipèdia (7,6%), Crawling General (19,8%), Crawling Generalitat (2%), Agència Catalana de Notícies (3,4%))
Fonts de les dades del corpus textual del català

En una primera fase, AINA ha recollit un gran corpus textual del català format per dades rastrejades d’internet (que requereixen de molta neteja i preprocessament) i per dades ben editades procedents de col·leccions de premsa (ACN, Vilaweb), documents públics (DOGC) i la Viquipèdia. Aquest corpus, després de la neteja i la deduplicació (eliminació de documents i frases duplicades), té al voltant de 1.758 milions de paraules. Amb aquest corpus, que és el més gran recollit en català fins ara, s’ha entrenat un model de llengua, seguint l’arquitectura de BERT. El resultat és BERTa, amb 110 milions de paràmetres, un model preentrenat que ajudarà a millorar la qualitat de les aplicacions intel·ligents en català i a crear-ne de noves. A més del gran corpus textual i de BERta, el projecte AINA ja ha produït una primera col·lecció de conjunts de dades anotades per entrenar i avaluar aplicacions de pregunta-resposta, implicació textual, similitud semàntica i classificació de documents.

En un futur proper, es preveu seguir incrementant la recollida de corpus textual de qualitat i seguir generant conjunts de dades anotades per diferents tasques, així com començar la recollida de dades de veu i transcripcions, imprescindibles per desenvolupar reconeixedors de veu en català i altres aplicacions de la parla.

En un futur proper, es preveu seguir incrementant la recollida de corpus textual de qualitat i seguir generant conjunts de dades anotades per diferents tasques, així com començar la recollida de dades de veu i transcripcions, imprescindibles per desenvolupar reconeixedors de veu en català i altres aplicacions de la parla.

La bona notícia que ens van avançar els nostres entrevistats a l’article de desembre és que la propera generació de sistemes intel·ligents necessitarà menys dades anotades per aprendre i que això era una bona notícia per al català. Tot i així, les dades segueixen sent el petroli que mou la intel·ligència artificial, per això la segona bona notícia que portem avui és que ja ha començat el projecte que treballarà per recollir i preparar dades de qualitat en català, i per convertir-les en potents models preentrenats que es posaran a disposició de la indústria del sector i de la comunitat en general.

 

Maite Melero
Doctora en Lingüística Computacional, és investigadora principal a la Unitat de Mineria de Dades al Barcelona Supercomputing Center, on lidera el grup de Traducció Automàtica

Marta R. Costa-jussà
Doctora enginyera per la Universitat Politècnica de Catalunya (UPC), és investigadora Ramón i Cajal i ERC de la UPC, on colidera el grup de Traducció Automàtica

La veu de la paciència puja un altre turó: la traducció i la representació d’Amanda Gorman – Esther Monzó Nebot

El 10 de març, el diari Ara publicava una notícia sobre l’elecció de traductor al català per al poema «The Hill We Climb» que la poetessa americana Amanda Gorman va llegir el 20 de gener de 2021 durant la investidura de Joe Biden com a president dels Estats Units d’Amèrica. Des de l’agència editorial que gestiona els drets intel·lectuals de Gorman, es va demanar una traductora dona amb perfil activista i, si era possible, d’ascendència afroamericana. Unes setmanes abans, la mateixa demanda per a la traducció a l’holandès del mateix poema de Gorman apareixia a The Guardian destacant que la traductora, en aquest cas, una persona blanca no binària, havia decidit deixar la traducció pels comentaris de les activistes que no entenien com una traductora no racialitzada es presentava com la «traductora ideal» per a una autora racialitzada, com havia manifestat l’editorial holandesa sobre l’autora (que no traductora) Marieke Lucas Rijneveld.Read More »

L’XI Jornada sobre l’Ús del Català a la Justícia: “La Sentència del Suprem: un nou retrocés per a la llengua” – Anna Arnall Duch

El passat 18 de desembre la Comissió de Llengua del Consell de l’Advocacia Catalana (CICAC) va organitzar, amb el suport del Departament de Justícia i la Direcció General de Política Lingüística de la Generalitat de Catalunya, l’XI Jornada sobre l’Ús del Català a la Justícia. Es tracta d’una trobada anual que té com a objectiu debatre sobre els usos lingüístics en els diversos àmbits que conformen la justícia (l’advocacia, la judicatura, la procuradoria), però en l’últim acte va defugir l’àmbit estricte de la justícia i es va centrar en la polèmica Sentència 634/2020, de 2 de juny, del Tribunal Suprem, una resolució amb efectes en àmbits més administratius que judicials, però que no deixa de repercutir en els usos lingüístics en l’àmbit jurídic general.Read More »

La política lingüística del govern valencià (2015-2019) – Cristòfol Badenes Goterris

El resultat de les eleccions autonòmiques valencianes de 2015 va provocar un canvi en els partits que ocupaven el govern. Aquest, després de 20 anys de domini conservador, va passar a estar integrat per una coalició de forces progressistes favorables al foment i ús del valencià. El nou executiu, conegut com I Govern del Botànic, realitzà una actuació en matèria lingüística que no va aconseguir generar consensos i va ser criticada des de diferents sectors socials, per excés o per defecte. Aquest apunt mira d’esclarir quin nivell d’impuls es va donar a la llengua i quins són els objectius subjacents de la política lingüística aplicada pel govern autonòmic valencià entre 2015 i 2019.

Read More »

El discurso del ámbito de la Administración: una perspectiva lingüística – Iria da Cunha

Son diversos los autores que han trabajado en el estudio de los textos administrativos en español, desde variadas perspectivas. Sin embargo, la mayor parte de ellos se centra en el contexto comunicativo en que el emisor de los textos es la Administración pública y deja en un segundo plano los casos en que son los ciudadanos quienes deben redactar documentos para comunicarse con la Administración. La ciudadanía queda, así, normalmente relegada al rol de mera receptora de los documentos administrativos, aunque esta debe redactar documentos dirigidos a la Administración en multitud de situaciones a lo largo de su vida. Asimismo, en España, la comunicación electrónica en el ámbito de la Administración es el procedimiento habitual en la actualidad, en el marco de la e-Administración (o administración electrónica). No obstante, hasta ahora son pocos los esfuerzos que se han hecho desde el ámbito académico o desde la propia Administración para desarrollar recursos tecnológicos que tengan como objetivo mejorar la comunicación electrónica entre la ciudadanía y los empleados públicos.Read More »