AINA, un projecte d’intel·ligència artificial en clau catalana – Maite Melero i Marta R. Costa-jussà

El desembre passat vàrem mantenir unes converses disteses però plenes de contingut amb tres figures clau del panorama de la intel·ligència artificial mundial, que tenen en comú que són nascudes i formades a Catalunya i que comparteixen un interès comú per la perspectiva catalana d’aquesta tecnologia puntera. Aquestes converses es van publicar al número 74 d’aquesta Revista (DOI: http://dx.doi.org/10.2436/rld.i74.2020.3503). Gairebé coincidint en el temps, el conseller de Polítiques Digitals i Administració Pública, Jordi Puigneró, va presentar públicament el projecte AINA, creat amb l’objectiu de garantir el català en l’era digital.

   Una de les conclusions més rellevants que vàrem extreure de les nostres entrevistes recollides al núm. 74 de l’RLD és que les aplicacions en intel·ligència artificial estan millorant molt en termes de qualitat gràcies a les tècniques d’aprenentatge no supervisat amb xarxes neuronals.

Una de les conclusions més rellevants que vàrem extreure de les nostres entrevistes és que les aplicacions en intel·ligència artificial estan millorant molt en termes de qualitat gràcies a les tècniques d’aprenentatge no supervisat amb xarxes neuronals. Ja sabem que la intel·ligència artificial s’alimenta de grans quantitats de dades. Mentre que fins ara aquestes dades havien d’estar anotades o etiquetades manualment per cadascuna de les tasques que es pretenia resoldre (traducció automàtica, sistemes de diàleg, etc.) amb un cost  pràcticament només a l’abast de llengües grans com l’anglès, actualment, hi ha una línia d’investigació molt prometedora que permet millorar les aplicacions intel·ligents utilitzant dades no etiquetades, és a dir, text lliure. Són les anomenades tècniques d’aprenentatge no supervisat. Aquestes tècniques, complementades amb l’ús de models preentrenats de la llengua, estan augmentant de forma notable la qualitat de les aplicacions d’intel·ligència artificial.

   Un model de llengua s’entrena sobre text lliure aprenent la probabilitat d’una seqüència determinada de paraules. El gran avantatge és que això ho pot aprendre a partir de text normal i corrent, com ara col·leccions de notícies, la Viquipèdia o text recollit del web.

Per posar un exemple, podem utilitzar un model preentrenat de llengua per millorar molt la qualitat d’un sistema automàtic de pregunta-resposta (per exemple, un xatbot) Què vol dir un model preentrenat de llengua? Un model de llengua s’entrena sobre text lliure aprenent la probabilitat d’una seqüència determinada de paraules. Per exemple, un model del català sap que la seqüència “L’Einstein va ser un científic” és més probable que “L’Einstein ser va científic un”. El gran avantatge és que això ho pot aprendre a partir de text normal i corrent, com ara col·leccions de notícies, la Viquipèdia o text recollit del web. Aquest model de llengua s’incorpora llavors en l’entrenament del xatbot. Per entrenar el xatbot a contestar preguntes, sí que necessitarem dades etiquetades que marquin què és una pregunta i quina és la seva possible resposta. Típicament, si diem “qui va ser Einstein?” la resposta podria ser “un científic de renom”. Gràcies al model preentrenat de llengua, no necessitarem tantes dades etiquetades, donat que el sistema ja té molta informació prèvia, com ara que la seqüència “un científic de renom” és molt probable en el context de “qui va ser Einstein?”. Es diu llavors que el xatbot ha estat preentrenat amb un model de llenguatge.

Les xarxes neuronals es remunten als anys 60, quan un psicòleg cognitiu, Frank Rosenblatt, es va inventar el perceptró, el primer algorisme inspirat en les connexions neuronals del cervell humà. El perceptró era una xarxa neuronal artificial molt bàsica, d’una única neurona o connexió, capaç d’aprendre a partir d’exemples. D’aprendre dels exemples se’n diu aprenentatge supervisat.  Posem per cas que volem aprendre de manera supervisada  a reconèixer imatges de gats, llavors li hem de dir al sistema moltes vegades “això és un gat”. I ho fem a través de conjunts de dades específicament anotades per a la tasca que volem que la màquina resolgui. Les xarxes neuronals s’han anat fent cada cop més complexes, i sobretot més profundes, amb gran quantitat de capes de neurones.

Esquema d'una xarxa neuronal d'una sola capa
Esquema d’una xarxa neuronal d’una sola capa (Imatge By Dake, Mysid – Wikimedia Commons)

   Les innovacions en intel·ligència artificial han sigut constants en els últims anys. El 2017 va aparèixer una nova arquitectura neuronal anomenada transformer. El fet diferencial del transformer és que és capaç de mantenir la informació de context al passar d’una capa neuronal a l’altra.

Les innovacions en intel·ligència artificial han sigut constants en els últims anys. El 2017 va aparèixer una nova arquitectura neuronal anomenada transformer. El fet diferencial del transformer és que és capaç de mantenir la informació de context al passar d’una capa neuronal a l’altra, la qual cosa permet la desambiguació de sentit de les paraules, fonamental per la traducció automàtica (l’àrea on primer es va aplicar aquesta arquitectura) però també per la comprensió del llenguatge en general. És a dir, fins llavors, les paraules estaven representades als models per un vector numèric. A les xarxes transformer el vector numèric representa no només la paraula sinó també el seu context, de manera que, per exemple, la paraula cor (de cor musical) té un vector diferent de cor (múscul cardíac).  La informació de context també és essencial per gestionar bé fenòmens com la concordança o la coreferència. L’èxit del transformer en traducció automàtica va ser tan rotund que en pocs mesos tots els sistemes el van adoptar i no va trigar gaire a fer el salt a altres àmbits del processament de la llengua.

   Al 2018, Google va entrenar un model de l’anglès amb l’arquitectura transformer sobre un corpus massiu de dades, més de 3000 milions de paraules! Es tracta del Bidirectional Encoder Representation for Transformer. De seguida se’n va fer una versió multilingüe entrenada sobre més de 100 llengües.

Al 2018, Google va entrenar un model de l’anglès amb l’arquitectura transformer sobre un corpus massiu de dades, més de 3000 milions de paraules! Es tracta del Bidirectional Encoder Representation for Transformer (més conegut per les seves sigles BERT). Entrenat sobre text sense anotar, BERT aprèn a predir paraules en una frase de la qual s’han amagat un 15% de les paraules i aprèn a dir si una frase segueix a una altra. L’èxit de BERT va ser immediat. Com a model preentrenat, BERT és com una mena de navalla suïssa que funciona bé per a qualsevol tasca de processament de la llengua. De seguida se’n va fer una versió multilingüe entrenada sobre més de 100 llengües. No van trigar a aparèixer altres variacions sobre la mateixa idea. La familia de models preentrenats GPT apareixen el 2019. Els GPT s’entrenen per a predir la següent paraula donat un context previ. Això li dona capacitats generatives, com per exemple ser capaç de resumir un text o escriure poemes. A partir d’aquí la cursa s’accelera i els models són cada cop més complexos computacionalment parlant, p. e. el GPT-3 s’entrena amb 175 mil milions de paràmetres, els últims models de Google, el T5 (Text-To-Text Transfer Transformer) i el novíssim Switch ja passen del bilió de paràmetres. A més a més, el pas del laboratori a producció d’aquestes noves tecnologies és cada cop més ràpid. Des de l’any passat, Google utilitza BERT per resoldre el 100% de les seves cerques en més de 70 idiomes diferents.

Per construir un model general de llengua, per exemple, per al català, necessitem doncs quantitats massives de text, però ja hem vist que no cal que aquest text sigui anotat manualment, és suficient que sigui text en català. Amb l’exemple del xatbot hem explicat com podem fer servir un model de llengua per millorar la qualitat d’una aplicació qualsevol. Un model preentrenat per a una llengua, és per tant un recurs de primer ordre, que pot ser adaptat per resoldre multitud de tasques lingüístiques reentrenant amb conjunts anotats molt més petits dels que es necessitaven abans. De fet, com més massiu el model preentrenat, més petit cal que sigui el corpus anotat per la tasca. Per exemple, amb només 10 frases s’ha ensenyat al model GPT-3 a escriure un assaig sobre perquè els humans no han de tenir por de la intel·ligència artificial (podeu trobar aquests assaigs i moltes altres mostres de text artificial a la xarxa).

Els models preentrenats i l’aprenentatge no supervisat han obert les portes a una supervivència digital que abans només es podia garantir per a les llengües globals. La tecnologia avança rapidíssimament i cada pocs mesos apareixen noves arquitectures, que fan obsoletes les anteriors. El que persisteix però és la importància de les dades, tant més les dades de qualitat, netes i ben classificades.

   El nou projecte AINA neix al mig d’aquest vertiginós moment tecnològic amb la missió de generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d’aplicacions intel·ligents. Això implica recollir grans quantitats de dades, catalogar-les, tractar-les i preparar-les. Aquestes dades serveixen en primera instància per entrenar un gran model del català.

El nou projecte AINA neix al mig d’aquest vertiginós moment tecnològic amb la missió de generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d’aplicacions intel·ligents. Això implica recollir grans quantitats de dades, catalogar-les, tractar-les i preparar-les. Aquestes dades serveixen en primera instància per entrenar un gran model del català. A continuació, s’anotaran subconjunts d’aquestes dades, que serviran per adaptar el model preentrenat bàsic a resoldre tasques específiques (sistemes conversacionals, de traducció automàtica, d’elaboració de resums, etc.). Alguns d’aquests subconjunts anotats es reservaran per a poder avaluar automàticament el resultat dels models adaptats.

Gràfica de les dades del corpus textual català: DOGC (5,8%), CAWaC (29,7%), Oscar (31,7%), Open subtitles (0,5%), Viquipèdia (7,6%), Crawling General (19,8%), Crawling Generalitat (2%), Agència Catalana de Notícies (3,4%))
Fonts de les dades del corpus textual del català

En una primera fase, AINA ha recollit un gran corpus textual del català format per dades rastrejades d’internet (que requereixen de molta neteja i preprocessament) i per dades ben editades procedents de col·leccions de premsa (ACN, Vilaweb), documents públics (DOGC) i la Viquipèdia. Aquest corpus, després de la neteja i la deduplicació (eliminació de documents i frases duplicades), té al voltant de 1.758 milions de paraules. Amb aquest corpus, que és el més gran recollit en català fins ara, s’ha entrenat un model de llengua, seguint l’arquitectura de BERT. El resultat és BERTa, amb 110 milions de paràmetres, un model preentrenat que ajudarà a millorar la qualitat de les aplicacions intel·ligents en català i a crear-ne de noves. A més del gran corpus textual i de BERta, el projecte AINA ja ha produït una primera col·lecció de conjunts de dades anotades per entrenar i avaluar aplicacions de pregunta-resposta, implicació textual, similitud semàntica i classificació de documents.

En un futur proper, es preveu seguir incrementant la recollida de corpus textual de qualitat i seguir generant conjunts de dades anotades per diferents tasques, així com començar la recollida de dades de veu i transcripcions, imprescindibles per desenvolupar reconeixedors de veu en català i altres aplicacions de la parla.

En un futur proper, es preveu seguir incrementant la recollida de corpus textual de qualitat i seguir generant conjunts de dades anotades per diferents tasques, així com començar la recollida de dades de veu i transcripcions, imprescindibles per desenvolupar reconeixedors de veu en català i altres aplicacions de la parla.

La bona notícia que ens van avançar els nostres entrevistats a l’article de desembre és que la propera generació de sistemes intel·ligents necessitarà menys dades anotades per aprendre i que això era una bona notícia per al català. Tot i així, les dades segueixen sent el petroli que mou la intel·ligència artificial, per això la segona bona notícia que portem avui és que ja ha començat el projecte que treballarà per recollir i preparar dades de qualitat en català, i per convertir-les en potents models preentrenats que es posaran a disposició de la indústria del sector i de la comunitat en general.

 

Maite Melero
Doctora en Lingüística Computacional, és investigadora principal a la Unitat de Mineria de Dades al Barcelona Supercomputing Center, on lidera el grup de Traducció Automàtica

Marta R. Costa-jussà
Doctora enginyera per la Universitat Politècnica de Catalunya (UPC), és investigadora Ramón i Cajal i ERC de la UPC, on colidera el grup de Traducció Automàtica

Leave a Reply