La pèrdua de visibilitat del català en els resultats de cerca web: resum de l’informe de l’Aliança per la presència digital del català – Fundació puntCAT

Font: Pexels. Autoria: Evg Kowalievska

El 21 de març de 2023, 10 entitats que promouen i defensen el català (Acció Cultural del País Valencià, Amical Wikimedia, Fundació puntCAT, Institut d’Estudis Catalans, Institut Ramon Llull, Obra Cultural Balear, Òmnium Cultural, Plataforma per la Llengua, Softcatalà i Wiccac) vàrem presentar l’Aliança per la presència digital del català. L’objectiu d’aquesta iniciativa és vetllar perquè la llengua catalana tingui en tots els àmbits del món digital la presència que li correspon per nombre de parlants. La nostra preocupació inicial s’ha centrat en la pèrdua de rellevància del català en els resultats de cerca web. En resposta a una petició del Govern de la Generalitat de Catalunya, l’Aliança ha posat en marxa una acció concreta: fer un estudi per quantificar aquesta pèrdua de visibilitat del català en les cerques web durant els últims mesos. Aquest estudi ha estat dut a terme per la Fundació puntCAT, que ha assumit la seva realització.

Possiblement coneixeu i heu experimentat el fenomen que descriurem a continuació quan realitzeu cerques a internet. A mitjans del 2022, es va identificar una incidència en les pàgines web multilingües: el contingut en català va deixar d’aparèixer en les primeres posicions dels cercadors, encara que la cerca s’hagués realitzat en català i fins i tot si es tenia configurat l’entorn de navegació per donar preferència al català. Abans d’això, el contingut en català de les pàgines web multilingües solia aparèixer en les primeres posicions quan el cercador interpretava que l’usuari feia la consulta en aquesta llengua. No s’ha determinat la data exacta en què va començar aquest comportament ni se’n coneix el motiu, malgrat les consultes realitzades a les empreses de cerca.

L’Aliança per la presència digital del català, a instàncies de la Generalitat de Catalunya, ha dut a terme un estudi per comprendre millor aquest fenomen, quantificar-lo i entendre com afecta el trànsit als llocs web. D’aquesta manera, es disposa d’arguments per reclamar als actors implicats, especialment les empreses de cerca d’internet, que reverteixin aquesta situació i que respectin les preferències dels usuaris en la selecció de l’idioma en què desitgen rebre el resultat de les seves cerques.

Per dur a terme l’estudi, hem sol·licitat dades de trànsit web orgànic (sense contingut promocionat o publicitat) procedents de cercadors a 16 organitzacions rellevants en els sectors públic, acadèmic, mediàtic, social i empresarial catalans. 13 d’aquestes organitzacions han col·laborat amb l’estudi i s’han avaluat les seves dades en aquest primer informe. Hem analitzat el trànsit web orgànic procedent de cercadors de 639 llocs web multilingües (contingut en català i un o més idiomes addicionals). Les dades que hem sol·licitat corresponen als anys 2021 (sense l’afectació), 2022 (quan es va identificar el problema) i les dades disponibles fins al present any 2023.

   Els resultats de l’estudi, que es va publicar el 6 de juny i es poden consultar i descarregar en anglès i català, demostren que efectivament hi ha una pèrdua de visibilitat del contingut en català.

Els resultats de l’estudi, que es va publicar el 6 de juny i es poden consultar i descarregar en anglès i català, demostren que efectivament hi ha una pèrdua de visibilitat del contingut en català. Les dades recollides indiquen que hi ha un canvi de tendència generalitzat en el trànsit proporcionat pel cercador Google (en el qual s’ha centrat l’estudi, perquè canalitza més del 95 % de les cerques web en el nostre entorn) durant la primavera de l’any 2022, i aquest canvi perdura fins a l’actualitat. Un altre resultat rellevant és que aquest fenomen no afecta totes les pàgines web, ja que segons l’estudi, el 66,5 % han experimentat aquest problema i han perdut trànsit a les seves versions en català. Per tant, concloem que més de dos terços dels llocs web multilingües analitzats s’han vist afectats per aquest problema fins ara. A més, hem observat una coincidència temporal en les incidències, un canvi abrupte en la indexació de Google que podria explicar aquest problema.

Un altre aspecte destacable que l’estudi posa de manifest és la forta correlació (80 % de mitjana) entre el trànsit en català i castellà: per cada visita que perd la web en català, la versió en castellà en guanya gairebé una. En canvi, la correlació és molt més feble (25 %) entre el català i l’anglès. Aquestes dades confirmen la percepció que diversos administradors de llocs web ja tenien: no només disminueixen les visites en català, sinó que moltes de les visites que abans eren en aquesta llengua ara són visites al contingut en castellà.

   Els cercadors han deixat de respectar les preferències lingüístiques explícites dels usuaris.

Una conseqüència igualment important d’aquesta situació és que hem constatat, com es desprèn de l’estudi, que els cercadors han deixat de respectar les preferències lingüístiques explícites dels usuaris. El contingut en català dels llocs web multilingües ha perdut visibilitat als resultats de cerca, independentment de la configuració d’idioma del dispositiu, el navegador i el perfil de l’usuari. Això significa que, tal com hem comprovat, un dispositiu configurat per obtenir resultats de cerca en català, sempre que aquests siguin disponibles, ja no els rep com a primera opció com ho feia abans.

Per acabar d’enumerar les conclusions principals, també hem constatat que l’afectació es manté tant en llocs web amb dominis .com, .org, .cat com .es, la qual cosa indica que l’autoritat del domini no és un factor rellevant en aquest aspecte. Tampoc sembla haver-hi canvis en la quantitat ni en la qualitat del contingut en català que puguin explicar aquesta disminució en la seva visibilitat als resultats de cerca.

Aquest informe arriba en un moment crític, en què l’aparició dels assistents virtuals d’IA està canviant la forma en què els usuaris cerquen i interactuen amb el contingut digital, el qual majoritàriament procedeix de fonts en llengües més parlades: el model LLM que hi ha al darrere del popular ChatGPT està entrenat amb el contingut de la web oberta, que és un 55 % en anglès malgrat que els angloparlants no superen el 5 % de la població mundial. Per tant, és imprescindible que es restableixi una presència adequada del contingut en tots els idiomes disponibles abans que els assistents virtuals substitueixin completament la cerca web tradicional.

   La llengua catalana es troba immersa en un greu problema de visibilitat a la cerca web tradicional.

Com demostren les conclusions de l’informe, la llengua catalana es troba immersa en un greu problema de visibilitat a la cerca web tradicional, per la qual cosa és urgent que els proveïdors de cercadors d’internet prenguin mesures ràpides per restaurar la situació anterior.

En primer lloc, hem lliurat aquest informe al Govern de la Generalitat i, tot seguit, s’ha fet arribar a les empreses que gestionen els principals cercadors web perquè l’utilitzin en els seus esforços per restablir la visibilitat del contingut en català. També l’hem difós al públic en general, als mitjans de comunicació i als eurodiputats actius en qüestions relacionades amb les llengües minoritzades de la UE, perquè pugui ser utilitzat en les seves iniciatives legislatives. Informarem de qualsevol avenç o novetat en aquest aspecte. Al mateix temps, l’Aliança està treballant per establir un mecanisme de monitoratge continu de la visibilitat del contingut en català als cercadors, per tal de detectar possibles canvis, siguin positius o negatius.

Fundació puntCAT
Entitat membre de l’Aliança per la presència digital del català

Deixa un comentari