“Si entrenas un modelo de LLM con datos de tu empresa y te roban los tokens, se llevan todos tus datos. Es como si robaran el corazón de tu compañía así que cuidado”. Para quien desconozca lo que es un token, se trata de activos de inversión, fichas para votación, arte digital o monedas de utilidad para una plataforma, mientras que LLM son grandes modelos de lenguaje, redes neuronales capaces de leer, traducir y resumir textos, pudiendo así crear frases y predecir palabras pareciendo que escribe o habla un humano. De este peligro habló ayer en el II Fórum Europeo de Inteligencia Artificial uno de los expertos más destacados en ciberseguridad a nivel mundial, Chema Alonso, quien ofreció otra de las conferencias magistrales de la jornada, una disertación de media hora sobre los diez principales problemas que los especialistas en IA han detectado en los modelos de lenguaje LLM como respuesta a las preguntas del presidente de Encuentros Now, Manuel Bonilla.
Es el caso del descubrimiento e información sensible, con el uso de datos médicos o jurídicos para entrenar esta inteligencia. “He venido a hablaros de las cosas que no son tan buenas del GenAI (la inteligencia artificial generativa). La IA se ha metido en nuestras vidas y es fenomenal. Hay cosas fantásticas pero también algunos retos que debemos superar”, dijo el también CDO (Chief Digital Officer) de Telefónica.
Así, contó que en 2015 empezó una carrera brutal para desarrollar la IA de interfaces humanos para la tecnología, reconocimiento de imágenes, reconocimiento de textos… “Una carrera para los investigadores a la hora de poner la banderita en vencer la paridad humana que dice que cuando una inteligencia artificial tiene menos tasa de error que los seres humanos se ha vencido la paridad humana”.
El experto abundó en que en 2020 encontramos ya patentes cuyo propietario es una IA. «Hoy en día esto le empieza a generar a la gente un poco de repelús, como el lío en Hollywood por el doblaje, los guiones y los extras que se crean con modelos de IA». Así, describió que los extras de algunas películas son ya humanos sintéticos generados por inteligencia artificial; que para los doblajes también se utiliza la tecnología; y que las voces no son de los actores sino generadas por IA, que también crea ya guiones, “ese es el mundo en el que nos estamos metiendo”.
Alonso, conocido como “el hacker bueno” desde que apareció hace años en un popular programa de televisión, expuso los principales problemas de seguridad que han identificado quienes se dedican a la ciencia de datos en las aplicaciones que utilizan los modelos de lenguaje LLM. Así, se refirió al “promp injection”. “Le damos los datos al algoritmo y luego le decimos lo que no puede decir y esto lleva a que hackear un sistema sea tan fácil como charlar con él. Es decir, todos los datos que le hayas dado al sistema van a acabar saliendo porque no existe ningún sistema de seguridad interno que filtre esos datos”.
También habló del denominado “training data poisoning”. “Si tu entrenas a tu algoritmo con todo lo que hay en internet te puede salir nazi o con sesgo de género. Si estos modelos han sido entrenados con códigos para programar son muy útiles pero los códigos que te van a sacar estarán llenos de bugs (errores de software), es como tener un programador pero de los malos”.
“Otro problema es que te bases en modelos preentrenados de otros y todos los errores que tengan los vas a heredar, como los ‘prompts injections’ universales”.
El experto señaló asimismo que, por defecto, en los modelos de lenguaje LLM que han sido entrenados con datos personales como nóminas o informes, “es muy posible que esos datos acaben saliendo a la luz. Y si tomas como bueno lo que hacen algoritmos de IA como ChatGPT y le permites tomar decisiones vas a tener un problema bastante serio”.
Estos modelos de lenguaje digital “también conllevan problemas si tienen excesivos permisos o funcionalidades, porque pueden tener consecuencias imprevisibles”, afirmó. Como ejemplo, recordó que Google hizo una demostración de su LLM “y Bard tuvo alucinaciones, algo que suele ocurrir con estos modelos. Le hicieron preguntas sobre proyectos de la NASA, se equivocó, y las acciones de Google cayeron en 100 billones”. Bard es un bot conversacional de inteligencia artificial desarrollado por Google.
Alonso habló también sobre los sesgos de género y profesiones que tienen tanto Google Translate como Microsoft Bing. Él mismo ha promovido una campaña de recogida de firmas en la plataforma de internet Change.Org en la que lleva ya unas 35.000, para que se modifiquen estos sesgos.
En resumen, el experto en ciberseguridad en la red señala que este mundo de la inteligencia artificial es “fantástico porque permite resolver problemas en cosas que afectan a la vida de las personas pero hay que seguir trabajando y tomárselo muy en serio. Si lo empezamos a utilizar sin saber cómo funciona vamos a tener un serio problema”.
Enlace de origen : Chema Alonso: "Cuando a una empresa le roban los tokens, pierde sus datos"