Tribuna
Por
Inteligencia artificial y Protección de Datos: desafíos existenciales en la era digital
En lo que respecta a los modelos de IA generativa, surgen algunas preguntas importantes — incluso potencialmente existenciales — sobre su compatibilidad con el RGPD
El amplio alcance del Reglamento General de Protección de Datos (RGPD) y sus reglas flexibles y tecnológicamente neutrales lo sitúan en una posición ideal para regular nuevas tecnologías como la IA generativa, junto con otras normativas específicas, como la nueva ley europea de la IA. Sin embargo, no siempre resulta claro cómo se aplican exactamente estas reglas a las tecnologías emergentes. En lo que respecta a los modelos de IA generativa, surgen algunas preguntas importantes — incluso potencialmente existenciales — sobre su compatibilidad con el RGPD. A continuación, se presentan tres preguntas clave para los denominados “Modelos de Lenguaje de Gran Escala”, conocidos como LLM por sus siglas en inglés (large language model).
Uso de datos públicos para entrenamiento
Los LLM suelen requerir enormes cantidades de texto para aprender, y ese texto generalmente proviene de diversas fuentes abiertas, incluyendo la internet pública. Por ejemplo, la tercera generación de los LLM de la serie GPT creados por OpenAI, GPT-3, fue entrenada con 45 terabytes de texto comprimido proveniente de una variedad de fuentes, incluido el conjunto de datos CommonCrawl (una base de datos abierta que cuenta con más de 250 mil millones de páginas web), textos de libros y Wikipedia. Además, cuenta con una capacidad de 175 mil millones de parámetros para el aprendizaje automatizado. Estos datos inevitablemente incluyen información personal sobre individuos.
* Si no ves correctamente el módulo de suscripción, haz clic aquí
Pero, ¿cuál es la base legitimadora para el uso de estos masivos conjuntos de datos personales? Por ejemplo, sería imposible obtener el consentimiento de cada individuo cuya información se encuentra en el conjunto de datos de entrenamiento. En la gran mayoría de los casos, la única base legitimadora viable conforme a la normativa de protección de datos sería el llamado interés legítimo. Esto implica identificar el interés que se persigue, evaluar si el tratamiento de los datos es necesario para dicho interés y determinar dónde se sitúa el equilibrio entre ese interés y los derechos de los afectados. No obstante, esta prueba de sopesamiento es muy subjetiva y depende de muchos factores, incluidas las medidas de seguridad aplicadas para proteger los intereses de los individuos.
La posición de las autoridades de protección de datos de la Unión Europea respecto a este asunto aún no está completamente clara. Sin embargo, existen argumentos sólidos para considerar que, tras implementar una serie de salvaguardias apropiadas, esta base legitimadora debería ser aplicable. Esto es particularmente relevante teniendo en cuenta el reconocimiento de los modelos de IA de uso general en la Ley de IA de la UE.
Además, estos conjuntos de datos probablemente también incluirán datos personales de categoría especial, como, por ejemplo, el hecho de que Donald Trump es candidato del Partido Republicano a la Casa Blanca. Este tipo de datos personales solo pueden ser tratados en circunstancias limitadas, como cuando el individuo ha dado su consentimiento explícito o ha hecho esa información pública de forma manifiesta. El interés legítimo no es suficiente. Dada la magnitud de los conjuntos de datos de entrenamiento, es difícil ver cómo se cumplirían estas condiciones en relación con todos los datos personales de categoría especial contenidos en ellos, o cómo podría verificarse esto en la práctica.
Un verdadero enigma
Este es un verdadero enigma. Se han sugerido varias soluciones a este problema, como filtrar los datos personales de categoría especial de cualquier conjunto de datos de entrenamiento, pero es poco probable que esto sea viable.
En primer lugar, identificar con precisión todas las instancias de datos personales de categoría especial probablemente sería imposible dada la flexibilidad del lenguaje natural y el hecho de que este término incluye información de la cual se puedan inferir datos personales de categoría especial. Por ejemplo, consideremos las siguientes declaraciones encontradas aleatoriamente en internet: “Estoy investigando el cáncer de vesícula biliar”, “Voy a correr la Carrera Madrid en Marcha Contra el Cáncer” y “Pedro Sánchez ha sido un cáncer para España”. Solo la última podría considerarse posiblemente datos personales de categoría especial, porque expresa una opinión política de su autor.
"Esto refleja el enfoque adoptado para los motores de búsqueda, que también necesariamente tratan una gran cantidad de datos personales de categoría especial"
En segundo lugar, eliminar cualquier dato personal de categoría especial, como información relativa a la orientación sexual o la discapacidad, podría resultar en que el modelo de IA no sea representativo o sea discriminatorio. En otro artículo, ya hablamos de la discriminación y sesgos en la IA.
Una alternativa sería adoptar un enfoque más flexible en la interpretación de la ley, particularmente teniendo en cuenta que los proveedores de IA generativa típicamente no tienen interés en que sus modelos aprendan de datos personales de categoría especial sobre individuos específicos. Esto refleja el enfoque adoptado para los motores de búsqueda, que también necesariamente tratan una gran cantidad de datos personales de categoría especial. En un caso anterior al RGPD, el TJUE concluyó que no era ni deseable ni posible que los motores de búsqueda filtraran datos personales sensibles antes de facilitar información: esto efectivamente impediría a cualquiera ofrecer un servicio de motor de búsqueda.
Exactitud
Otra preocupación relevante es la precisión del output, es decir, la información emitida por un sistema de IA generativa. Los LLM simplemente predicen cuál es la secuencia de palabras más probable que debería seguir a la solicitud del usuario. Por lo tanto, existe el riesgo de que este output sea estadísticamente probable pero fácticamente incorrecto. ¿Son estas "alucinaciones" compatibles con el principio de exactitud del RGPD?
De hecho, se ha presentado una queja ante la autoridad de protección de datos de Austria en este sentido. La queja alega que, cuando se le pregunta por la fecha de nacimiento de un individuo en particular, ChatGPT inventa varias respuestas incorrectas.
La respuesta probablemente sea que el output de los LLM tiene que ser presentado en contexto. En otras palabras, los proveedores de estos sistemas deben advertir a los usuarios que no están generando hechos, sino que funcionan como meros "mecanismos de creación de output probabilística" con un "nivel limitado de fiabilidad".
Derechos individuales
El último desafío clave surge de los derechos otorgados a los individuos conforme al RGPD, como el derecho de acceso, el derecho de oposición y el derecho al olvido. El cumplimiento de estos derechos plantea varios desafíos para los LLM. Por ejemplo, ¿cómo se cumpliría con una solicitud de un individuo pidiendo acceso a todos sus datos personales contenidos en un conjunto de datos de entrenamiento?, ¿Qué sucede con un individuo que pide que sus datos personales sean eliminados de un LLM entrenado?
En la práctica, la mayoría de los proveedores de LLM abordan esto mediante el filtrado del output. Esto conlleva identificar situaciones en las que el LLM genera contenido problemático sobre un individuo específico y luego suprimir ese contenido. No obstante, ¿sería esto suficiente para cumplir con el derecho de supresión?
"La colaboración entre desarrolladores de tecnología, reguladores y expertos legales será esencial para encontrar un equilibrio"
Aún no está claro cómo estos derechos y principios se aplican a situaciones específicas. En términos de cumplimiento de la IA generativa con el RGPD, estos aspectos son "desconocidos conocidos". Esto significa que, aunque conocemos las normativas y los principios vigentes, su aplicación práctica en contextos específicos de uso de IA generativa sigue presentando áreas grises que requieren mayor clarificación y desarrollo continuo.
En resumen, aunque la IA generativa ofrece enormes potenciales, también requiere una navegación cuidadosa a través del complejo paisaje de la protección de datos. La colaboración entre desarrolladores de tecnología, reguladores y expertos legales será esencial para encontrar un equilibrio que promueva la innovación sin comprometer los derechos fundamentales.
* Ceyhun Necati Pehlivan, abogado y counsel en Linklaters.
El amplio alcance del Reglamento General de Protección de Datos (RGPD) y sus reglas flexibles y tecnológicamente neutrales lo sitúan en una posición ideal para regular nuevas tecnologías como la IA generativa, junto con otras normativas específicas, como la nueva ley europea de la IA. Sin embargo, no siempre resulta claro cómo se aplican exactamente estas reglas a las tecnologías emergentes. En lo que respecta a los modelos de IA generativa, surgen algunas preguntas importantes — incluso potencialmente existenciales — sobre su compatibilidad con el RGPD. A continuación, se presentan tres preguntas clave para los denominados “Modelos de Lenguaje de Gran Escala”, conocidos como LLM por sus siglas en inglés (large language model).