Recientemente, Sam Altman, CEO de OpenAI, admitió que, a pesar de los logros y financiamiento obtenidos, su empresa aún no comprende completamente cómo funcionan sus grandes modelos de lenguaje, como GPT-4. Durante la Cumbre Global de IA en Ginebra, Altman subrayó la importancia de la interpretabilidad para la seguridad y eficacia de la IA, reconociendo que este desafío aún no ha sido resuelto. Aunque aseguró que las IA son generalmente seguras, su respuesta ha generado dudas, especialmente considerando la dificultad de rastrear cómo estos modelos toman decisiones.
Destacada fue la mención que Altman hizo sobre el avance en este campo, que tiene la empresa Anthropic, quienes el pasado 21 de mayo de 2024 anunciaron un importante avance en la comprensión de los mecanismos internos de los modelos de inteligencia artificial, cuyos detalles podrás encontrar en su artículo titulado: “Mapping the Mind of a Large Language Model”, en el que revela cómo se representan millones de conceptos dentro de Claude Sonnet, uno de sus principales modelos de lenguaje. Cuyo logro ofrece la primera visión detallada del funcionamiento interno de un modelo de lenguaje moderno y de alta calidad en producción, poniendo de manifiesto que la interpretabilidad puede contribuir significativamente a mejorar la seguridad de los modelos de IA en el futuro.
¿Pero qué significa la explicabilidad e interpretabilidad de la IA y por qué la relevancia del tema? ¿No es suficiente con que la IA resuelva tareas de humanos de manera eficiente?
Los desafíos de una IA opaca al usuario
La inteligencia artificial (IA) ha emergido como una de las tecnologías más transformadoras del siglo XXI. Desde la medicina hasta las finanzas, la IA se ha integrado en múltiples sectores, ofreciendo soluciones innovadoras y mejorando la eficiencia en diversas tareas. Sin embargo, a medida que esta tecnología avanza, también crece la preocupación sobre cómo funciona internamente y cómo podemos asegurarnos de que sus decisiones sean confiables y seguras.
La mayoría de los modelos de IA actuales, especialmente aquellos basados en aprendizaje profundo (deep learning), son conocidos por su complejidad. Aunque estos modelos son capaces de realizar tareas con una precisión impresionante, lo hacen de una manera que a menudo es opaca para los humanos. Este fenómeno, conocido como la "caja negra" de la IA, ha generado un debate considerable sobre la necesidad de hacer que estos modelos sean más interpretables y explicables.
Entonces, la interpretabilidad y la explicabilidad se han convertido en temas clave en la investigación y desarrollo de IA, ya que sin una comprensión clara de cómo estos modelos llegan a sus conclusiones, es difícil confiar plenamente en sus decisiones.
¿Debemos confiar en la "Caja Negra" de la IA?
Uno de los mayores desafíos en el desarrollo de modelos de IA es su naturaleza opaca, se les da una entrada, generan una salida, pero el proceso interno que llevó a esa salida es difícil de discernir. Esta opacidad es particularmente problemática en contextos donde la precisión y la confianza en los resultados son necesarios.
Por ejemplo, en el ámbito médico, un modelo de IA puede ser utilizado para diagnosticar enfermedades o recomendar tratamientos. Sin embargo, si los médicos no pueden entender cómo el modelo llegó a esa conclusión, puede resultar difícil confiar en su diagnóstico, especialmente en casos donde las decisiones afectan la vida de los pacientes. Esta falta de transparencia puede llevar a errores, diagnósticos incorrectos o incluso a la toma de decisiones peligrosas, planteando problemas de responsabilidad, porque si un modelo de IA comete un error, ¿quién es el responsable? ¿Es el desarrollador del modelo, el usuario final, o el propio modelo? Sin una comprensión clara de cómo funcionan estos modelos, atribuir la responsabilidad es complejo. Esto es especialmente preocupante en contextos legales o regulatorios, donde la rendición de cuentas es fundamental.
La confianza es un componente esencial en cualquier tecnología, y en el caso de la IA, la falta de interpretabilidad mina esa confianza. Los usuarios finales, como los médicos, los jueces o los gerentes de empresas, necesitan poder confiar en que las decisiones tomadas por la IA son correctas y justas.
Avances en la interpretabilidad: El caso de Claude Sonnet
En palabras simples, la interpretabilidad de la IA, es entender cómo funciona y saber qué conexiones se activan ante diferentes entradas. En una red neuronal convolucional que reconoce imágenes con números, no son las mismas neuronas en capas profundas las que se activan con una imagen de un uno (1) que con un ocho (8). Es similar a lo que pasa con el cerebro humano, al platicar; pensamos y gestionamos el conocimiento, analizamos y generamos una respuesta para ser expresada en ideas lógicas y congruentes al tema. Pero sigue siendo una incógnita la manera en que las neuronas se conectan para realizar estas tareas y el orden en que lo hacen.
En mayo de 2024, la empresa de investigación en IA, Anthropic, anunció un avance significativo en la comprensión de cómo funcionan internamente los grandes modelos de lenguaje. Claude Sonnet, uno de los modelos de lenguaje más avanzados de Anthropic, se sometió a un análisis detallado que reveló cómo se representan millones de conceptos dentro del modelo, lo que marcó un hito en el campo de la interpretabilidad de la IA.
El descubrimiento fue posible gracias a una técnica llamada "aprendizaje de diccionario", que permite identificar patrones de activación neuronal en los modelos de IA y asociarlos con conceptos interpretables por los humanos. En esencia, esta técnica traduce el complejo proceso interno del modelo en un conjunto de características más manejables y comprensibles; además, permite manipularlo de maneras controladas. Por ejemplo, en los experimentos con Claude Sonnet, los investigadores pudieron amplificar o suprimir ciertas características para observar cómo cambiaban las respuestas del modelo. Esto es perentorio para que los desarrolladores identifiquen y corrijan comportamientos no deseados antes de que el modelo se utilice en aplicaciones críticas.
Este avance abre la puerta a una mejor comprensión de cómo los modelos de IA representan y procesan la información, al identificar características específicas que corresponden a conceptos como ciudades, personas o elementos científicos, los investigadores pueden empezar a mapear cómo el modelo organiza y utiliza el conocimiento para garantizar que los modelos de IA actúen de manera segura y confiable antes de que los modelos se implementen en aplicaciones del mundo real.
Este caso es un claro ejemplo de cómo la interpretabilidad puede transformar nuestra relación con la IA, haciendo visible lo que antes era invisible. Los investigadores pueden comenzar a controlar y guiar el comportamiento de los modelos de IA de manera más precisa, reduciendo el riesgo de resultados inesperados o dañinos.
Técnicas de interpretabilidad de la IA
El aprendizaje de diccionario es solo una de las muchas técnicas que se están desarrollando para mejorar la interpretabilidad de los modelos de IA, que, en términos simples, cada característica en un modelo de IA se forma combinando neuronas, y cada estado interno del modelo se forma combinando estas características. Esto es similar a cómo las palabras en un idioma se forman combinando letras, y las oraciones se forman combinando palabras. Al identificar y estudiar estas características, los investigadores pueden obtener una visión más clara de cómo el modelo organiza y utiliza el conocimiento.
Otra técnica importante en el campo de la interpretabilidad es el uso de "modelos sustitutos". Estos son modelos más simples que se entrenan para imitar el comportamiento de un modelo más complejo. Aunque el modelo sustituto no es tan preciso como el original, es mucho más fácil de entender y explicar, para que los desarrolladores y usuarios finales obtengan una idea general de cómo funciona el modelo complejo, sin tener que lidiar con toda su complejidad interna.
Interpretabilidad en entornos críticos
La interpretabilidad de la IA es particularmente importante en contextos donde las decisiones tomadas por un modelo pueden tener un impacto significativo en la vida de las personas. Esto es evidente en el sector de la salud, donde los modelos de IA se utilizan cada vez más para diagnosticar enfermedades, recomendar tratamientos y predecir resultados clínicos.
En estos casos, la falta de explicabilidad puede tener consecuencias graves. Si un médico no puede entender por qué un modelo de IA recomienda un tratamiento específico, puede ser reacio a seguir esa recomendación, lo que podría llevar a un tratamiento inadecuado o ineficaz. Por otro lado, si el médico sigue la recomendación sin entenderla y el tratamiento resulta ser incorrecto, el paciente podría sufrir consecuencias negativas.
Las recientes regulaciones introducidas en la Unión Europea subrayan la importancia de la explicabilidad en la IA, especialmente en aplicaciones médicas. Estas regulaciones exigen que los algoritmos de IA que afectan significativamente los resultados personales proporcionen explicaciones claras y comprensibles. Esto no solo es necesario e importante para proteger a los pacientes, sino que también es vital para garantizar que los médicos y otros profesionales de la salud puedan confiar en las recomendaciones de la IA.
Otros sectores como la banca y las finanzas requieren de esta transparencia en los modelos de IA, donde se utilizan para evaluar riesgos, detectar fraudes y tomar decisiones de inversión. Como ya dijimos, la falta de comprensión del proceso subyacente puede generar desconfianza, decisiones erróneas y problemas legales. Por ejemplo; un modelo de IA que evalúa el riesgo crediticio utiliza diversos datos, como el historial y factores demográficos, si el modelo recomienda denegar un préstamo, es fundamental que el solicitante entienda la razón para evitar que la decisión parezca arbitraria o injusta, lo que podría generar desconfianza y problemas legales. Esto en definitiva podría estar limitando la adopción y con ello, el impacto positivo de la IA en estos sectores.
La ética detrás de la interpretabilidad y explicabilidad de la IA
La interpretabilidad y la explicabilidad de la IA no son solo desafíos técnicos, sino también éticos. A medida que la IA se expande, es importante garantizar su uso responsable. La justicia es un aspecto clave, ya que los modelos pueden perpetuar sesgos si no se diseñan cuidadosamente. La transparencia también es vital; los usuarios deben entender cómo se toman las decisiones para evitar desconfianza y posibles daños a grupos históricamente vulnerables.
La rendición de cuentas es otra preocupación; es fundamental rastrear y corregir errores en los modelos de IA. El futuro de la interpretabilidad depende de la investigación y del desarrollo de herramientas que faciliten la comprensión de los modelos, diseñando IA más interpretables desde el principio y estableciendo normas claras para garantizar su ética y seguridad.
Establecer estándares y regulaciones para la interpretabilidad ayudará a garantizar que los modelos de IA sean confiables y transparentes, fomentando la confianza pública en su uso.
Conclusión
La interpretabilidad de la inteligencia artificial es fundamental para garantizar que esta tecnología se utilice de manera segura, ética y efectiva. A medida que la IA se integra cada vez más en nuestras vidas, la necesidad de entender cómo funcionan estos modelos y cómo toman decisiones se vuelve cada vez más necesario, e incluso, urgente.
Los avances recientes, como los logrados por Anthropic, son pasos importantes en la dirección correcta. Sin embargo, todavía queda mucho por hacer. Es necesario seguir investigando y desarrollando nuevas técnicas que hagan que los modelos de IA sean más comprensibles y controlables. Además, es fundamental que las organizaciones adopten estándares y prácticas que garanticen la transparencia y la responsabilidad en el uso de la IA.
El futuro de la IA dependerá de nuestra capacidad para hacer que estos modelos sean no solo poderosos, sino también transparentes y justos. Al invertir en la interpretabilidad y la explicabilidad, podemos asegurarnos de que la IA no solo cumpla con sus promesas, sino que también lo haga de manera que beneficie a todos.
Referencias:
- https://www.anthropic.com/news/mapping-mind-language-model
- Došilović, F. K., Brčić, M., & Hlupić, N. (2018, May). Explainable artificial intelligence: A survey. In 2018 41st International convention on information and communication technology, electronics and microelectronics (MIPRO) (pp. 0210-0215). IEEE.
- Hassija, V., Chamola, V., Mahapatra, A., Singal, A., Goel, D., Huang, K., ... & Hussain, A. (2024). Interpreting black-box models: a review on explainable artificial intelligence. Cognitive Computation, 16(1), 45-74.
- Erasmus, A., Brunet, T. D., & Fisher, E. (2021). What is interpretability?. Philosophy & Technology, 34(4), 833-862.
- Ghosh, A., & Kandasamy, D. (2020). Interpretable artificial intelligence: why and when. American Journal of Roentgenology, 214(5), 1137-1138.
- Carvalho, D. V., Pereira, E. M., & Cardoso, J. S. (2019). Machine learning interpretability: A survey on methods and metrics. Electronics, 8(8), 832.
- https://www.datacamp.com/es/tutorial/explainable-ai-understanding-and-trusting-machine-learning-models
- https://www.ibm.com/mx-es/topics/explainable-ai
- https://www.infobae.com/tecno/2024/06/04/sam-altman-se-confiesa-y-dice-que-en-openai-no-entienden-como-funciona-completamente-su-ia/
- https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
- https://www.youtube.com/watch?v=VjZ51nIcy1I&t=151s
Por Carlos Campa Arvizu.
Comentarios
Publicar un comentario