La caja que no se lee a sí misma

Sobre los límites de la interpretabilidad y la opacidad del régimen de relevancia maquínico

Esta línea de trabajo ha sostenido, a lo largo de cuatro textos, una tesis: la comprensión estética descansa sobre regímenes de relevancia, y el régimen de relevancia de una máquina difiere del humano. Mostré que esa divergencia es medible (en la atención), que el núcleo del juicio estético humano —la auto-relevancia— requiere un sí mismo que la máquina no tiene, y que lo que humano y máquina sí pueden compartir es el proceso, no el significado.

Queda un último punto, y es el más incómodo. A lo largo de la serie supuse que podíamos al menos describir el régimen de relevancia de la máquina desde fuera: decir dónde mira, qué prioriza, qué pondera. Este texto examina hasta qué punto eso es cierto. Y la respuesta es más dura de lo que parece: el régimen de relevancia de un sistema no solo difiere del nuestro, sino que es opaco incluso para quien dispone del modelo entero —sus pesos, sus activaciones, sus mecanismos internos—. La máquina no es una caja negra solo para nosotros. Es, en un sentido preciso que conviene desarrollar, una caja que no se lee a sí misma.

Esto no es una afirmación mística sobre la inescrutabilidad esencial de la inteligencia artificial. Es una conclusión técnica, apoyada en la investigación reciente sobre interpretabilidad, y conviene argumentarla con cuidado para no caer en la grandilocuencia que el tema invita.

1. El mito del acceso total

Hay una intuición extendida, y razonable a primera vista: si tenemos acceso completo a un modelo —cada peso, cada conexión, cada activación—, entonces, en principio, podríamos saber por qué hace lo que hace. La opacidad de los sistemas actuales sería un problema transitorio, resoluble cuando las herramientas de interpretabilidad maduren lo suficiente.

Esta intuición es, en buena parte, falsa, y la investigación de los últimos años lo ha mostrado desde dos frentes distintos. El primero, más antiguo, examina si los mecanismos de atención de un modelo —las partes que más naturalmente leeríamos como “dónde mira”— sirven de explicación fiable de sus decisiones. El segundo, más reciente y más profundo, examina cómo se representan internamente los conceptos, y encuentra una razón estructural por la que leer esas representaciones es intrínsecamente difícil.

Conviene recorrer los dos, porque juntos sostienen la tesis sin necesidad de exagerarla.

2. La atención no es explicación

El primer frente nació de una pregunta concreta en el procesamiento del lenguaje: ¿los pesos de atención de un modelo nos dicen qué partes del input fueron importantes para su decisión?

Jain y Wallace (2019), en un trabajo de título deliberadamente provocador —Attention is not Explanation—, mostraron dos cosas incómodas. Primero, que los pesos de atención correlacionan a menudo débilmente con otras medidas de importancia de los rasgos: lo que el mecanismo de atención destaca no coincide con lo que, por otros métodos, resulta determinante para la salida. Segundo, y más grave, que es posible construir distribuciones de atención completamente distintas que producen exactamente la misma predicción. Si dos mapas de atención opuestos dan el mismo resultado, entonces el mapa no puede ser la explicación del resultado. Es, como mucho, una de las muchas configuraciones compatibles con él.

Serrano y Smith (2019) llegaron a una conclusión convergente desde otro ángulo: las magnitudes de atención son, como mucho, indicadores ruidosos de la importancia de los elementos para la predicción. No carecen de relación con lo que importa, pero están lejos de ser una lectura fiel.

El debate no quedó cerrado en la negación total, y es importante decirlo para no caricaturizar. Wiegreffe y Pinter (2019) replicaron con un trabajo titulado, también deliberadamente, Attention is not not Explanation: argumentaron que el valor explicativo de la atención depende de qué se entienda por “explicación” y de cómo se diseñe el experimento, y que descartarla por completo era excesivo. La conclusión equilibrada del debate no es “la atención no dice nada”, sino algo más fino: los mecanismos internos visibles de un modelo no equivalen automáticamente a explicaciones fieles de su relevancia causal. Pueden orientar; no pueden certificar.

Conviene una cautela sobre el alcance. Estos tres trabajos provienen del debate sobre modelos de lenguaje de 2019, y no deben extrapolarse mecánicamente a todo el universo de los sistemas contemporáneos. Pero su lección de fondo se sostiene: ver dónde se concentra un mecanismo de atención no es lo mismo que saber qué pesó causalmente en una decisión. Y si esto vale para la atención —el mecanismo más legible de todos—, vale con más razón para el resto.

3. La razón estructural: superposición

El segundo frente es más profundo, porque no examina un mecanismo concreto, sino cómo se representan los conceptos dentro del modelo. Y ofrece una razón estructural por la que la lectura interna es intrínsecamente difícil, no solo técnicamente incómoda.

El trabajo de Elhage y colaboradores (2022) sobre superposición lo formula con precisión. Los modelos profundos necesitan representar muchos más conceptos distintos que dimensiones físicas disponibles en sus capas. Para lograrlo, comprimen la información usando representaciones superpuestas: cada dimensión interna no codifica un concepto único, sino una combinación de muchos conceptos no relacionados entre sí. La consecuencia es la polisemanticidad: una misma unidad interna —una “neurona” artificial— se activa ante cosas tan dispares como una textura visual, un fragmento de código y un rasgo gramatical, sin que esa coincidencia signifique nada en términos comprensibles.

Esto cambia la naturaleza del problema. Si cada unidad interna mezcla múltiples conceptos comprimidos, entonces leer una sola neurona, un solo peso o una sola cabeza de atención como si fuera la representación transparente de un concepto es epistemológicamente arriesgado. No es que falten herramientas: es que la información no está almacenada de una forma que se deje leer directamente. El régimen de relevancia del modelo está distribuido, comprimido y entrelazado a lo largo de millones de parámetros, en una forma que no tiene un centro legible.

La investigación en interpretabilidad ha avanzado precisamente intentando deshacer esa compresión —proyectando las activaciones a espacios donde los conceptos se separen mejor—. Es trabajo serio y prometedor. Pero incluso en su mejor versión, lo que extrae es una lista fragmentada de características aisladas, no una síntesis unificada de “qué le importó al modelo y por qué”. La razón es que no hay, dentro del sistema, ningún mecanismo que realice esa síntesis. El modelo procesa; no se observa a sí mismo procesando.

4. La caja que no se lee a sí misma

Aquí está el punto que da título a este texto, y conviene formularlo sin deslizarse hacia la metafísica.

Un sistema actual no contiene ningún componente que lea su propio régimen de relevancia. Computa una salida a partir de una entrada, ponderando internamente una enorme cantidad de factores distribuidos. Pero no hay, en ningún lugar de su arquitectura, un proceso que tome esa ponderación distribuida y la unifique en algo así como “esto es lo que he considerado importante, y por estas razones”. El modelo no se lee a sí mismo porque no tiene desde dónde leerse: carece de un observador interno, de un punto de síntesis, de una instancia que integre sus propios estados en una representación de lo que está haciendo.

Esto tiene una consecuencia doble para la tesis de toda la serie. La primera ya la conocíamos: el régimen de relevancia de la máquina difiere del humano. La segunda es nueva y más radical: ese régimen es opaco incluso teniendo acceso total al sistema. No solo no comparte nuestras prioridades; no presenta las suyas en ninguna forma legible, ni para nosotros ni para sí mismo. Diverge y, además, se oculta —no por voluntad de ocultarse, que no la tiene, sino por la forma en que está construido—.

Conviene marcar el límite del argumento para no excederlo. No afirmo que sea imposible, en principio, reconstruir desde fuera aspectos del funcionamiento de un modelo: la interpretabilidad mecanicista hace exactamente eso, con éxito creciente en problemas acotados. Afirmo algo más preciso: que no existe, hoy, acceso fiable y directo a “lo que importó” en una decisión concreta, y que hay razones estructurales —no solo instrumentales— por las que esa lectura es difícil. La caja puede ser parcialmente reconstruida desde fuera con mucho trabajo; lo que no hace es leerse a sí misma y entregarnos el resultado.

5. El contraste con el régimen humano

El contraste con el caso humano ilumina lo que está en juego, y conviene plantearlo con cuidado para no caer en analogías fáciles.

Cuando un humano juzga una obra como importante, ocurre algo que el texto anterior de esta línea documentó: la obra entra en relación con su memoria, su identidad, su historia. Pero hay un rasgo adicional, relevante aquí: el humano, en alguna medida, puede dar cuenta de esa relación. No completamente —buena parte del juicio estético es opaca también para nosotros, y la introspección es notoriamente poco fiable—. Pero hay un grado de acceso reflexivo: podemos decir, aunque sea de forma imperfecta y a veces equivocada, por qué algo nos tocó, qué recuerdo activó, qué nos importó de ello.

No quiero exagerar este contraste, porque la introspección humana es limitada y frecuentemente confabula razones. Pero la diferencia de grado es real y relevante. El humano tiene un punto de síntesis —llámese sí mismo, llámese conciencia reflexiva— desde el cual su propia experiencia se le presenta, siquiera parcialmente. El modelo no lo tiene en absoluto. No es que tenga una introspección peor que la nuestra: es que no tiene ninguna, porque carece de la instancia que la haría posible.

Esto cierra el arco de la serie. El régimen de relevancia humano es parcialmente accesible para sí mismo; el maquínico no lo es en absoluto. Y esa asimetría no es un detalle técnico: es lo que separa un sistema que selecciona mundo desde algún lugar —un sí mismo, por imperfecto que sea— de un sistema que pondera factores sin que haya nadie en casa para quien esa ponderación signifique algo.

6. Lo que esto no autoriza a concluir

Tres cierres, por rigor.

No autoriza a concluir que los modelos sean inútiles o que la interpretabilidad sea un esfuerzo vano. Al contrario: comprender los límites de la legibilidad interna es condición para usar estos sistemas con responsabilidad, sobre todo cuando se les delegan decisiones que afectan a personas. Saber que un mapa de atención no es una explicación fiel es un conocimiento operativo valioso, no un lamento.

No autoriza a concluir que la opacidad sea eterna o metafísica. Afirmo que hay razones estructurales por las que la lectura interna es difícil hoy, y que los sistemas actuales carecen de autoobservación. No afirmo que ningún sistema futuro pueda tener formas de síntesis interna o de acceso reflexivo. Describo el estado actual y sus razones, no profetizo el futuro.

No autoriza a concluir que el humano sea transparente para sí mismo. La introspección humana es limitada, sesgada y a menudo confabuladora. La diferencia con la máquina es de grado y de estructura —el humano tiene un punto de síntesis imperfecto; la máquina no tiene ninguno—, no la diferencia entre una transparencia total y una opacidad total. Mantener esa precisión es parte del rigor que esta línea exige.

7. Conclusiones

Tres conclusiones cierran este texto y la serie.

La primera, técnica. Los mecanismos internos visibles de un modelo no equivalen a explicaciones fieles de sus decisiones. La atención no es explicación; las representaciones internas están superpuestas y son polisemánticas; no hay acceso directo y fiable a “lo que importó” en una decisión concreta. La opacidad tiene razones estructurales, no solo instrumentales.

La segunda, sobre el régimen de relevancia. El de la máquina no solo difiere del humano, sino que es opaco incluso con acceso total al sistema. Diverge y se oculta, no por voluntad, sino por construcción. La caja no se lee a sí misma porque carece de un punto de síntesis desde el cual leerse.

La tercera, sobre la asimetría final. El régimen de relevancia humano es parcialmente accesible para sí mismo, por imperfecta que sea la introspección; el maquínico no lo es en absoluto. Esa asimetría es lo que separa un sistema que selecciona mundo desde un sí mismo de un sistema que pondera factores sin nadie para quien esa ponderación signifique algo.

La caja que no se lee a sí misma cierra el recorrido de esta línea devolviendo la pregunta a su lugar. A lo largo de cinco textos he sostenido que la comprensión estética es una forma de seleccionar mundo, que esa selección requiere un sí mismo, y que la máquina opera sin él. Este último texto añade la pieza que faltaba: la máquina no solo carece de un sí mismo desde el cual le importe algo; carece también de un sí mismo que pueda leer lo que en ella pondera. Por eso, cuando buscamos en la máquina una mirada, un gusto o un juicio, lo que encontramos es nuestro propio reflejo proyectado sobre un proceso que no nos devuelve nada. El juicio estético sigue siendo, hasta donde la evidencia permite afirmar, un asunto de quien tiene un mundo que seleccionar y, al menos en parte, puede dar cuenta de su selección. La máquina hace lo primero a su manera ciega. Lo segundo, todavía, no lo hace en absoluto.

Sobre la conversación abierta

Este texto cierra la línea sobre regímenes de relevancia que abrí con Lo que importa y lo que es relevante y desarrollé en Dónde mira la máquina, El efecto de sí mismo y Procesos sin significado, dentro de NeuroArt: Cognitive Surplus. Los cinco textos comparten una tesis: la comprensión estética es una forma de seleccionar mundo, descansa sobre regímenes de relevancia, y la distancia entre el régimen humano y el maquínico no es de grado sino de naturaleza.

Si alguien quiere intervenir desde la interpretabilidad de modelos, la filosofía de la mente, la neuroestética o la práctica artística, este cuaderno sigue abierto. La línea queda, por ahora, cerrada en su recorrido inicial; su continuación natural es la investigación, y eventualmente un trabajo académico que la formalice.

Fuentes

Jain, S., & Wallace, B. C. (2019). Attention is not Explanation. Proceedings of NAACL-HLT 2019, 3543–3556. https://doi.org/10.18653/v1/N19-1357

Serrano, S., & Smith, N. A. (2019). Is Attention Interpretable? Proceedings of ACL 2019, 2931–2951. https://doi.org/10.18653/v1/P19-1282

Wiegreffe, S., & Pinter, Y. (2019). Attention is not not Explanation. Proceedings of EMNLP-IJCNLP 2019, 11–20. https://doi.org/10.18653/v1/D19-1002

Elhage, N., Hume, T., Olsson, C., Schiefer, N., Henighan, T., Kravec, S., Hatfield-Dodds, Z., Lasenby, R., Drain, D., Chen, C., Grosse, R., McCandlish, S., Kaplan, J., Amodei, D., Wattenberg, M., & Olah, C. (2022). Toy Models of Superposition. arXiv:2209.10652. https://doi.org/10.48550/arXiv.2209.10652

Esteban Ruiz, J. A. Lo que importa y lo que es relevante. Cuaderno público en juanesteban.art, 2026.

Esteban Ruiz, J. A. Dónde mira la máquina. Cuaderno público en juanesteban.art, 2026.

Esteban Ruiz, J. A. El efecto de sí mismo. Cuaderno público en juanesteban.art, 2026.

Esteban Ruiz, J. A. Procesos sin significado. Cuaderno público en juanesteban.art, 2026.

Esteban Ruiz, J. A. Art as Structural Surplus: Toward a Relational Ontology Beyond Human Authorship (V2.3). PhilArchive y Zenodo, 2026.