Dónde mira la máquina

Sobre la divergencia medible entre la atención humana y la atención de los modelos

En el texto anterior de esta línea, Lo que importa y lo que es relevante, sostuve que la incomprensión estética —entre culturas humanas y entre humanos y máquinas— puede describirse como desalineación de regímenes de relevancia: jerarquías distintas de qué cuenta como señal significativa. Aquel texto trabajaba sobre todo en el plano conceptual. Este trabaja en el empírico, y lo hace para responder una pregunta concreta: cuando un humano y un sistema de inteligencia artificial se enfrentan a la misma imagen, ¿miran los mismos lugares?

La respuesta de la evidencia disponible es clara y matizada a la vez. No miran los mismos lugares; la divergencia es medible, repetida y sistemática; y se concentra precisamente donde la relevancia humana deja de ser formal y se vuelve social, semántica o vital. Pero esa divergencia no es prueba de que la máquina “vea peor”: es efecto del objetivo para el que fue entrenada. Cuando el objetivo cambia, la alineación con la mirada humana puede aumentar mucho, sin llegar nunca a ser identidad.

Antes de entrar, una precisión que el texto anterior dejó gruesa y que aquí es central. Hablar de “la atención de la máquina” agrupa, de forma engañosa, al menos cuatro cosas distintas: la fijación ocular humana medida con eye-tracking, el mapa de saliencia de un modelo entrenado específicamente para predecir esas fijaciones, los pesos internos de un módulo de atención de un modelo entrenado para otra tarea, y los mapas de explicación tipo Grad-CAM que intentan reconstruir qué pesó en una decisión. Son cuatro niveles que la conversación pública mezcla y que conviene separar, porque buena parte de la confusión sobre “si la IA ve como nosotros” nace de compararlos como si fueran lo mismo.

1. Cuatro cosas llamadas atención

Conviene fijar la distinción antes de usar los datos, porque sostiene todo lo demás.

El primer nivel es el comportamiento observado: dónde se posan los ojos de una persona ante una imagen, registrado con eye-tracking. Es un dato conductual, medible directamente. No es una hipótesis sobre nada; es lo que ocurre.

El segundo nivel es el modelo de saliencia: un sistema entrenado específicamente para predecir esas fijaciones humanas. Su objetivo declarado es imitar la mirada. La familia DeepGaze es el ejemplo de referencia. Aquí el modelo no hace otra tarea: su tarea es parecerse a nosotros mirando.

El tercer nivel son los pesos internos de atención de un modelo entrenado para una tarea distinta —clasificar, responder preguntas sobre imágenes, generar—. Esos pesos indican, de forma aproximada, qué partes del input pondera el modelo al operar. No fueron diseñados para parecerse a la mirada humana; son un subproducto de la arquitectura.

El cuarto nivel son los mapas de explicación, como Grad-CAM, que intentan reconstruir a posteriori qué regiones influyeron en una decisión del modelo. Son interpretaciones de la máquina hechas por herramientas externas, no la mirada de la máquina en sí.

La distinción importa porque la respuesta a “¿miran lo mismo humanos y máquinas?” cambia radicalmente según de cuál de los cuatro niveles hablemos. Confundirlos produce tanto el optimismo ingenuo —“la IA ya ve como nosotros”— como el catastrofismo fácil —“la máquina no ve nada”—. La verdad es más fina y está en los datos.

2. ¿Miran a los mismos lugares? El caso más limpio

El estudio que responde de frente a la pregunta es el de Das y colaboradores sobre respuesta visual a preguntas. Los autores construyeron un conjunto de datos de atención humana —pidieron a personas que señalaran qué regiones de una imagen eran relevantes para responder una pregunta sobre ella— y lo compararon con los mapas de atención de los modelos que resolvían la misma tarea.

El resultado es contundente. El mejor modelo de la época alcanzaba una correlación media de rango de 0,26 con los mapas humanos. El acuerdo entre humanos distintos era de 0,623. Y en la evaluación corregida del sesgo central —la tendencia a mirar el centro de cualquier imagen—, los modelos caían a correlaciones de entre 0,038 y 0,114. La conclusión de los autores fue explícita: los modelos de atención de esta tarea no parecen mirar las mismas regiones que los humanos.

Conviene leer bien esas cifras. No dicen que el modelo falle en su tarea —muchos respondían correctamente las preguntas—. Dicen que llegaban a la respuesta correcta mirando otra cosa. El acierto no implicaba coincidencia de mirada. Es la primera grieta empírica: se puede resolver el problema sin compartir el régimen de relevancia con quien lo plantea.

Un segundo estudio, de van Dyck y colaboradores, comparó eye-tracking humano y mapas Grad-CAM en reconocimiento de objetos sobre los mismos estímulos. Su valor doble es que mide la divergencia y, a la vez, advierte de una trampa metodológica: las visualizaciones humanas y maquínicas tienen resoluciones distintas, y compararlas sin corregir eso distorsiona el resultado. Incluso tras corregirlo, el acuerdo seguía siendo bajo: una arquitectura coincidía con los bloques de atención humana en el 17% de los casos, otra en el 12%. El estudio deja una lección que conviene retener: la pregunta correcta no es “¿se parecen?”, sino “¿qué arquitectura, qué tarea y qué métrica de comparación?”.

3. Cuando el objetivo es imitar la mirada

El matiz decisivo aparece cuando el modelo se entrena específicamente para predecir fijaciones humanas. Ahí la alineación sube mucho. DeepGaze II, construido sobre rasgos de una red de reconocimiento de objetos, llega a explicar alrededor del 87% de la información explicable en las fijaciones humanas, con métricas muy altas en los bancos de prueba de referencia.

Pero no alcanza la identidad. En comparaciones directas, el modelo queda por debajo del nivel de acuerdo entre humanos. Funciona especialmente bien prediciendo que miraremos caras y texto —porque ha aprendido que ahí miramos—, pero un modelo de bajo nivel, puramente físico, lo supera en torno al 10% de las imágenes. Es decir: incluso el sistema diseñado para parecerse a nuestra mirada deja un resto sin capturar, y ese resto no es ruido aleatorio, es estructura de la mirada humana que el modelo no reproduce.

Hay un hallazgo todavía más revelador, de Fel y colaboradores. Al comparar 84 redes profundas con datos humanos de qué rasgos son diagnósticos para reconocer objetos, encontraron una compensación sistemática: a medida que los modelos mejoran su precisión en la tarea, muchos se vuelven menos alineados con las estrategias visuales humanas. Más exactitud, menos parecido a nosotros. Esto es exactamente lo contrario de lo que el sentido común esperaría —“cuanto mejor la IA, más como nosotros”— y es central para la tesis: la máquina no se aleja de nuestra mirada por defecto técnico, sino, a veces, por exceso de optimización. Se vuelve más eficaz en su tarea separándose de cómo un humano establece relevancias.

4. Dónde se rompe: lo social, lo semántico, lo vital

La divergencia no se reparte por igual en la imagen. Se concentra en zonas específicas, y esas zonas son reveladoras.

La mirada humana no se distribuye solo por saliencia física —contraste, brillo, bordes—. Cerf y colaboradores mostraron que, en visión libre, las personas miran caras y texto muchas más veces que regiones comparables igualadas por tamaño y posición: del orden de dieciséis veces más las caras, once veces más el texto. Y que un modelo puramente físico necesita que se le añada información semántica sobre caras y texto para acercarse a predecir la mirada. Lo social y lo simbólico pesan en nosotros aunque no dominen el campo visual en términos físicos.

Rösler, End y Gamer lo confirmaron con escenas naturalistas presentadas brevemente: las primeras sacadas se orientan hacia los rasgos sociales más de lo esperable por azar, y el contenido social predice la dirección de la primera mirada mejor que la saliencia física. El gesto de mirar lo social es, en sus términos, reflejo: ocurre antes de cualquier decisión deliberada, y se dirige a zonas que no son las de mayor saliencia física. Los mirábamos por lo que significan, no por cómo destacan.

Del lado de la máquina, el régimen es distinto. Geirhos y colaboradores mostraron que las redes convolucionales estándar entrenadas para clasificar están fuertemente sesgadas hacia la textura, mientras los humanos privilegian la forma. Ante un conflicto entre forma y textura —la silueta de un gato con piel de elefante—, humano y máquina deciden cosas distintas, y por motivos distintos. Crucialmente, al reentrenar la misma arquitectura con un conjunto de datos diseñado para forzar atención a la forma, el modelo adoptaba una estrategia más parecida a la humana. La divergencia no era un destino de “la máquina”: era un efecto del entrenamiento.

El análisis interno de los modelos de saliencia afina aún más el cuadro. He y colaboradores encontraron que algunas categorías semánticas —cabezas, texto, símbolos, vehículos— ya están codificadas en redes preentrenadas, pero que el ajuste fino para predecir saliencia hace que el modelo favorezca unas sobre otras, por ejemplo la cabeza sobre el texto. Más aún: el modelo “aprende a dispararse ante caras” con relativa independencia de si esa cara es realmente la región más relevante en el contexto. Y aunque estos modelos dominan en escenas naturales, fracasan ante estímulos sintéticos de pop-out que los modelos clásicos resuelven con facilidad. Han aprendido muy bien ciertos sesgos del mundo natural y muy mal otras regularidades de la atención humana.

El cuadro que emerge no es “la máquina es ciega”. Es más incómodo y más interesante: la máquina aprende algunos de nuestros invariantes —reconoce caras, texto— pero los pondera de otro modo, y produce con ello una cartografía de relevancia que se parece a la nuestra en la superficie y diverge en la estructura.

5. El caso del arte: una laguna que es un dato

Cabría esperar que el arte fuera el terreno donde esta comparación se ha estudiado más, dado el peso del eye-tracking en la investigación estética. No es así, y conviene decirlo con precisión.

Hay buena evidencia sobre cómo mira un humano una obra. Quiroga y colaboradores registraron la mirada ante pinturas figurativas y abstractas y encontraron que, pese a la variabilidad individual, existen patrones comunes de fijación: en una obra, por ejemplo, la atención de todos los sujetos era atraída hacia la zona de mayor nitidez. Massaro y colaboradores mostraron que la mirada ante pintura resulta de la interacción entre procesos de abajo arriba y de arriba abajo, y que las correlaciones entre valoración estética y patrones de mirada aparecían precisamente en las zonas de las caras. Incluso ante el arte, lo social y lo afectivo conservan peso especial.

Hay también evidencia razonable de que parte de esa mirada puede modelizarse. Le Meur y colaboradores construyeron un conjunto de 150 pinturas de cinco movimientos, hallaron que el despliegue de la mirada ante pinturas se parece al de las escenas naturales, y mostraron que un modelo de saliencia ajustado específicamente al dominio del arte predice mejor que uno general. El arte no queda fuera de la modelización, pero la generalización desde imágenes naturales es limitada: exige reentrenamiento.

Lo que no encontré —y conviene afirmarlo como límite honesto— es una línea consolidada que compare de forma sistemática los mapas de eye-tracking de espectadores de arte con la atención interna de modelos generales de visión aplicados a esas mismas obras. En arte, la comparación computacional adopta sobre todo la forma de “modelo de saliencia que predice la mirada”, no la de “esto es lo que un clasificador consideró importante en el cuadro”. Esa asimetría no es un inconveniente para mi planteamiento: es, en sí misma, un dato. El territorio donde la divergencia entre relevancia humana y maquínica sería más significativa —el arte, donde el peso vital y el contexto histórico son máximos— es precisamente el menos estudiado en estos términos. Ahí hay un vacío de investigación que el programa que esbocé en el texto anterior —el archivo de importancias— está diseñado para empezar a llenar.

6. Por qué un mapa no es una lectura de lo que importó

Queda un nivel que conviene tratar con cuidado, porque es donde la divulgación tropieza más. Aunque tuviéramos el mapa de atención interno de un modelo, ¿nos diría qué le importó de verdad?

La respuesta de la investigación es que no, o no de forma fiable. Jain y Wallace, en un trabajo de título elocuente —Attention is not Explanation—, mostraron que los pesos de atención de un modelo correlacionan débilmente con otras medidas de importancia de los rasgos, y que es posible construir distribuciones de atención completamente distintas que producen la misma predicción. Si dos mapas opuestos dan el mismo resultado, el mapa no puede ser la explicación del resultado.

En visión, el problema se repite. Chefer y colaboradores sostienen que reducir un transformer a sus pesos de atención es miope: ignora otras operaciones que participan en la decisión, y algunos métodos basados solo en atención resaltan elementos irrelevantes o producen mapas que ni siquiera distinguen entre clases. Más recientemente, Wu y colaboradores mostraron que ciertas métricas usuales de fidelidad de las explicaciones llegan a no distinguir bien entre métodos sofisticados y una atribución puramente aleatoria.

La consecuencia para esta línea de trabajo es importante y conviene formularla sin exagerar: ni siquiera desde dentro tenemos hoy acceso plenamente fiable a “lo que importó” para el modelo. Tenemos aproximaciones, algunas útiles, otras engañosas. Esto refuerza, no debilita, la tesis del régimen de relevancia: no solo el régimen de la máquina difiere del humano; ese régimen es además opaco, y lo es incluso para quien dispone del modelo entero y sus pesos. La caja no se lee a sí misma con transparencia.

7. Lo que esto demuestra y lo que no

Conviene cerrar las puertas a tres malas lecturas.

No demuestra que la máquina vea peor. En muchas tareas, los modelos rinden igual o mejor que los humanos. Lo que la evidencia muestra no es inferioridad de la mirada maquínica, sino diferencia de criterio: llega a resultados a menudo correctos atendiendo a otras regularidades. Mirar distinto no es mirar mal.

No demuestra que la divergencia sea fija o esencial. Es lo contrario. Cuando se cambia el objetivo de entrenamiento —de clasificar a predecir fijaciones, de textura a forma—, la alineación con la mirada humana se mueve, a veces mucho. La divergencia es un efecto del objetivo, la arquitectura y los datos, no una propiedad metafísica de “la máquina”. Esto importa porque desactiva tanto el catastrofismo como el determinismo.

No demuestra, todavía, la parte autorreferencial de mi tesis. La evidencia sólida cubre la divergencia en lo social y lo semántico —caras, texto, forma frente a textura—. El salto desde ahí hasta “el peso vital, lo que toca al sí mismo” sigue siendo, por ahora, extensión interpretativa mía, no resultado empírico cerrado. Lo social está demostrado; lo autorreferencial es inferencia bien fundada pero abierta. Marcar esa diferencia es parte del rigor que esta línea exige, y es también una de las preguntas que el programa de investigación tendría que abordar de frente.

8. Conclusión

Tres conclusiones.

La primera, empírica: cuando humanos y máquinas atienden al mismo estímulo, la coincidencia es parcial, condicional y medible. Los estudios que comparan mapas de atención humana y maquínica sobre los mismos estímulos encuentran correlaciones bajas, muy por debajo del acuerdo entre humanos, salvo cuando el modelo se entrena específicamente para imitar la mirada, y aun entonces queda un resto sin capturar.

La segunda, analítica: la divergencia se concentra donde la relevancia humana deja de ser formal y se vuelve social, semántica o vital. Miramos caras, texto y contenido significativo aunque no sean lo más saliente físicamente; los modelos, según su objetivo, se apoyan en otras regularidades. Y la divergencia no es fija: depende del objetivo, la arquitectura y los datos, lo que confirma que hablamos de regímenes de relevancia configurables, no de una ceguera esencial.

La tercera, metodológica y de programa: ni siquiera tenemos acceso fiable, desde dentro, a lo que importó al modelo, lo que vuelve su régimen de relevancia doblemente distinto del nuestro —diverge y es opaco—. Y el territorio donde esta divergencia sería más significativa, el arte, es precisamente el menos estudiado en estos términos. Esa laguna no es un obstáculo para la línea de investigación que vengo trazando: es su justificación.

La máquina no mira menos. Mira distinto, y mira distinto por razones que podemos medir, nombrar y, en parte, modificar. Saber dónde mira —y dónde deja de coincidir con nosotros— es el primer paso empírico para entender qué tendría que cambiar en su arquitectura de relevancia para que su mirada se acercara a una comprensión, y no solo a un acierto. Esa es la distancia entre resolver un problema y compartir un mundo.

Sobre la conversación abierta

Este texto es el segundo de la línea sobre regímenes de relevancia que abrí con Lo que importa y lo que es relevante, dentro de mi trabajo en NeuroArt: Cognitive Surplus. Si aquel planteaba la tesis en el plano conceptual, este la somete a la evidencia empírica sobre atención comparada. Los siguientes pasos previstos abordan el efecto de auto-relevancia en el juicio estético y los límites de la interpretabilidad de los modelos.

Si alguien quiere intervenir desde la psicología de la percepción, la visión computacional, la neuroestética, la interpretabilidad de modelos o la práctica artística, este cuaderno sigue abierto.

Fuentes

Das, A., Agrawal, H., Zitnick, L., Parikh, D., & Batra, D. (2017). Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions? Computer Vision and Image Understanding, 163, 90–100. https://doi.org/10.1016/j.cviu.2017.10.001

van Dyck, L. E., Kwitt, R., Denzler, S. J., & Gruber, W. R. (2021). Comparing Object Recognition in Humans and Deep Convolutional Neural Networks—An Eye Tracking Study. Frontiers in Neuroscience, 15, 750639. https://doi.org/10.3389/fnins.2021.750639

Müller, R., Dürschmidt, M., Ullrich, J., Knoll, C., Weber, S., & Seitz, S. (2024). Do Humans and Convolutional Neural Networks Attend to Similar Areas during Scene Classification: Effects of Task and Image Type. Applied Sciences, 14(6), 2648. https://doi.org/10.3390/app14062648

Kümmerer, M., Wallis, T. S. A., & Bethge, M. (2016). DeepGaze II: Reading fixations from deep features trained on object recognition. arXiv:1610.01563. https://arxiv.org/abs/1610.01563

Fel, T., et al. (2022). Harmonizing the object recognition strategies of deep neural networks with humans. NeurIPS 2022. https://arxiv.org/abs/2211.04533

Cerf, M., Frady, E. P., & Koch, C. (2009). Faces and text attract gaze independent of the task: Experimental data and computer model. Journal of Vision, 9(12):10. https://doi.org/10.1167/9.12.10

Rösler, L., End, A., & Gamer, M. (2017). Orienting towards social features in naturalistic scenes is reflexive. PLoS ONE, 12(7), e0182037. https://doi.org/10.1371/journal.pone.0182037

Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2019). ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. ICLR 2019. https://arxiv.org/abs/1811.12231

He, S., et al. (2019). Understanding and Visualizing Deep Visual Saliency Models. CVPR 2019. https://arxiv.org/abs/1903.02501

Quiroga, R. Q., & Pedreira, C. (2011). How Do We See Art: An Eye-Tracker Study. Frontiers in Human Neuroscience, 5, 98. https://doi.org/10.3389/fnhum.2011.00098

Massaro, D., Savazzi, F., Di Dio, C., Freedberg, D., Gallese, V., Gilli, G., & Marchetti, A. (2012). When Art Moves the Eyes: A Behavioral and Eye-Tracking Study. PLoS ONE, 7(5), e37285. https://doi.org/10.1371/journal.pone.0037285

Le Meur, O., Le Pen, T., & Cozot, R. (2020). Can we accurately predict where we look at paintings? PLoS ONE, 15(10), e0239980. https://doi.org/10.1371/journal.pone.0239980

Jain, S., & Wallace, B. C. (2019). Attention is not Explanation. NAACL 2019. https://arxiv.org/abs/1902.10186

Chefer, H., Gur, S., & Wolf, L. (2021). Transformer Interpretability Beyond Attention Visualization. CVPR 2021. https://arxiv.org/abs/2012.09838

Wu, J., et al. (2024). On the Faithfulness of Vision Transformer Explanations (SaCo). CVPR 2024. https://arxiv.org/abs/2404.01415

Esteban Ruiz, J. A. Lo que importa y lo que es relevante. Cuaderno público en juanesteban.art, 2026.

Esteban Ruiz, J. A. Art as Structural Surplus: Toward a Relational Ontology Beyond Human Authorship (V2.3). PhilArchive y Zenodo, 2026.