domingo, 31 de mayo de 2026

Inteligencia natural


Cuando se habla de “la IA” como si fuera una sustancia histórica única, se comete ya el primer error. No existe “la IA” como destino inevitable de la técnica, del mismo modo que no existió “la industria” como una sola forma necesaria de organizar la producción. Lo que hoy se impone bajo el nombre genérico de inteligencia artificial es, más precisamente, un régimen técnico e histórico determinado: modelos generativos de gran escala, entrenados sobre corpus inmensos, optimizados por métodos estadísticos, ejecutados sobre infraestructuras energéticamente costosas, y desplegados por empresas que más que hacer productos construyen entornos de dependencia. La actual IA generativa no es cualquier red neural, y tampoco conforma un cerebro. No es cualquier automatización, y tampoco funciona como un gran algoritmo. No es cualquier experimento de ciencia cognitiva computacional, y tampoco es ésa la intención. Es una forma particular de articular el cosmos artificial del hardware, software, capitales, lenguajes y, quién diría, promesas civilizatorias. Veamos.

Para empezar, la pregunta que hay que hacerse no es si esta IA “sirve”. Sería absurdo negar que sirve a algo. La pregunta es ¿a qué sirve? Para empezar hay que recordar que sirve para una sociedad que será modificada por ésta en sus fines porque dependerá de ella y luego la requerirá para subsistir, cosa que no es una elección previa de nadie, y lo será menos luego de que esa codependencia se establezca completamente. Sin duda, la IA sirve para traducir, resumir, programar, asistir, generar imágenes, clasificar documentos, simular interlocutores, acelerar procesos administrativos, abrir zonas genuinamente fértiles de investigación, etc. Sin duda responde bien a la pregunta utilitaria en este sentido estrecho, pero la cuestión es otra, ya que el régimen que hoy se expande como inteligencia artificial puede confundirse sin más con un camino hacia la inteligencia fuerte. ¿Se dirige hacia ahí? ¿O hacia un zombie filosófico escalado? Estamos ante un artefacto (recuérdese esta palabra) extraordinariamente útil pero estructuralmente pobre, que por su utilidad inmediata amenaza con colonizar el espacio de las alternativas. Y el problema es que está triunfando demasiado pronto, antes de que hayamos aprendido a distinguir competencia superficial de comprensión, correlación de causalidad, generación de mundo, inducción de deducción, memoria emulada de memoria viva, y agencia simulada de agencia real.

Dicho de otra forma: el problema no es que los modelos actuales no hagan nada. Hacen muchísimo, y precisamente por eso pueden instalarse como si aquello que hacen fuera equivalente a pensar. La historia de la técnica está llena de herramientas que primero resolvieron problemas parciales y luego redefinieron el horizonte de lo posible, y que al hacerlo volvieron invisible todo lo que no encajaba en su propia lógica. Acá está la cuestión que interesa: acabar con la idea de IA como noción abstracta, y que la gente tenga una somera idea de lo que sus propios inventores, creadores y desarrolladores están viendo, o sea: la metástasis de esta IA en particular. 

Voy a ir por niveles del problema, yendo de los más bien prácticos y de aplicación, hasta los más teóricos y de naturaleza.

Fuentes sobre la distinción organismo-artefacto en relación con la IA neural:

El primer nivel de la crítica es, si se quiere, material, en sentido técnico e industrial, al menos en principio. Conviene empezar ahí porque de otro modo uno se deja hipnotizar por la interfaz: prompts a una ventanita donde una máquina responde como si fuera alguien. La “desmaterialización” conversacional es engañosa: data centers, electricidad, agua, chips, minerales, cadenas de suministro, capital financiero, concentración de talento y contratos de nube, todo eso es el sustrato tanto físico como social. Se calcula que sólo en 2024 los data centers consumieron cerca del 1,5% de la electricidad mundial (más o menos 415 TWh). Una tecnología que para sostener esta promesa necesita expandir de manera acelerada su infraestructura energética no puede evaluarse como si fuera una mera herramienta de software. El AI Index de Stanford muestra que en 2024 alrededor del 90,2% de los modelos notables provinieron de la industria. La OCDE analizó la infraestructura de IA y descubrió barreras de salida: ecosistemas de software y hardware, como CUDA, que hacen que migrar a alternativas no dependa de cambiar un componente sino de un ecosistema completo. 

Ya estamos grandes para pensar el problema con un optimismo ingenuo de mercado, porque si una trayectoria tecnológica exige inversiones crecientes, que implica estándares de facto, que requiere compatibilidad con herramientas ya existentes, y un despliegue de nueva infraestructura física costosa, entonces puede estabilizarse independientemente de si la trayectoria de desarrollo científico-técnico sea la más adecuada para sí misma desde su punto de inicio. El mercado no puede corregir estos componentes a semejante nivel, ya que los cristaliza. He hablado de esto en ya demasiados posteos de mi blog, pero vale la pena repetirlo: no sólo se trata de que la demanda está atomizada y que genera una oferta compulsiva para las partes, sino que la demanda no es un ente abstracto con una subjetividad humana que sea independiente de otra oferta con sus posibilidades determinadas objetivamente por necesidades tecnológicas, sino que es ella misma cocreada con la oferta, ambas en conjunto en un gran proceso social-tecnológico, por ende inercial. La subjetividad individual puede tener libre albedrío, pero las agregaciones de voluntades de agentes decidiendo cómo surfear las olas sin coordinación mutua, no dan forma a la flota de barcos según esta acción y no según su voluntad (Ferguson dixit), con lo cual no pueden determinar su dirección, y pueden terminar generándola aunque se opongan a la misma: los capitanes de estas empresas ya no eligen los puertos, sino el viaje mismo al que se subordinan con sus acciones. Ergo, si ambos polos (oferta y demanda) de un mismo proceso cuya lógica y forma (capitalista) opera sobre una misma materia (el mercado general), no se articulan entre sí conscientemente, aunque sea a nivel macro, pueden tomar rumbos fatales incluso respecto a sí mismas (esto Hayek lo tuvo que admitir respecto al derecho en el common law, y también en economía: no le tenía miedo a la palabra planificación en este sentido). El sendero rentable de corto plazo puede bloquear el sendero más fértil de largo plazo, y cuando ese sendero se materializa, se vuelve una infraestructura que cambia el marco de lo útil y eficiente. A dicha altura, cualquier corrección ya no dependerá de escribir un paper mejor, sino de mover capitales, suministro de energía, fábricas, estándares, profesionales, contratos, expectativas... todo. 

El problema de la IA actual no es tanto que pueda imitar mal el razonamiento, que lo hace (en realidad, incluso cuando razona bien, porque le es indistinto, pero dejemos esto para después), sino que puede construir un mundo donde los intentos de razonar de verdad ya no encuentren condiciones materiales para desarrollarse. Acemoglu lo plantea parcialmente cuando distingue entre una IA orientada a complementar capacidades humanas y una trayectoria actual volcada a la automatización y la concentración. Mi preocupación es similar pero le agregaría un nivel: que esa trayectoria además de ser socioculturalmente regresiva, sea cognitivamente regresiva, ya que se están premiando a sistemas que mejor escalan en el ecosistema existente, en vez de a los sistemas que más se acercan a una inteligencia real, que como desarrollaré un poco más abajo, debe estar basada en “el mundo”, la causalidad y la comprensión teorética, o sea: mediante una verdadera abstracción de la realidad.

Fuentes sobre las dependencias del camino sociotecnológicas:

El segundo nivel es la arquitectura física del cómputo. La metáfora de la “red neuronal” suele ocultar que una red artificial contemporánea, aun cuando use “pesos” y “activaciones”, corre sobre máquinas con hardware (CPUs, GPUs) y software (emuladores de redes neurales haciendo procesos matemáticos en bruto) que utilizan de soporte material a, precisamente, el sistema con una lógica casi diametralmente opuesta a la neural (entrenable), o sea: el modelo lineal de cómputo lógico-algorítmico (programable), que sería llamado de “von Neumann”, en el que necesariamente está separada, por un lado, la memoria como datos discretos, y, por el otro, el procesamiento lógico-matemático que los articula y ordena. En una arquitectura von Neumann, los datos se almacenan en un lugar y se procesan en otro. El resultado es que una parte enorme del costo temporal y energético no está en la operación matemática en sí, sino en mover datos. IBM se puso al hombro el problema, y lo resumió lacónicamente con una simple aserción: el costo de tiempo y energía asociado al movimiento de datos es el obstáculo más importante del cómputo utilizado en la IA. Punto. Hay que evitar confundir una abstracción matemática con su encarnación física. Que una red artificial tenga “pesos” no la vuelve materialmente análoga al cerebro, y en el cerebro, la memoria está encarnada en la estructura misma que la procesa, o sea: cada sinapsis no es una celda de memoria externa que un procesador consulta sino que es su mecanismo base de transmisión y modificación. En una red biológica, la historia del sistema está escrita en la forma misma del sistema. En la IA contemporánea, en cambio, la red es una emulación estadística, y encima lo hace sobre una arquitectura que transporta matrices. Podrá ser una emulación asombrosa, pero sigue siendo una emulación, que opera sobre un sustrato físicamente torpe, que se da de patadas con aquello que, encima, simplemente pretende imitar.

Por eso las líneas de investigación, como ser la de compute-in-memory, in-memory computing, memristores, chips neuromórficos, SNNs, arquitecturas event-driven, etc., no son exotismos marginales a la labor científica actual en IA, sino que, muy por el contrario, son respuestas al hecho de que el régimen actual separa aquello que en la biología va unido, a saber: memoria y cómputo, estructura y proceso, estado y operación. Obviamente, un chip neuromórfico no resuelve por sí solo el problema de la inteligencia, en tanto no alcanza con hacer spikes para obtener causalidad, ni alcanza con integrar memoria para obtener deducción, pero es condición necesaria, y ya de por sí es útil con sólo esto. Sin un sustrato que haga viable el aprendizaje continuo, local, temporal (y, dicho sea de paso, mucho mejor energéticamente), las formas más interesantes de inteligencia artificial quedan materialmente penalizadas, y hace que sea más barato seguir fabricando modelos pasivos enormes, que construir agentes que aprendan viviendo. No se trata aquí de “digital vs. analógico” (esto también, pero es otro punto) o “sintético vs. biológico” (esto ya tiene más ribetes metafísicos respecto a la demarcación de qué es orgánico), sino de la oposición entre una memoria externa servida a un procesador vs. una memoria incorporada en el proceso mismo. Una IA más natural, orgánica aunque sea sintética, tendría que acercarse a esta segunda forma, y repito: no es necesario para esto que sea de carne, ni que tenga neuronas biológicas, pero sí estar organizada como un sistema unificado donde recordar, computar, ordenar, modificar y actuar, no sean operaciones separadas.

Fuentes sobre las redes neuromórficas y las soluciones a la emulación:

El tercer nivel es la diferencia entre el modelo de la red basada en el perceptrón artificial y el basado en la neurona biológica. Un perceptrón, en su forma elemental, es una suma ponderada seguida de una función de activación. Entran valores, se multiplican por pesos, se suman, y se produce una salida. Es una abstracción ingeniosa, pero empobrecedora si se la toma como imagen adecuada de una neurona. La neurona biológica se basa en el tiempo, tiene una historia, opera con membranas, refractariedad, dendritas, oscilaciones, spikes, umbrales dinámicos, neuromodulación, plasticidad local y estados internos. No hace “cálculos” matemáticos, y además vive en una dinámica temporal.

Charles Simon, en su serie divulgativa sobre por qué el machine learning no es como el cerebro, lo explica con una imagen simple pero útil. Muchos modelos artificiales tratan el valor de una neurona como si fuera una tasa o magnitud agregada; una neurona biológica usa timing, fase y relaciones temporales entre spikes. El perceptrón ignora el timing relativo o la fase, y se queda con una magnitud agregada. Nada de esto significa que la neurociencia sea reducible al argumento de Simon ya que la biología integra a las señales como información, pero la cuestión es que una red de perceptrones estáticos no tiene nada que ver con el modo en que el cerebro hace del tiempo una dimensión interna de la información. Buzsáki lleva esto a un modelo todavía más amplio, según el cual el cerebro no es un dispositivo pasivo que recibe inputs, sino un sistema que produce actividad desde adentro hacia afuera y usa la acción para dar significado a la percepción. Freeman, con su énfasis en dinámica no lineal, atractores y oscilaciones, había insistido también en que el significado emerge en estados globales de un sistema vivo, y que no reside en agregados de símbolos aislados ni en rasgos estadísticos. Una red sintética verdaderamente más orgánica no debería limitarse a imitar la apariencia general de una red.

En este punto aparece el ejemplo del niño que aprende una figura o el número “1” (cualquier ejemplo sirve). La comparación con MNIST es ilustrativa: una red clásica puede requerir miles o decenas de miles de imágenes etiquetadas para clasificar dígitos manuscritos con alta precisión. Un niño, en cambio, no aprende el “1” como una nube estadística de píxeles en base a una inducción de fuerza bruta de impresiones (Hume creía que de esta última forma operaba la abstracción, pero su teoría empirista nunca representó la realidad de la cognición humana). Lo ve, lo traza, sigue el trayecto de la línea, lo vectorializa, lo reconoce deformado, lo diferencia de otros signos, luego lo ubica en una serie, lo usa para contar, lo relaciona con “uno” como cantidad, con “primero” como orden, con marcas en objetos, con dedos, con prácticas, etc. etc. Las mentes biológicas, los animales, aprendemos una forma visual investigándola, buscando su esencia abstracta y luego intentando que encaje en ella; no aprende una aproximación estadística de lo que dijeron que era lo mismo asociando a la fuerza millones de imágenes para lograr guardar una suma de relaciones promedio de valores enlazadas con un valor de salida único por un pre-entrenamiento. O sea: ante la imposibilidad de abstraer directamente la esencia de una forma dada en la realidad, nos inspiramos en la cosa y su relación con la idea tras la misma (abducción), véase: hacemos teoría desde la coherencia lógica que la distinga, y contrastamos con qué concepto encaja mejor de los que elaboramos (deducción). Aprendemos una función dentro de un sistema de significado, de acciones y símbolos. Lake, Salakhutdinov y Tenenbaum formulan este contraste: las personas pueden generalizar desde uno o muy pocos ejemplos y usar conceptos para la propia acción, la imaginación y la explicación de la realidad. Zador agrega que los animales no aprenden desde una tabula rasa estadística: traen sesgos inductivos fuertes incorporados en la arquitectura del sistema nervioso. Si bien el genoma no codifica cada aprendizaje concreto, sí establece estructuras y predisposiciones que hacen posible aprender realmente, y hacerlo por ende mucho más rápido. Así, el niño no “supera” a la red generativa porque tenga más datos, sino porque tiene cuerpo, un mundo que reflejar, acción en el mundo, prácticas y un tipo de aprendizaje que no está condenado a reconstruir todo desde cero.

De vuelta: este ejemplo del “1” de Simon me llama la atención en su sencillez: muestra una diferencia clave que le separa de la clasificación. Una cosa es reconocer una imagen como perteneciente a una clase, pero otra muy distinta es poseer un concepto que puede participar en operaciones, explicaciones, acciones y reglas, más allá de la clasificación, o mejor dicho, como causa de la creación de esa clasificación en primer lugar. Si una red dice “esto es un 1” después de millones de ejemplos, puede haber aprendido una frontera de decisión sofisticada, pero no entiende qué es un “1” en la trama de usos donde el signo vive. El niño, en cambio, aprende el “1” como un signo en sí mismo, a partir de la forma, como gesto, luego como cantidad, como lugar en una serie, como herramienta. Y por eso el aprendizaje humano no es sólo más eficiente en muestras, sino que es ontológicamente eficaz.

Fuentes sobre las redes neurales biológicas en contraste con las artificiales: 

La cuestión del aprendizaje lleva a una distinción que conviene hacer con cuidado entre inducción, deducción y abducción. La IA actual aprende por inducción estadística: a partir de ejemplos, ajusta parámetros para capturar regularidades, y como sólo puede hacer esto, el criterio para encontrar regularidades es exógeno. No es para nada una inducción ingenua ni pobre: puede descubrir estructuras latentes, composiciones parciales, analogías, regularidades sintácticas, relaciones semánticas, patrones del mundo sedimentados en texto e imágenes, y sólo en este sentido “crear”. Pero, usando términos de Popper, no es el mundo 2 popperiano, sino el mundo 3 que ha tomado “vida”. En términos de la termodinámica, no crea verdadera información nueva, por más “temperatura” que se le permita al modelo. No hay abducción ni deducción que genere sintéticamente novedad. Sigue siendo, en su base, meramente una novedad analítica: aprendizaje por regularidades observadas. La deducción fuerte es otra cosa: consiste en derivar conclusiones nuevas que se siguen necesariamente de premisas por reglas que preservan validez, pero que no están explicitadas en aquellas. Si las premisas son verdaderas y la inferencia es válida, la conclusión no puede ser falsa. La abducción fuerte, por su parte, es mucho más que inventar una explicación plausible al activar el “recuerdo” estadísticamente grabado de patrones similares, precisamente porque en la inferencia estadística no hay verdadera evocación sino un reflejo: la red no busca dentro de sí, sino que refleja en forma conductual sin tener separadas la causa de la búsqueda y el resultado. No hay verdaderas hipótesis, que impliquen derivar consecuencias esperables, diseñar pruebas discriminantes y actualizar el modelo cuando la evidencia vuelve. Y, por último, quizás lo más importante, es que no hay inducción fuerte sin una abducción fuerte que logre un criterio previo para abstraer para así poder inducir, así como tampoco la hay sin una deducción fuerte que logre relacionar lo inducido con el conocimiento previo.

Cuando un LRM “razona”, puede estar haciendo algo real en el plano funcional: una búsqueda interna, una revisión, una generación de pasos, luego auto-corrección y exploración de cadenas. Pero si no hay un mecanismo que obligue la validez de esos pasos no se puede hablar de deducción en sentido fuerte sino débil: mera producción de razonamientos probables. Y probables sólo para nosotros, no para sí mismo, ya que no tiene nada contra lo cual contrastar. Puede acertar mucho y, sin embargo, estar estructuralmente autorizado a dar un salto inválido. Puede también generar una explicación plausible sin estar haciendo abducción en sentido fuerte, porque la explicación no queda puesta en riesgo por pruebas diseñadas para refutarla. No sería un tanteo sino una reacción. Y podría “imaginar” escenarios sin que esa imaginación esté anclada en un modelo causal sometido a intervención. No agrega entropía a la cultura. 

Pearl distingue entre ver, hacer e imaginar, lo cual, otra vez, es una forma analógica del proceso interno de inducir, deducir y abducir. Ver sería observar correlaciones; hacer sería intervenir, e imaginar sería razonar contrafácticamente. El aprendizaje estadístico puede ser extraordinario en el nivel del ver, pero resulta que la ciencia y la comprensión exigen hacer e imaginar. Si una IA no tiene un operador interno equivalente a la intervención, si no puede representar qué pasaría al forzar una variable, si no puede distinguir correlación de causalidad, entonces su abducción queda degradada a narrar. Puede decir “la causa probable es X”, pero no necesariamente entiende en qué condiciones X dejaría de ser causa, qué prueba lo separa de Y o qué mundo alternativo se seguiría de otra intervención. El problema de la “inducción” no es que inducir sea algo malo per se, ya que la inducción es condición necesaria del aprendizaje, pero precisamente es necesaria para el aprendizaje en tanto la inducción, para llevar a aprender algo, obliga a llegar a una deducción a contrastar, así como inspira a la creación de teorías mediante el mismo criterio abductivo que lleva a concebir una causalidad a partir de una correlación. 

Una inteligencia fuerte debería integrar inducción, deducción y abducción (de hecho, no son separables) en un sistema donde cada forma de inferencia tenga su legalidad propia. La inducción es la vía para descubrir regularidades, mientras que la deducción preserva validez relacional, y la abducción busca explicaciones verosímiles y las somete a riesgo (partiendo de nociones sustantivas de lo verdadero, que luego bajan como deducciones sobre más inducción). En la IA actual, estas dimensiones aparecen mezcladas en una competencia textual general, todas sostenidas sobre una inducción operando por fuerza bruta y asistida desde el exterior para que no se descarrile en su entropía ciega. Entropía que en el fondo no es entropía, ya que no hay nueva información en términos cualitativos: el único elemento neguentrópico son los entrenadores, y sólo mantienen un simulacro de neguentropía en tanto no hay relación entre los elementos estabilizados. Las alucinaciones no son accidentes subjetivos de una tendencia a la objetividad. Hinton y su amigo Dawkins se equivocan, pues, de cabo a rabo: existe un teatro de la mente (así como el dolor de una lastimadura existe sólo en la mente y la lastimadura en sí sólo fuera de ella, siendo que ésta no pasa en tanto tal a través del sistema nervioso), pero en las IA es un teatro sin guión teatral y ciego al público, donde los actores son como autómatas que se colocan con recuerdos ajenos, para luego improvisar continuamente, en un groove trucho, por asociación mecánica con esos recuerdos. 

La fenomenología de las IA generativas es siempre la misma: no hay ninguna arquitectura donde la validez lógica, la intervención causal y la búsqueda de explicación sean parte del proceso mismo. Éstas entran de vez en cuando por el techo del pre-entrenamiento, como filtros externos o estilos de respuesta, manteniéndose siempre adelante y como base condicionante de un entrenamiento que nunca le supera como parámetro guía (los descarrilamientos son sólo productos emergentes, con suficiente tiempo, de los carriles previos, lo cual muestra además que no emergen equilibrios metaestables, y por esto no hay nada peor para entrenar una IA que lo generado por sí misma o por otra IA), muy a diferencia del aprendizaje real que, contra lo que nos dice la nefasta educación positivista desde hace un par de siglos a esta parte, es siempre primero creación teorética del sujeto, inspirada por el mundo y guiada por la distinción de lo verdadero –y aquí remito a los textos sobre epistemología y pedagogía de Zanotti padre e hijo, haciendo la salvedad de que no adhiero a la posibilidad en ciencias sociales de modelos apriorísticos (ni por agregación, ni sistémicos), salvo y exclusivamente en las ciencias formales (que precisamente son formales por ser un desarrollo autoconsciente de la racionalidad misma).

Fuentes sobre los modelos generativos en base a fuerza bruta inductiva:

La investigación de Newell y Herbert Simon vuelve a este punto con una increíble actualidad, resolviendo el cómo se inserta la lógica en la “materialidad” en el modelo originario y genuino (biológico) de una red neural. La Physical Symbol System Hypothesis sostenía que un sistema físico de símbolos posee los medios necesarios y suficientes para la acción inteligente general. Uno puede no aceptar la tesis en su literalidad fuerte y, de hecho, gran parte de la historia posterior de la inteligencia artificial y de las ciencias cognitivas fue una revisión de esta hipótesis, pero... el problema que Newell y Simon plantearon no cambió en nada: la inteligencia real parece necesitar manipulación de una estructura de conceptos en base a reglas, puesto que sin algún tipo de estructura real, discreta, la red puede producir regularidades pero no necesariamente legalidad. 

Ahora bien, esto no implica volver sin más a la IA simbólica clásica: el problema no se resuelve reemplazando una red por un sistema experto rígido, ni confundiendo inteligencia con manipulación explícita de símbolos escritos a lo Prolog. La cuestión es cómo hacer que la validez sea endógena a un sistema neural, o sea: neural-simbólico. En otras palabras, nadie quiere un modelo que genere una respuesta y luego se la pase a un verificador externo como quien manda un texto a corregir, porque precisamente lo que se busca es una arquitectura en la que ciertas transiciones inferenciales inválidas sean directamente imposibles, inestables o penalizadas por la dinámica interna, o sea: que sean molestas, por lo mismo que nos provoca rechazo ver un triángulo de Penrose. Una deducción fuerte endógena implica una propiedad del espacio de estados dentro de la red: no es una decoración formal agregada al final.

SATNet, DeepProbLog, semantic loss y otras líneas neuro-simbólicas son intentos parciales de acercarse a eso. SATNet integra un solver para buscar grados de satisfacción dentro del loop de deep learning. DeepProbLog combina programación lógica probabilística con predicados neuronales. La semantic loss introduce una función de pérdida que conecta salidas neuronales con restricciones lógicas. Estas soluciones todavía no son, ni de lejos, la forma final de una inteligencia sintética orgánica, pero al menos siguen siendo híbridos con piezas formales explícitas que muestran el vacío que las actuales IA no pueden llenar, demostrando que la estructura no tiene que venir de un auditor externo, sino que es parte misma del cómputo.

Por una dirección ya más matemática aparecen, y enumero a grosso modo: Birkhoff, los retículos, luego Wille y Ganter con el análisis formal de conceptos, y Kuznetsov en líneas afines. Recuerdan que el conocimiento va más allá de una nube de vectores en campos multidimensionales continuos y sin relación interna, en tanto implican un orden, una interrelación mutua, y una interrelación objeto-atributo. La lógica de retículos y los cierres de Galois si bien no son una receta para reemplazar transformers, logra advertir que hay formas de estructura conceptual que no se reducen a proximidades en un embedding. Si una IA fuerte debe abstraer, clasificar y deducir, necesitará legalidad conceptual. El mapa multidimensional de los conceptos que iluminan el trayecto hasta las neuronas de salida de los tokens finales, no se basa meramente en trayectos afianzados, que discurren a través de las capas, sino que incluyen nexos internos dentro de cada capa que conectan un vector con otro. Nada de esto existe en el modelo actual de inteligencia artificial, y para que exista se requiere replantear todo el modelo.

Fuentes sobre redes neuro-simbólicas:

La retropropagación merece una discusión aparte. Ahora bien, aclaro: el backpropagation no es “el mal”; no es una estupidez. Hay que aclararlo por si acaso. Es cierto que es una de las herramientas más poderosas de la historia del aprendizaje automático basado en un modelo neural. El problema es que se volvió el centro de un régimen conceptual. Es una concepción casi tiránica que identifica aprendizaje con un ajuste masivo de parámetros por gradiente en modelos entrenados offline. Desde el punto de vista biológico, el backprop es un callejón sin salida: se requiere una forma de asignación de crédito global, simetrías o transportes de información que no están en ningún modelo posible de cerebro biológico. Implican, además, una separación entre fase de entrenamiento e inferencia que no se parece en nada a la forma continua y local en que aprenden los organismos. 

¿Cuáles son las alternativas? Aun dentro de nuestras IAs de modelos estocásticos (véase: con transferencia de información numérica, con variables continuas de estimulación en vez de saltos discretos en cada neurona, y con información digital discreta en vez de impulsos continuos en su comunicación, además sin deducción fuerte ni lógica interna al proceso), se puede al menos lograr algo al respecto, con distintas opciones, entre otras: el predictive coding como aproximación local al backprop; el más que interesante equilibrium propagation como aprendizaje en modelos de energía; el feedback alignment como uso de señales de error no simétricas o incluso aleatorias, e incluso el Forward-Forward de Hinton como reemplazo del pase backward por dos pases forward, reglas de tres factores en redes spiking, neuromodulación, STDP, reservoirs y liquid state machines. Entiendo muy por arriba la idea, pero al menos me deja tranquilo que haya consciencia del problema incluso en los defensores de los modelos actuales de perceptrón. 

Obviamente estas líneas no son equivalentes ni todas igualmente prometedoras, pero comparten una intuición, y es que el aprendizaje puede organizarse de modo más local, temporal, dinámico, e incorporado en la propia actividad del sistema. Las PCNs, o predictive coding networks, son interesantes porque convierten la predicción y el error de predicción en la moneda de la red (¡al fin!). Equilibrium propagation sugiere que inferencia y aprendizaje pueden surgir de una misma dinámica. Feedback alignment muestra que no hace falta copiar de manera exacta los pesos de retroalimentación para asignar crédito útil. Forward-Forward intenta evitar el backward clásico. Las reglas de tres factores recuerdan que, en biología, la plasticidad, en vez de depender de dos neuronas que se activan juntas, se basa en señales moduladoras globales, como recompensa, sorpresa o novedad. 

Cada una de estas técnicas permite una modalidad de inteligencia distinta, pero al menos es algo. Si bien no es una red natural, es al menos una red más natural, y si bien “calcula”, no es que use spikes por estética, ni que la memoria esté congelada como un conjunto de pesos actualizados en enormes sesiones de entrenamiento. Al tener una memoria distribuida con plasticidad local, el error no será una señal abstracta que llega desde una pérdida global, y tendrá que implicar un aprendizaje que vaya más de ser un evento de fábrica a ser una propiedad permanente del estar-en-el-mundo del sistema, si queremos decirlo en términos casi heideggerianos. No importa, al menos en esto, que la red sea sintética, que esté hecha de silicio, memristores o cualquier otro sustrato, como quieren algunos fetichistas del carbono, sino que lo que importa es que sea más orgánica, o sea, que su organización una el cómputo con la memoria, y la acción con la modificación. Recuérdese que lo orgánico no significa biológico: puede ser sintético, pero el punto es que esté integrado, que no sea un mero artefacto que ni siquiera imite a un organismo. 

Aclaración: estas propuestas de sistemas neurales no llegan a los modelos biológicos, ni mucho menos; no solucionan varios de los problemas mencionados en los otros apartados de este mismo posteo, pero al menos son soluciones de simulación de características de los resultados de las redes neurales biológicas, siempre dentro del modelo de perceptrones. Sigamos...

Fuentes sobre la retropropagación y sus alternativas:

Ahora bien, una red puede volverse más temporal, local, eficiente, todo lo que se quiera, y aun así no tener mundo. Es decisivo que haya un eje en la agencia, y no que la agencia sea una mera simulación por imitación en ráfagas de procesos recursivos. Mucha gente confunde predicción con lo que hace un LLM al “predecir” tokens, pero en realidad no hay verdadera predicción aquí, como bien plantea Friston, ni siquiera en este sentido restringido. No hay en realidad salidas erróneas de la capa de salida, sino salidas más o menos parecidas en coherencia a lo escrito en los tokens ya existentes leídos por la capa de entrada. Es precisamente esa coherencia lo que queda en la forma del modelo: una fotocopia de la naturaleza del, Popper dixit, “mundo 3 humano”, y recién ahí una apariencia de reflexión del “mundo 2”, o sea de las consciencias y el pensamiento. Predecir tokens no es predecir el mundo. En active inference y predictive processing, el modelo generativo anticipa consecuencias sensoriales de acciones, minimiza errores de predicción y regula su acoplamiento con el entorno. Pezzulo, Friston y otros distinguen así entre la IA generativa pasiva y los organismos que adquieren y usan modelos generativos en interacción propositiva con el mundo. Sutton lo formula admirablemente: un world model debería permitir predecir qué va a pasar, no qué diría una persona. Si hace esto último sin lo primero, en realidad sólo estará recordando, sin siquiera saberlo, el patrón de comportamiento de personas pasadas, en base a sus producciones. La diferencia parece mínima pero es abismal.

Otra referencia inevitable, LeCun, propone algo cercano, aunque quizás desde un enfoque bastante más ingenieril, planteando world models (modelos basados en el mundo), sistemas de motivación intrínseca, JEPA, predicción en espacios latentes, etc. La idea de JEPA sería predecir representaciones y no quedarse en la generación superficial de píxeles o tokens, que sólo servirían teniendo que reconstruir cada detalle sensorial, que no es la idea. En vez de eso lo que se intenta es la captación de las variables latentes que estructuran el mundo. Está también Hasani con las liquid neural networks agregando otro ingrediente en esta salsa: modelos con dinámica continua capaces de adaptarse a entornos cambiantes. Luego están HOPE y Nested Learning, desde el lado de Google que, ni lento ni perezoso, apunta al aprendizaje continuo, a la memoria en base a la auto-modificación. Todas estas líneas son distintas; algunas siguen dentro del deep learning convencional, pero empujan contra la misma muralla del mainstream basado en el modelo estático, pasivo, entrenado de una vez y sin experiencia propia.

En resumen para esta cuestión: la verdadera IA predictiva fuerte tendría que tener agencia real en vez de agencia simulada. Agencia real significa que el sistema actúa, que sus acciones modifican el mundo, que el mismo mundo le devuelve error (que recién ahí aparece el direccionamiento de la observación, como en las redes neurales biológicas, humanas o no), que ese error actualice el modelo, y que el sistema aprenderá de las consecuencias, lo cual exige distinción del error y por ende una idea misma de verdad como adecuación a la realidad (sería gracioso, si no fuera triste, que los creadores de la IA neural hayan tenido que pensar en esto dándose un palazo ellos mismos contra ésta). Vale insistir: esto no exige necesariamente un robot humanoide que tenga corporeidad clásica, ya que puede haber agencia en entornos digitales, científicos, económicos o simulados; lo que sí exige es un lazo causal donde el output del sistema no sea un texto que se pierde en una pantalla, sino una intervención a la que se siga el rastro y le vuelva como evidencia. Sin eso la IA podrá parecer un científico escribiendo hipótesis, pero no será un científico, porque hará imitaciones de hipótesis, las que no podrá contrastar porque no tiene laboratorio propio, y no podrá abstraer porque no será capaz de discernir su objeto de estudio, ya que se lo habrán provisto.

Fuentes sobre los modelos del mundo:

En este nivel de análisis de las IA, llegamos a la cuestión del lenguaje. Esto, por su parte, exige un excurso, porque acá se juega una parte importante de la confusión contemporánea. Hinton ha dicho que las redes neuronales son mucho mejores procesando lenguaje que cualquier cosa producida por la escuela chomskyana, y en AI4 afirmó que entendemos el lenguaje de un modo muy similar al de los grandes modelos de lenguaje. En la entrevista del Nobel repitió que la escuela lingüística de Chomsky se equivoca al negar que estos sistemas entiendan. Esto puede leerse como una especie de giro wittgensteiniano implícito: el significado no estaría en una gramática innata y abstracta, sino en patrones de uso, en el aprendizaje de regularidades de contexto y en la participación efectiva en juegos del lenguaje. Y es tentador, porque Wittgenstein efectivamente desplaza el significado hacia el uso, las prácticas, los juegos de lenguaje y las formas de vida. Pero ahí está justamente el error: si uno invoca a Wittgenstein contra Chomsky para defender a los LLMs, no puede quedarse sólo con “uso” como regularidad estadística. En Wittgenstein, un juego de lenguaje no es un corpus de secuencias, sino una práctica que se teje con acciones, normas, criterios y formas de vida. Decir “el significado es uso” no equivale a decir “el significado es distribución”. El uso wittgensteiniano implica estar dentro de una actividad donde las palabras hacen cosas: ordenar, pedir, prometer, contar, medir, preguntar, obedecer, equivocarse, corregir. Por eso una lectura wittgensteiniana seria debería volverse contra Hinton: si los LLMs carecen de forma de vida, cuerpo, consecuencias prácticas propias y responsabilidad en el juego, entonces no basta con que reproduzcan muy bien patrones de uso lingüístico. En cualquier caso, la crítica a Chomsky es una caricaturización vulgar: Chomsky no sostuvo que “el lenguaje no se aprende”, como si un bebé naciera sabiendo español o japonés. 

Hinton convierte así una tesis compleja sobre la pobreza del estímulo, en una caricatura fácilmente celebrable por un público ya predispuesto a festejarle todo. El argumento chomskiano apunta, precisamente, a la explicación misma del desarrollo del lenguaje, y a la evidencia lingüística disponible de que el niño subdetermina ciertas competencias gramaticales, por lo cual la mente es la que guía el proceso aportando una estructura lógica universal previa, sin importar sus variantes y las posibles relaciones lógicas distintas (aunque no contradictorias) que aparecen en unos lenguajes y en otros no. Y no se refuta a Chomsky mostrando que una red gigantesca, entrenada con cantidades sobrehumanas de texto, produce lenguaje fluido. Un niño aprende lengua sin el corpus de internet, sin backprop, sin millones de actualizaciones sobre tokens, y lo hace con cuerpo y con una comunidad humana de corrección práctica. Esta comunidad no le enseña a manejar su cuerpo mediante entrenamiento sobre una tabula rasa, ni a entender las palabras mediante electroshocks y chocolates, como premios y castigos de un pre-entrenamiento conductista para guiar a la red neural del infante hasta la replicación de regularidades adecuadas, prácticas a posteriori, con las cuales entender el resto del lenguaje por entrenamiento. Y, sin embargo, el chico aprehende el mundo y aprende a entender las primeras palabras, contextualmente, lo cual sobra decir no puede ser producto de un condicionamiento previo que provenga del lenguaje, porque éste requiere palabras. Y, si es ajeno al lenguaje, entonces resulta paródica la reducción del aprendizaje de la lengua, a la lectura de Wittgenstein que hace Hinton. 

Fuentes sobre lenguaje y aprendizaje:

Ahora nos adentramos ya en el nivel de la noción de creatividad artificial que tocamos someramente arriba. Si por creatividad entendemos producir combinaciones nuevas, entonces obvio que sí: los modelos generan novedad. Si por creatividad entendemos producir hipótesis, formas, reglas o mundos que abren posibilidades no contenidas en el régimen estadístico existente, la cuestión es otra. El famoso model collapse muestra empíricamente que un sistema que se alimenta demasiado de su propio output pierde colas de la distribución: Shumailov y coautores muestran que los modelos entrenados recursivamente con datos generados por modelos tienden a olvidar la distribución original; Alemohammad y Baraniuk hablan directamente de autophagy disorder en modelos generativos; Bohacek y Farid estudian generadores de imágenes que se autoenvenenan; Martínez y otros analizan bucles entre IA generativa e internet. Gerstgrasser y Schaeffer muestran que mezclar y acumular datos reales y sintéticos puede evitar o reducir ciertos colapsos, sí, pero la lección general es la misma: la supuesta generación de la IA generativa es eco con emergencia de patrones. Sin datos frescos del mundo (humano o natural), donde se preserven las rarezas y se establezcan criterios de procedencia, la creatividad se reduce a un descubrimiento sofisticado de promedios estadísticos. Acá entrarían Bender, Gebru y Crawford: “Stochastic Parrots” apunta a una ecología de escala donde al devorarse corpus sin documentación adecuada, la IA oscurece las procedencias y el receptor confunde el tamaño con la comprensión. La autofagia informacional y la extracción material son dos caras de la misma expansión: el sistema absorbe patrones del mundo, lo convierte en datos, lo procesa, lo devuelve como outputs, y luego empieza a procesar sus propios residuos. La IA puede parecer inmaterial en la pantalla, pero su metabolismo es material y semiótico a la vez. Las novedades científicas creadas por IA son novedades sólo para el área científica contemplada, no para los criterios cognitivos humanos. Es sólo una cuestión de aplicaciones no descubiertas de criterios análogos utilizados en otras áreas, captados y reutilizados inconscientemente por la red artificial. No es el descubrimiento abductivo de criterios ulteriores del desarrollo científico. Nada de esto implica ser hater de la IA. De hecho, el planteo de los loros estocásticos viene no sólo de estos autores, y está implícito en casi todos los demás mencionados en los bloques anteriores.

Fuentes sobre autofagia y colapso del modelo:

Como se podrá notar a esta altura, todos los problemas precedentes no son independientes, y el que le sigue no lo es menos. Si fuera solamente un problema de eficiencia energética, de arquitectura computacional o de verdad epistémica, ya sería bastante. Pero no lo es. Una tecnología que entra en la producción, en la administración, en la guerra, en la educación, en la vigilancia, en los mercados culturales y en la decisión pública no puede juzgarse únicamente por su elegancia técnica ni por su productividad marginal. Una IA “estadísticamente competente” pero epistémicamente débil reorganizará a la sociedad en forma deletérea. No podrá servir de obstáculo que compense el daño que genere, y a los muchos perjudicados agregará un dilema del prisionero suicida para élites gobernantes y clases dominantes, sin que ni siquiera sus propietarios y administradores, de empresas privadas o públicas en pugna, puedan hacer nada para detenerlo salvo buscar maximizar sus probabilidades de supervivencia.

El primer problema es el laboral. El IMF calculó que en las economías avanzadas alrededor del 60% de los empleos podrían verse impactados por la IA, y que aproximadamente la mitad de esos empleos expuestos podrían beneficiarse por integración de IA, mientras que la otra mitad podría sufrir reducción de demanda laboral, menores salarios o desaparición de tareas. Esto no significa necesariamente “desempleo total inmediato”, que sería una caricatura, pero sí una reorganización del poder de negociación. Si la IA aumenta productividad en manos de quienes ya controlan capital, datos e infraestructura, pero reduce el valor relativo de ciertas competencias humanas, la consecuencia no sería simplemente desempleo. De por sí no es garantía que el aumento de productividad genere nueva demanda de empleo humano, si la tasa de demanda de nuevo trabajo artificial supera la demanda de trabajo humano. Pero, como si no bastara, para la mano de obra que permanezca ocupada, significará una disminución de la productividad marginal del trabajo humano asalariado (también del restante, pero en tanto a ese resto el ingreso le provenga de sus propiedades sobre capitales en base a IA, y éstos sigan teniendo demanda, que su trabajo pueda ser reemplazado les será indiferente). En consecuencia tendremos degradación de las tareas, presión salarial a la baja, precarización e intensificación laboral, vigilancia algorítmica y pérdida de autonomía profesional. La ILO, además, advierte que la exposición no se distribuye de manera uniforme: tareas administrativas, clericales y de oficina aparecen especialmente expuestas, y las mujeres pueden quedar más afectadas por su concentración en ocupaciones automatizables y su subrepresentación en áreas tecnológicas. La desigualdad no surge sólo porque unos pierdan el empleo y otros no; si algunos trabajadores son complementados por la IA y otros son convertidos en residuo funcional de sistemas automatizados, ambas partes perderán porque su mercado habrá ampliado el ejército de reserva de los desocupados, incluso aunque fueran asistidos con migajas de una renta básica universal en vez de una participación en las ganancias del capital. O, mejor dicho, quizás precisamente por ello, ya que matar de hambre a grandes porciones de población significaría una separación radical entre empleados y desempleados, de forma que la población con potencial de ser laboralmente activa se reduciría, paradójicamente, sin un subsidio, lo cual detendría el descenso interminable del salario, aunque sólo para unos pocos ocupados temerosos de caer a un pozo sin retorno. En cualquier caso, una competencia desregulada que forzara a pagar a un trabajador empleado con la productividad marginal del último de los desempleados de potencial reemplazo, significaría que el precio de equilibrio del menor salario caería por debajo de la línea de capacidad de subsistencia y reproducción social del trabajador en tanto tal, lo cual generaría, o bien una crisis cíclica constante en el mercado de trabajo por rotación irregular de mano de obra incapaz de completar eficazmente la jornada laboral, o bien una tragedia de los comunes de sobreexplotación que tomaría la forma de realimentación positiva entre tasa de desempleados en aumento y reducción de la productividad marginal del trabajador activo, a un nivel insuficiente para su sustento.

Acá conviene evitar dos simplificaciones simétricas. La primera es la fantasía tecnófila de que todo aumento de productividad se derrama naturalmente hacia salarios, tiempo libre o bienestar social. La segunda es el catastrofismo automático de imaginar que toda IA destruye trabajo en bloque. Lo más probable es una combinación desigual: sectores donde la IA aumente capacidades humanas, sectores donde las sustituya, sectores donde fragmente oficios complejos en microtareas supervisadas, y sectores donde el trabajador quedará convertido en operador o responsable legal de decisiones que en la práctica ya fueron preformateadas por sistemas opacos. Profesionales que antes deliberaban pasarán probablemente a validar outputs de modelos generativos. Docentes que antes formaban pasarían a solo detectar trampas. Periodistas que antes investigaban, a editar síntesis. Empleados administrativos que antes conocían procesos, a alimentar sistemas que luego los vuelvan prescindibles. Esto es deskilling, pero no en el viejo sentido industrial, sino en una pérdida de dominio cognitivo sobre el propio trabajo. Un general intellect en potencia, pero sólo para pocos. O bien para un disimulado y parasitario capital muerto encarnado en los modelos de lenguaje.

Ese proceso aumentaría la desigualdad social incluso si la productividad agregada sube. La OCDE viene señalando que los beneficios de la IA tienden a favorecer más a ocupaciones de altos ingresos, alta calificación y uso intensivo de computadoras, mientras que los trabajadores menos calificados o con menor capacidad de apropiación tecnológica pocas veces participan de la misma mejora salarial. En otras palabras: que puede reforzar una división entre quienes usan la IA como multiplicador del capital humano autónomo o ajeno, y quienes son medidos, monitoreados, reemplazados o disciplinados por ella. En una sociedad ya fragmentada, aumentará la existente desigualdad cognitiva, y en una forma nueva: no sólo desigualdad de capital cultural e intelectual, sino desigualdad en la capacidad de comprender y gobernar los sistemas que organizan la vida cotidiana, lo cual reducirá a prácticamente cero la posibilidad de crear medios de producción propios en economías paralelas sumergidas, y ya ni digamos para competir contra los mercados principales.

De acá pasamos al problema político. Una tecnología que ayuda a concentrar toda la infraestructura, manejo de datos, los modelos y capacidad de automatización en los pocos actores económicos que se mantengan en pie, tiende a concentrar también la influencia en el poder de decisión. Esto no ocurre únicamente en el sector privado por mayor posibilidad de sindicación y negociación de los empleadores con IA frente a los asalariados que utilizan IA, sino también para que estos actores económicos más reducidos y coordinados, operen mucho más fácilmente como factor de poder sin contrapesos frente al poder político, así como de los gobernantes de los diferentes poderes del Estado —en unión con sus partidos convertidos ya hoy en empresas políticas— por sobre el resto de sus burocracias subalternas. Para los Estados la IA sirve perfectamente para clasificar poblaciones, para predecir conductas, distribuir mejor beneficios, detectar riesgos rápidamente, vigilar fronteras, procesar inteligencia, producir propaganda, automatizar burocracias y hacer inaccesible las cuentas de responsabilidad. La frontera entre eficiencia administrativa y autoritarismo técnico terminaría de disolverse. Los sistemas automatizados permiten tomar decisiones a escala, con apariencia de neutralidad —o, mejor dicho, neutralidad para la eficiencia de un sistema hecho para pocos—, desplazando la deliberación hacia modelos que la ciudadanía no entiende, no controla y a menudo ni siquiera puede auditar. La anarquía y el autoritarismo no son opuestos absolutos en este punto: pueden alternarse o incluso combinarse. Por un lado, proliferarán herramientas de desinformación, estafas, deepfakes, ataques automatizados y erosión de la confianza pública, y, por el otro, se justificará más vigilancia y más control en nombre de contener ese caos. La IA ya está produciendo el incendio, y es obvio que producirá el extintor.

El International AI Safety Report describe este dilema con una expresión sombría: “evidence dilemma”. Los sistemas avanzan rápido, pero la evidencia sobre riesgos llega tarde, es difícil de evaluar y muchas veces aparece recién cuando el sistema ya fue desplegado. Si los gobiernos actúan demasiado temprano, pueden fijar regulaciones inútiles o capturadas, pero si esperan evidencia concluyente, pueden dejar a la sociedad expuesta a daños permanentes. Este dilema es político incluso para los grupos de poder: la velocidad privada de despliegue no coincide con la velocidad pública de comprensión. Y cuando una sociedad no entiende a tiempo una tecnología que la reorganiza (desempleo, desinformación, inseguridad y guerra), la institucionalización política de los conflictos queda en desventaja temporal. Deliberar requiere tiempo y la carrera armamentística de las big tech premia velocidad.

La dimensión geopolítica agrava todo lo anterior. Los Estados la leen como ventaja estratégica. La industria militar, la ciberseguridad, servicios de inteligencia, armamento autónomo, propaganda enemiga, automatización de la defensa nuclear, vigilancia satelital, etc., impiden poner un pie en el freno, y el dilema se extiende por ende a la esfera pública. Cada actor podrá presentar su aceleración como defensiva, pero todos saben que estarán compelidos a agredir si a corto plazo ganan más por hacerlo. SIPRI advierte que incluso aplicaciones militares no nucleares de IA pueden comprimir los tiempos de decisión y aumentar los riesgos de cálculos erróneos en crisis nucleares. Trabajos sobre LLMs en wargames muestran patrones de escalada difíciles de predecir y, en casos raros, incluso decisiones que llegan al uso de armas nucleares en simulación. El genocidio consciente a lo Skynet no es la peor amenaza, aunque este pueda ser parte de una fase de desarrollo. Bastaría ya con la automatización parcial de recomendaciones, los sesgos de confianza compulsivos en máquinas y las doctrinas militares que premien anticiparse al adversario, para extender fácilmente la destrucción del enemigo desde su población civil hasta a sus silos nucleares. Así como el poder civil se reduce frente al poder político-militar y sus diferentes complejos industriales, la aceleración en la cadena de decisión también hace disminuir el control humano, tanto de los altos mandos como los subordinados, sobre las operaciones manejadas con IA. En una crisis, si un sistema recomienda responder antes de que el adversario lo haga, y si el adversario usa sistemas parecidos, la estabilidad dependerá de modelos y sensores cuyas señales puedan ser erróneas o incompletas, o manipuladas. La IA tiende a erosionar todos los “firebreaks” humanos que enfrían la escalada: pausas por protocolo, demoras administrativas, ambigüedades a dilucidar, prudencias humanitarias y resistencias psicológicas. 

La inestabilidad política también puede venir por degradación del espacio público. Si los costos de producir texto, imágenes, audio y video convincentes tienden a cero, la confianza social se vuelve más cara de comprar, ya que la abundancia de contenido sintético, además de generar desinformación, genera cansancio cognitivo. No es mejor que la imposición de una mentira, el hacer que todos sospechen de todo. La adhesión fanática y el escepticismo apático llevan a caminos parecidos, y en cualquier caso mutuamente funcionales. La combinación de cinismo anárquico, donde nadie cree nada, y el autoritarismo epistémico, donde se pide a una autoridad fuerte que certifique qué es real, ha sido la fórmula perfecta para la imposición de controles inconstitucionales. El antecedente más cercano y conocido simultáneamente por todos los países del mundo, ha sido el de la última cuarentena global con confinamiento. Vale la pena repasarlo con un breve excurso. Recordemos cómo la información se manipuló para agigantar la emergencia sanitaria, la cual a su vez se priorizó por sobre todas las libertades civiles (las garantías para la integridad biológica personal frente a contraindicaciones y otros problemas médicos, el aislamiento preventivo por sobre la subsistencia económica y la salud psicológica), así como implicó medidas típicas de los autoritarismos y totalitarismos (instigación a la delación, inducción de la reacción mecánica ante el medio, y acusación de irresponsabilidad social al disidente). Mediante un discurso homogéneo de todos los medios de comunicación, se llegó a la conversión por colectivización de toda cuestión de salud personal en un problema de salud pública (de ahí a la imposición de un pasaporte interno, que luego sería usado como coacción para que se violara masivamente el Código de Nuremberg y la Declaración de Helsinki sobre experimentación humana, salvo fácticamente para minorías económicas y políticas que no dependían para subsistir de un pase sanitario o que no temían ninguna amenaza de cierre o despido). Si esta experiencia de disciplinamiento social, que logró doblegar y confinar a la mayor parte de la población civil, y cuya abyección humillante ha quedado como un trauma del que aun ahora es difícil hablar, ha sido posible sin inteligencia artificial, no cuesta imaginar lo que esos mismos poderes públicos y privados podrán hacer con una. La IA generativa, al degradar la frontera entre documento y ficción, contribuye a la privatización, tanto empresarial como partidaria, de la política y de la verdad pública, lo que lleva inmediatamente a su fragmentación inestable en facciones inorgánicas, y a la vez a su concentración en menor cantidad de agentes, a la vez que facilita y agiliza la gobernabilidad por encima de los mecanismos de contralor constitucional, así como por sobre la participación y deliberación democrática (los pocos que existen y tienen relevancia todavía), o sea, frente a libertades negativas y positivas por igual (Berlin dixit).

Como si faltara algo, queda la relación entre la economía de plataformas y el problema de la concentración económica y política. La desigualdad entre empleadores y empleados, gobernantes y gobernados, ya no será sólo distributiva de recursos materiales o de coacción, sino estratégica. Quien controla modelos de razonamiento, fabricación de chips, bases de datos y canales de distribución, acapara también capacidades de predicción y persuasión, así como vigilancia y coacción individualizadas y colectivas, con lo cual la soberanía tecnológica se vuelve condición de independencia material, y por lo mismo, tanto países como empresas como los mismos trabajadores sin acceso a infraestructura de IA, quedarán inevitablemente reducidos a consumidores, etiquetadores, fuentes gratuitas de datos o directamente devenidos en mercados cautivos. Esta es la forma normal en que opera el principio de Pareto: las tecnologías de propósito general reordenan las jerarquías contra las mayorías cuando requieren condiciones de concentración para la propiedad privada y el poder político.

Fuentes sobre las implicancias sociológicas, económicas, políticas y culturales:

El lock-in económico favorece la infraestructura dominante; la infraestructura dominante favorece modelos pasivos y masivos; los modelos pasivos y masivos tienen hambre de datos; el hambre de datos empuja al scraping y luego a la contaminación sintética; la contaminación sintética empobrece la ecología informacional; la falta de mundo obliga a simular agencia en texto; la falta de causalidad degrada la abducción a soluciones por fuerza bruta; la falta de validez endógena degrada la deducción a imitación de argumentación; la separación memoria-cómputo vuelve carísima la plasticidad continua; la lógica de mercado premia el despliegue útil antes que la comprensión fuerte. Esto prueba que el régimen actual está condenado, pero ese no es el peor problema: el peor problema es que sea un callejón sin salida.

La conclusión no tiene por qué ser, sin embargo, necesariamente “anti-IA”. Quizá sea una crítica a la pobreza de imaginar que esta IA es el destino de toda inteligencia artificial. Mi miedo no es que las máquinas no hagan nada, sino que hagan lo suficiente como para desplazar las preguntas correctas. Que escriban lo bastante bien como para hacernos olvidar la diferencia entre lenguaje y mundo. Que razonen lo bastante bien como para hacernos olvidar la diferencia entre probabilidad y validez. Que generen imágenes lo bastante pulcras como para hacernos olvidar la diferencia entre recombinación y creación. Que automaticen lo bastante como para hacernos olvidar la diferencia entre eficiencia particular y desarrollo general. Y que escalen lo bastante como para hacernos olvidar que relacionar no es comprender, así como fabricar no es crear.

Mientras tanto, la IA actual seguirá siendo un artefacto espectacular, pero sin cambiar por una inteligencia real, casi todos sus perjuicios quedarán intactos, y sus beneficios tenderán a una reducción constante. No se volverá pues una inteligencia en sentido fuerte, con una naturaleza inteligente. Y quizá lo más grave no sea que no la tenga, sino que su éxito nos haga dejar de querer construir algo que sí pueda.

Fuentes sobre el presente y futuro de la inteligencia artificial: