Según Ray Kurzweil, la inteligencia artificial alcanzará el nivel humano en 2029. Kurzweil hizo esta audaz predicción en su libro de 2005 La Singularidad está cerca. En su momento, muchos tacharon este plazo de optimista. Pero, cada año que pasa, su visión parece menos ciencia ficción y más una realidad cercana.
Kurzweil no sólo predijo el futuro de la inteligencia artificial, sino que ayudó a construirlo. Sus avances sentaron las bases de tecnologías que utilizamos a diario. Sus ideas sobre cómo diseñar mentes artificiales han dado forma a toda una generación de investigación en IA. Siga leyendo para descubrir cómo las ideas de Kurzweil sobre la IA que compartió en La Singularidad está cerca y Cómo crear una mente (2012) nos acercan a máquinas que piensan de verdad.
Crédito de la imagen: Wikimedia Commons(Licencia). Imagen recortada.
Índice
La visión de Ray Kurzweil sobre la IA
Según Ray Kurzweil, la IA, y en particular la IA fuerte, transformará el mundo tal y como lo conocemos. La "IA fuerte" se refiere al estado en el que los ordenadores reproducirán y superarán todos los aspectos de la inteligencia humana, incluida la consecución del pensamiento consciente. Kurzweil describe los pasos que ya hemos dado para replicar digitalmente el pensamiento humano, las formas en que la inteligencia de las máquinas es objetivamente mejor que la inteligencia humana y el escenario que prevé para el desarrollo de la IA a nivel humano.
(Nota breve: Kurzweil describe dos niveles de IA, pero los ingenieros de software los dividen ahora en tres: estrecha, general y fuerte. En la década de 2020 se han producido notables mejoras en la IA estrecha o "débil", definida como algoritmos entrenados para realizar tareas específicas, como los chatbots que imitan la conversación humana o los sistemas de conducción autónoma de los coches. En cambio, la IA general será capaz de imitar la propia mente humana en términos de aprendizaje y comprensión, y quizá incluso de conciencia. La IA fuerte o "súper" será el nivel de inteligencia artificial que supere las capacidades de la mente humana y pueda pensar de formas que ni siquiera podemos imaginar. Algunos informáticos, entre ellos Kurzweil, consideran que la IA general y la IA fuerte son esencialmente la misma cosa).
En la actualidad, ya dependemos de la IA limitada para muchas tareas basadas en el pensamiento que antes realizaban los humanos, como diseñar edificios, hacer predicciones de mercado y buscar datos en millones de documentos archivados. Estos potentes, aunque limitados, programas de IA se presentan en una gran variedad de modelos: sistemas expertos basados en la lógica y la experiencia humanas, calculadoras de probabilidades que hacen predicciones basadas en sucesos pasados y redes neuronales que simulan el proceso de aprendizaje del propio cerebro humano. Con cada uno de estos sistemas, Kurzweil afirma que hemos aprendido que la capacidad de las máquinas para imitar las habilidades humanas pasa de pobre a superior en poco tiempo. Los ordenadores aprenden muy rápido.
(Nota breve: Históricamente, los ordenadores han estado en el camino que Kurzweil describe durante algún tiempo. En concreto, la década de 1950 marcó los primeros pasos hacia una verdadera inteligencia artificial. En 1951, Marvin Minsky y Dean Edmonds construyeron un ordenador que simulaba un grupo de 40 neuronas programadas para resolver laberintos mediante un algoritmo de aprendizaje. Unos años más tarde, en 1955, Herbert Simon, Allen Newell y Cliff Shaw diseñaron un programa llamado Logic Theorist que era capaz de resolver teoremas matemáticos utilizando la lógica simbólica además del mero cálculo numérico. Por esa misma época, el informático John McCarthy introdujo la expresión "inteligencia artificial" para describir estos sistemas y en qué podrían evolucionar).
El camino hacia una IA fuerte
La velocidad no es la única vía en la que la inteligencia de las máquinas puede superarnos fácilmente. Los ordenadores comparten información más fácilmente que los humanos, pueden conectarse entre sí para aumentar la potencia de cálculo y su capacidad para recordar información es mucho más precisa que la memoria humana. Pero, ¿cómo sabremos cuándo se ha alcanzado una IA fuerte? Kurzweil pone el listón en el nivel en el que los ordenadores pueden comprender realmente el lenguaje humano en lugar de limitarse a imitar la comprensión. Analizando los avances en potencia computacional, almacenamiento de memoria, reconocimiento de patrones y simulaciones neuronales, Kurzweil predice la llegada de una IA fuerte de nivel humano hacia el año 2029. Esta sigue siendo su postura pública, confirmada en 2024 con la publicación de su nuevo libro, La Singularidad está más cerca.
(Nota breve: Aunque los primeros modelos lingüísticos de gran tamaño (LLM) como ChatGPT se describían a menudo como meros calculadores de la siguiente palabra más probable, el rápido avance de su capacidad generalista y sus habilidades de razonamiento emergente han intensificado el debate. Aunque sus detractores siguen argumentando que carecen de verdadera consciencia o de contexto en el mundo real, la sofisticación de la IA moderna ha llevado a un número creciente de expertos a considerar que estos modelos están mucho más cerca de la Inteligencia Artificial General (IAG) -el término más utilizado indistintamente con la "IA fuerte" de Kurzweil- de lo que se pensaba, lo que da más credibilidad a la cronología de Kurzweil para 2029).
El peligro inherente a la creación de una IA fuerte es que una conciencia de máquina superior a la nuestra será prácticamente imposible de controlar. Esto ha llevado a algunos futurólogos a especular con que la primera IA fuerte creará inmediatamente IA aún más poderosas que ella, pero Kurzweil no está de acuerdo. Kurzweil no está de acuerdo, sino que cree que habrá una fase de "aceleración" en la que la IA ampliará su base de conocimientos. Después, en lugar de sustituir a los humanos, la IA se convertirá en una herramienta para ampliar el pensamiento humano a medida que aprendamos a aumentar directamente nuestros cerebros con la inteligencia de las máquinas.
| La IA en el lugar de trabajo A pesar del optimismo de Kurzweil, el equilibrio entre la ayuda de la IA y la sustitución de los humanos se ha convertido en un tema candente en casi todos los ámbitos laborales y ya no es un mero problema teórico. Las máquinas tienen la ventaja de reducir la monotonía y liberar a las personas para tareas más creativas, pero la IA tiene el potencial de ocupar puestos de trabajo que requieren capacidad analítica y decisiones basadas en datos. Al igual que otras revoluciones tecnológicas, la llegada de la IA dará lugar a una reconversión de la mano de obra, ya que los puestos de trabajo serán sustituidos por ordenadores o requerirán conocimientos diferentes para utilizar las herramientas de IA. Incluso las humanidades se ven afectadas por la IA, ya que algunas revistas se han cerrado a nuevos autores debido a la avalancha de historias generadas por chatbot. Mientras tanto, Marvel Studios fue objeto de críticas por utilizar arte generado por IA en uno de sus programas de televisión. Aunque la IA se ha vuelto esencial para las empresas al agilizar el trabajo y aumentar la eficiencia, a algunos expertos les preocupa que la IA entrenada por humanos amplifique el sesgo sistémico si se le da rienda suelta para tomar decisiones. |
La construcción del cerebro: La huella biológica
Kurzweil sostiene que el camino hacia una IA fuerte pasa por aprender cómo funciona el cerebro humano y duplicar sus funciones cognitivas electrónicamente. Nuestro acelerado progreso en potencia de cálculo hace que cada año sea más fácil reproducir las funciones cerebrales: uncerebro digital no sólo es posible, sino que podría ser inevitable. Hablaremos de los avances en la investigación del cerebro, de cómo se aplican a los modelos de computación y de cómo, si los ordenadores pueden simular cerebros, es posible que algún día puedas cargar toda tu mente en el mundo digital.
Históricamente, las herramientas médicas que hemos utilizado para analizar y comprender el cerebro eran rudimentarias, pero, como el resto de la tecnología moderna, están mejorando a un ritmo acelerado. Ahora es posible obtener imágenes de un cerebro en funcionamiento hasta el nivel de las neuronas individuales. Kurzweil afirma que los modelos informáticos del cerebro también mejoran a un ritmo vertiginoso. Aunque el cerebro es extremadamente complejo, con billones de conexiones neuronales, hay mucha redundancia incorporada. Un modelo informático eficaz de un cerebro no tiene por qué simular el disparo de todas las neuronas, y ya hemos avanzado notablemente en la modelización de algunas regiones específicas del cerebro.
Kurzweil admite que la principal ventaja del cerebro sobre los ordenadores digitales es que es masivamente paralela:establece innumerables vías neuronales para resolver cualquier problema al mismo tiempo, frente al enfoque más lineal de la informática tradicional. Esto compensa con creces la relativamente lenta transmisión química de datos por parte de las neuronas. Sin embargo, los ordenadores digitales disponen cada vez más del hardware necesario para el procesamiento paralelo rápido. Otra ventaja del cerebro humano es que, gracias a la neuroplasticidad, puede reorganizar sus conexiones y adaptarse, algo que los ordenadores físicos no pueden hacer. No obstante, Kurzweil insiste en que la capacidad del cerebro para adaptarse y reordenarse puede abordarse en el ámbito del software, si no del hardware.
De la teoría a la práctica: Ingeniería de mentes artificiales
La idea de Kurzweil de que la inteligencia surge de estructuras simples y repetidas le lleva a concluir que crear mentes artificiales no es más que un reto de ingeniería. No necesitamos duplicar la complejidad biológica del cerebro, sino aplicar sus principios algorítmicos. El neocórtex nos ha proporcionado un modelo, y cada característica que hemos identificado se traduce en requisitos de ingeniería específicos: La estructura uniforme sugiere que necesitamos muchas unidades de procesamiento idénticas. La plasticidad significa que estas unidades deben adaptar sus conexiones en función de la experiencia. La integración con sistemas de motivación implica que necesitamos un aprendizaje orientado a objetivos. El aprendizaje continuo requiere sistemas que puedan actualizar sus conocimientos sin perder capacidades.
(Nota breve: Mientras Kurzweil sostiene que para crear mentes artificiales hay que copiar el modelo del cerebro, algunos investigadores de la IA, como Yoshua Bengio, adoptan un planteamiento diferente y sostienen que deberíamos modelar ciertos aspectos de la función cerebral ignorando otros. La complejidad del cerebro puede ser imposible de reproducir por completo: Las neuronas reales son mucho más complejas que los circuitos digitales, con efectos cuánticos, procesos continuos en lugar de discretos y dinámicas biológicas que no pueden simularse perfectamente en los ordenadores digitales. Algunos investigadores sostienen que esto significa que deberíamos abandonar por completo el objetivo de copiar cerebros y centrarnos en descubrir formas novedosas de construir inteligencia que funcione de forma diferente a los sistemas biológicos).
Gracias a su trabajo de desarrollo de modelos jerárquicos ocultos de Markov y al análisis del cerebro humano, Kurzweil identificó cuatro requisitos para que un sistema informático logre un reconocimiento de patrones de nivel humano.
Autoorganización jerárquica
La autoorganización jerárquica significa que el sistema organiza automáticamente los reconocedores de patrones en niveles sin programación explícita. Los patrones simples se combinan de forma natural para formar patrones más complejos, que a su vez se combinan para formar conceptos aún más abstractos. Esta organización surge del proceso de aprendizaje en lugar de ser impuesta por los programadores.
(Nota breve: la autoorganización en la IA ha evolucionado más allá de la visión de Kurzweil. Mientras que las redes neuronales básicas se autoorganizan ajustando automáticamente sus conexiones internas durante el entrenamiento, la "IA agéntica" va mucho más allá. Estos sistemas constan de varios modelos de IA independientes que se coordinan entre sí, utilizan distintas herramientas, se comunican entre sí, se critican mutuamente y reorganizan su colaboración en función de lo que aprenden. Pero esta flexibilidad tiene sus costes: Cada interacción entre agentes requiere una computación costosa, y los sistemas pueden desarrollar comportamientos difíciles de controlar o comprender).
Expectativas y predicciones
La expectativa y la predicción requieren patrones de nivel superior que envíen señales a los niveles inferiores, haciéndolos más sensibles a las entradas esperadas. Este procesamiento descendente es tan crucial como el reconocimiento ascendente para lograr un rendimiento similar al humano, del mismo modo que su cerebro le prepara para esperar ciertas palabras al leer una frase.
(Nota breve: el desarrollo moderno de la IA confirma el énfasis de Kurzweil en la predicción, pero de forma sorprendentemente sencilla. Los grandes modelos lingüísticos como ChatGPT funcionan prediciendo la siguiente palabra de una secuencia. Durante el entrenamiento, aprenden a reconocer patrones practicando esta tarea de predicción millones de veces en vastos conjuntos de datos. Una vez entrenados, utilizan estos patrones aprendidos para escribir redacciones, responder preguntas y generar código. Pero estos sistemas siguen careciendo de la capacidad de simulación multidimensional que tienen los humanos: por ejemplo, pueden predecir textos sobre física, pero no tienen la comprensión intuitiva que los humanos obtenemos de nuestra experiencia vivida con objetos que se mueven por el espacio).
Redundancia y robustez
La redundancia y la robustez significan que los patrones importantes se almacenan varias veces en distintos reconocedores, lo que permite un reconocimiento fiable a pesar de una entrada parcial o distorsionada. Un sistema robusto se degrada con elegancia en lugar de fallar por completo cuando algunos componentes no funcionan a la perfección. Esta redundancia también permite el reconocimiento invariante, es decir, el reconocimiento de patrones a pesar de las variaciones en la forma en que se presentan.
(Nota breve: el equilibrio entre redundancia y robustez plantea retos que Kurzweil podría no haber previsto. La redundancia puede darse en la arquitectura de la red (cuando distintas partes aprenden a hacer lo mismo), en las representaciones de los datos (cuando la misma información se almacena varias veces) y en los propios parámetros del sistema. Demasiada redundancia puede perjudicar el rendimiento, malgastar recursos informáticos y dificultar la comprensión de por qué los sistemas toman decisiones concretas. Esto enlaza con los debates actuales sobre si los modelos de IA deben seguir creciendo o si existen enfoques más eficientes. Los investigadores intentan identificar y reducir la redundancia excesiva sin perder las ventajas que Kurzweil señaló).
Aprendizaje continuo
El aprendizaje continuo permite al sistema adaptarse y mejorar en función de la experiencia sin perder los conocimientos adquiridos previamente. Los nuevos patrones deben integrarse perfectamente en las jerarquías existentes, y el sistema debe optimizar automáticamente cómo asigna sus recursos de reconocimiento de patrones en función de la frecuencia e importancia de los distintos patrones.
(Nota breve: los sistemas de IA actuales tienen dificultades para el aprendizaje continuo. La mayoría de los sistemas de IA sufren de "olvido catastrófico": cuando aprenden algo nuevo, a menudo pierden la información aprendida anteriormente. Por ejemplo, si entrenas a un sistema de IA que reconoce gatos para que también reconozca perros, de repente puede empeorar en el reconocimiento de gatos. Los investigadores están desarrollando soluciones como los "algoritmos de ruta funcionalmente invariante", que permiten a las redes aprender nuevas tareas encontrando rutas a través del espacio de parámetros de la red que no interfieran con la información aprendida previamente. Pero averiguar cómo construir una IA que logre este tipo de aprendizaje flexible y continuo sigue siendo un área activa de investigación).
Evolución de los sistemas de IA
Kurzweil explica que los primeros intentos serios de construir sistemas similares al cerebro comenzaron con las redes neuronales artificiales en los años cincuenta. Las primeras redes neuronales demostraron que unidades de procesamiento sencillas conectadas en red podían aprender a reconocer patrones. El perceptrón Mark I de Frank Rosenblatt, que Kurzweil conoció cuando era estudiante, consistía en neuronas artificiales con pesos de conexión ajustables que podían entrenarse mediante retroalimentación. Aunque estas redes podían aprender a distinguir entre distintas categorías de entradas, sus limitaciones se hicieron evidentes cuando los investigadores intentaron ampliarlas para manejar la complejidad del mundo real.
El problema más importante era el reconocimiento invariante, es decir, la capacidad de reconocer el mismo patrón a pesar de los cambios de tamaño, posición, rotación o estilo. Una red neuronal entrenada para reconocer la letra "A" en un tipo y tamaño de letra a menudo no reconocía la misma letra en un contexto diferente. Estos primeros sistemas también requerían un entrenamiento exhaustivo y seguían rindiendo mal en tareas que a los humanos les parecían sencillas. El campo de las redes neuronales se estancó durante casi dos décadas después de que Marvin Minsky y Seymour Papert demostraran las limitaciones matemáticas de las redes que existían en aquel momento, una crítica que acabó con la financiación de la investigación en redes neuronales hasta la década de 1980.
El gran avance de Kurzweil: los modelos de Markov ocultos jerárquicos
La principal aportación de Kurzweil a la inteligencia artificial fue el desarrollo de modelos jerárquicos ocultos de Markov (HHMM) para el reconocimiento del habla en los años ochenta. (El término "oculto" se refiere al hecho de que el sistema debe inferir los patrones jerárquicos en el cerebro de un hablante basándose únicamente en los sonidos del habla que escucha, mientras que los patrones reales permanecen "ocultos" dentro de la mente del hablante). Los HHMM resolvieron los problemas que obstaculizaban los sistemas de IA anteriores combinando la organización jerárquica con el reconocimiento probabilístico de patrones y el tratamiento eficaz de los datos.
Kurzweil reconoció que el cerebro no procesa toda la información sensorial que recibimos, sino que extrae las características esenciales de esa información. Esta idea le llevó a utilizar la cuantización vectorial, una técnica para simplificar datos complejos conservando los detalles clave. La cuantización vectorial es como crear un mapa simplificado que capte las características esenciales de un terreno complejo: Se pierden algunos detalles, pero se conserva lo necesario para la navegación.
Para el reconocimiento del habla, esto significaba convertir la complejidad acústica del habla en patrones que captaran lo necesario para la comprensión del lenguaje. Kurzweil organizó estos patrones jerárquicamente, con niveles inferiores que reconocían fonemas (las unidades sonoras básicas del lenguaje), que se combinaban en palabras, que se combinaban en frases y oraciones. El sistema funcionaba de forma probabilística: Calculaba la probabilidad de que estuvieran presentes determinados patrones y tomaba decisiones basadas en esas probabilidades, en lugar de exigir una coincidencia perfecta, del mismo modo que el cerebro reconoce el habla incluso cuando las palabras están parcialmente oscurecidas por el ruido de fondo.
Prueba de concepto: Watson y los sistemas modernos
Cuando Kurzweil escribió su libro, varios sistemas habían demostrado que estos principios pueden funcionar a escalas impresionantes. Watson, de IBM, que derrotó a los campeones humanos de Jeopardy! en 2011, puso en práctica muchas de las ideas clave de Kurzweil: En lugar de basarse en un único enfoque, Watson combinó cientos de módulos especializados de reconocimiento de patrones. Cada módulo aportaba a las preguntas respuestas ponderadas en función de la confianza, y el sistema aprendía a confiar en distintos módulos para distintos tipos de problemas. Y lo que es más importante, Watson aprendió la mayor parte de sus conocimientos leyendo documentos en lenguaje natural en lugar de programarse con hechos, lo que demuestra que los sistemas jerárquicos de reconocimiento de patrones pueden adquirir amplios conocimientos a través de la experiencia.
Del mismo modo, los sistemas de reconocimiento del habla que desarrollaron las empresas de Kurzweil han evolucionado hasta convertirse en tecnologías como Siri y Google Voice Search, demostrando que los HHMM pueden manejar el procesamiento del lenguaje del mundo real a escala de consumidor. Estos sistemas realizan tareas que décadas atrás parecían imposibles: entender el habla natural de distintos hablantes, con distintos acentos, ruido de fondo e imperfecciones gramaticales.
| Cómo ha evolucionado la IA de reconocimiento del lenguaje Una aplicación reciente de la tecnología de reconocimiento del lenguaje suena a ciencia ficción: la traducción en tiempo real que permite entender idiomas extranjeros al instante. La traducción automática moderna lo ha conseguido mediante enfoques fundamentalmente distintos de los que Kurzweil celebró en Watson de IBM y las primeras versiones de Siri. Los métodos jerárquicos como el de Kurzweil representaban un enfoque estadístico: procesar el lenguaje calculando probabilidades y construyendo la comprensión por capas. Watson, por ejemplo, seguía elaborados algoritmos basados en reglas para guiar lo que hacía con su comprensión jerárquica. En su lugar, el campo ha cambiado a enfoques neuronales: el uso de redes neuronales para procesar frases enteras a la vez. En lugar de dividir el lenguaje en componentes y volver a ensamblarlos, las redes neuronales aprenden las relaciones contextuales entre los idiomas mediante el análisis de cantidades masivas de texto bilingüe. Un artículo de 2018 combinó estos enfoques mediante la creación de modelos neuronales ocultos de Markov, esencialmente hibridando el enfoque jerárquico de Kurzweil con el aprendizaje de redes neuronales. Aunque este enfoque híbrido logró un rendimiento comparable al de los sistemas neuronales puros, demostró que el reconocimiento jerárquico de patrones no era necesario para una traducción eficaz. En los años siguientes, el campo ha evolucionado hacia métodos neuronales puros, como los de Google Translate, la traducción en directo de los AirPods de Apple e incluso el traductor de idiomas Watson de IBM. |
Profundice en la visión de Ray Kurzweil sobre la inteligencia artificial
Si podemos construir máquinas que piensen utilizando los mismos principios que las mentes humanas, ¿qué significa esto para la conciencia, la identidad y el futuro de la inteligencia? Para profundizar en estas cuestiones y en los puntos de vista de Ray Kurzweil sobre la IA, lea las guías de Shortform sobre los dos libros de los que proceden estas ideas: