Inicio " Ciencia y tecnología " Modelos de Markov ocultos jerárquicos

Modelos de Markov ocultos jerárquicos: El gran avance de Ray Kurzweil

Una representación artística de ondas sonoras y un cerebro ilustra los modelos jerárquicos ocultos de Markov (HHMM)

En la década de 1980, Ray Kurzweil resolvió un problema que había dejado perplejos a los investigadores de IA durante años: cómo hacer que los ordenadores entendieran el habla humana. Su solución fueron los modelos jerárquicos de Markov oculto (HHMM), un sistema que imita cómo el cerebro procesa el sonido capa por capa, haciendo conjeturas en cada paso.

El avance no se limitó al reconocimiento de voz. Reveló algo más profundo sobre la propia inteligencia: Los sistemas inteligentes no procesan todo lo que encuentran. Sigue leyendo para descubrir cómo las ideas de Kurzweil dieron forma a los asistentes de inteligencia artificial que usamos hoy en día y qué nos dicen sobre la naturaleza del pensamiento.

Modelos de Markov ocultos jerárquicos

La principal aportación de Kurzweil a la inteligencia artificial fue el desarrollo de modelos jerárquicos ocultos de Markov (HHMM) para el reconocimiento del habla en los años ochenta. (El término "oculto" se refiere al hecho de que el sistema debe inferir los patrones jerárquicos en el cerebro de un hablante basándose únicamente en los sonidos del habla que escucha, mientras que los patrones reales permanecen "ocultos" dentro de la mente del hablante). Los HHMM resolvieron los problemas que obstaculizaban los sistemas de IA anteriores combinando la organización jerárquica con el reconocimiento probabilístico de patrones y el tratamiento eficaz de los datos.

(Nota breve: un HHMM es un sistema multicapa en el que cada capa representa un nivel de abstracción distinto, de simple a complejo. En el reconocimiento del habla, la capa inferior procesa las frecuencias de sonido en bruto, la siguiente identifica sonidos básicos como "th" o "ee", la siguiente los combina en palabras como "the" y las capas superiores forman frases y oraciones. Cada capa sólo puede "ver" lo que le dice la capa inmediatamente inferior: No puede acceder a la entrada original. La capa de las palabras no oye los sonidos reales, sino que sólo recibe los fonemas probables (unidades de sonido) transmitidos desde abajo. Esto significa que cada capa debe hacer conjeturas educadas sobre lo que realmente está ocurriendo basándose en información incompleta, como jugando al juego del teléfono a través de niveles crecientes de complejidad).

Kurzweil reconoció que el cerebro no procesa toda la información sensorial que recibimos, sino que extrae las características esenciales de esa información. Esta idea le llevó a utilizar la cuantización vectorial, una técnica para simplificar datos complejos conservando los detalles clave. La cuantización vectorial es como crear un mapa simplificado que capte las características esenciales de un terreno complejo: Se pierden algunos detalles, pero se conserva lo necesario para la navegación.

Para el reconocimiento del habla, esto significaba convertir la complejidad acústica del habla en patrones que captaran lo necesario para la comprensión del lenguaje. Kurzweil organizó estos patrones jerárquicamente, con niveles inferiores que reconocían fonemas (las unidades sonoras básicas del lenguaje), que se combinaban en palabras, que se combinaban en frases y oraciones. El sistema funcionaba de forma probabilística: Calculaba la probabilidad de que estuvieran presentes determinados patrones y tomaba decisiones basadas en esas probabilidades, en lugar de exigir una coincidencia perfecta, del mismo modo que el cerebro reconoce el habla incluso cuando las palabras están parcialmente oscurecidas por el ruido de fondo.

Cómo la cuantificación vectorial permite a la IA imitar la eficiencia del cerebro

La idea de Kurzweil sobre la extracción de características refleja un principio clave tanto de la función cerebral como de la IA: los sistemas inteligentes no procesan toda la información disponible, sino que extraen y comprimen los patrones más esenciales en representaciones escasas y eficientes. La cuantificación vectorial, la técnica utilizada por Kurzweil, agrupa patrones similares y representa cada grupo con un único punto, lo que reduce la complejidad de los datos al tiempo que preserva sus características más importantes.

Esto es paralelo a la forma en que los neurocientíficos creen que el cerebro reconoce patrones de forma eficiente: Sólo una pequeña fracción de neuronas se dispara en respuesta a una entrada concreta. Por ejemplo, cuando vemos la cara de una persona que reconocemos, nuestro cerebro no activa todas las neuronas relacionadas con la cara. En su lugar, activa un patrón de neuronas que capta lo que distingue a ese rostro concreto de los demás. Este patrón disperso es lo suficientemente único como para distinguir la cara utilizando muchos menos recursos de los que se necesitarían para procesar todos los rasgos faciales posibles.

Los estudios sobre la memoria de los expertos demuestran este principio en acción. Los ajedrecistas expertos pueden reconocer al instante patrones tácticos que serían invisibles para los principiantes, mientras que los músicos expertos identifican inmediatamente progresiones de acordes o estructuras melódicas que a los no músicos les costaría percibir. Esto se debe a que estos expertos han desarrollado representaciones neuronales dispersas y distribuidas que codifican eficazmente las características esenciales de esos patrones. Un principiante que observe la misma posición de ajedrez o escuche el mismo pasaje musical necesitaría procesar mucha más información porque su cerebro carece de estas representaciones especializadas.

HHMM ahora y en el futuro

Los sistemas de reconocimiento del habla que desarrollaron las empresas de Kurzweil han evolucionado hasta convertirse en tecnologías como Siri y Google Voice Search, demostrando que los modelos jerárquicos de Markov oculto pueden manejar el procesamiento del lenguaje del mundo real a escala de consumidor. Estos sistemas realizan tareas que décadas atrás parecían imposibles: entender el habla natural de distintos hablantes, con distintos acentos, ruido de fondo e imperfecciones gramaticales.

Esto plantea una pregunta: Si podemos construir máquinas que piensen utilizando los mismos principios que las mentes humanas, ¿qué significa esto para la conciencia, la identidad y el futuro de la inteligencia? Para profundizar en este tema, consulte la guía de Shortform sobre Cómo crear una mente.

Dejar una respuesta