Na década de 1980, Ray Kurzweil solucionou um problema que havia deixado os pesquisadores de IA perplexos durante anos: como fazer com que os computadores entendessem a fala humana. Sua solução foram os modelos hierárquicos ocultos de Markov (HHMMs), um sistema que imita a forma como o cérebro processa o som, camada por camada, fazendo suposições educadas em cada etapa.
A descoberta não se referia apenas ao reconhecimento de fala. Ela revelou algo mais profundo sobre a própria inteligência: Os sistemas inteligentes não processam tudo o que encontram. Continue lendo para descobrir como os insights de Kurzweil moldaram os assistentes de IA que usamos hoje - e o que eles nos dizem sobre a natureza do próprio pensamento.
Modelos hierárquicos ocultos de Markov
A principal contribuição de Kurzweil para a inteligência artificial foi o desenvolvimento de modelos hierárquicos ocultos de Markov (HHMMs) para reconhecimento de fala na década de 1980. (O termo "oculto" refere-se ao fato de que o sistema deve inferir os padrões hierárquicos no cérebro de um falante com base apenas nos sons da fala que ouve, enquanto os padrões reais permanecem "ocultos" na mente do falante). Os HHMMs solucionaram os problemas que impediam os sistemas de IA anteriores, combinando a organização hierárquica com o reconhecimento de padrões probabilísticos e o manuseio eficiente de dados.
(Nota breve: um HHMM é um sistema de várias camadas em que cada camada representa um nível diferente de abstração, do simples ao complexo. No reconhecimento de fala, a camada inferior processa frequências sonoras brutas, a camada seguinte identifica sons básicos, como "th" ou "ee", a camada seguinte os combina em palavras, como "the", e as camadas superiores formam frases e sentenças. Cada camada só pode "ver" o que a camada diretamente abaixo dela lhe diz: Ela não pode acessar a entrada original. A camada de palavras não ouve os sons reais; ela só recebe os fonemas prováveis (unidades de som) passados de baixo para cima. Isso significa que cada camada deve fazer suposições educadas sobre o que realmente está acontecendo com base em informações incompletas, como jogar o jogo do telefone em níveis crescentes de complexidade).
Kurzweil reconheceu que o cérebro não processa todas as informações sensoriais que recebemos, mas extrai os recursos essenciais dessas informações. Essa percepção o levou a usar a quantização vetorial, uma técnica para simplificar dados complexos e, ao mesmo tempo, preservar os principais detalhes. Pense na quantização vetorial como a criação de um mapa simplificado que captura os recursos essenciais de um terreno complexo: Você perde alguns detalhes, mas mantém o que é necessário para a navegação.
Para o reconhecimento de fala, isso significava converter a complexidade acústica da fala em padrões que capturassem o que é necessário para a compreensão da linguagem. Kurzweil organizou esses padrões hierarquicamente, com níveis mais baixos reconhecendo fonemas (as unidades básicas de som da linguagem), que se combinavam em palavras, que se combinavam em frases e sentenças. O sistema operava de forma probabilística: Ele calculava a probabilidade de que determinados padrões estivessem presentes e tomava decisões com base nessas probabilidades, em vez de exigir uma correspondência perfeita, assim como seu cérebro reconhece a fala mesmo quando as palavras estão parcialmente obscurecidas pelo ruído de fundo.
| Como a quantização vetorial permite que a IA imite a eficiência do cérebro O insight de Kurzweil sobre a extração de recursos reflete um princípio fundamental da função cerebral e da IA: os sistemas inteligentes não processam todas as informações disponíveis - eles extraem e comprimem os padrões mais essenciais em representações esparsas e eficientes. A quantização de vetores, técnica utilizada por Kurzweil, agrupa padrões semelhantes e representa cada grupo com um único ponto, reduzindo a complexidade dos dados e preservando os recursos mais importantes. Isso é um paralelo à forma como os neurocientistas acreditam que o cérebro reconhece padrões com eficiência: Apenas uma pequena fração dos neurônios dispara em resposta a uma determinada entrada. Por exemplo, quando você vê o rosto de uma pessoa que reconhece, seu cérebro não ativa todos os neurônios relacionados ao rosto. Em vez disso, ele ativa um padrão de neurônios que capta o que torna aquele rosto específico diferente de outros rostos. Esse padrão esparso é único o suficiente para que você possa distinguir o rosto usando muito menos recursos do que seria necessário para processar todas as características faciais possíveis. Estudos sobre a memória de especialistas demonstram esse princípio em ação. Jogadores de xadrez experientes podem reconhecer instantaneamente padrões táticos que seriam invisíveis para novatos, enquanto músicos experientes identificam imediatamente progressões de acordes ou estruturas melódicas que os não músicos teriam dificuldade de perceber. Isso se deve ao fato de esses especialistas terem desenvolvido representações neurais esparsas e distribuídas que codificam com eficiência os recursos essenciais desses padrões. Um novato que estivesse olhando para a mesma posição de xadrez ou ouvindo a mesma passagem musical precisaria processar muito mais informações porque seu cérebro não possui essas representações especializadas. |
HHMMs agora e no futuro
Os sistemas de reconhecimento de fala que as empresas de Kurzweil desenvolveram evoluíram para tecnologias como Siri e Google Voice Search, mostrando que os modelos hierárquicos ocultos de Markov podem lidar com o processamento de linguagem do mundo real em escala de consumo. Esses sistemas executam rotineiramente tarefas que pareciam impossíveis décadas atrás: compreender a fala natural de diversos falantes, em vários sotaques, com ruído de fundo e imperfeições gramaticais.
Isso levanta a questão: Se pudermos construir máquinas que pensam usando os mesmos princípios das mentes humanas, o que isso significa para a consciência, a identidade e o futuro da inteligência? Para explorar isso mais a fundo, confira o guia do Shortform sobre Como criar uma mente.