De acordo com Ray Kurzweil, a IA atingirá o nível de inteligência humana até 2029. Ele fez essa previsão ousada em seu livro de 2005, The Singularity Is Near (A Singularidade Está Próxima). Na época, muitos consideraram essa linha do tempo extremamente otimista. Mas, a cada ano que passa, sua visão parece menos com ficção científica e mais com uma realidade que se aproxima.
Kurzweil não apenas previu o futuro da IA - ele ajudou a construí-lo. Suas descobertas lançaram as bases para as tecnologias que usamos todos os dias. Suas ideias sobre como projetar mentes artificiais moldaram toda uma geração de pesquisas sobre IA. Continue lendo para descobrir como os insights de Kurzweil sobre IA que ele compartilhou em A Singularidade Está Próxima e How to Create a Mind (2012) estão nos aproximando de máquinas que realmente pensam.
Crédito da imagem: Wikimedia Commons(licença). Imagem cortada.
Índice
A visão de Ray Kurzweil sobre IA
De acordo com Ray Kurzweil, a IA - especialmente a IA forte - transformará o mundo como o conhecemos. "IA forte" refere-se ao estado em que os computadores reproduzirão e excederão todos os aspectos da inteligência humana, inclusive a obtenção do pensamento consciente. Kurzweil descreve as medidas que já tomamos para replicar digitalmente o pensamento humano, as maneiras pelas quais a inteligência das máquinas é objetivamente melhor do que a inteligência humana e o cenário que ele prevê para o desenvolvimento da IA em nível humano.
(Nota breve: Kurzweil descreve dois níveis de IA, mas os engenheiros de software agora os dividem em três: estreita, geral e forte. A década de 2020 foi marcada por melhorias notáveis na IA estreita, ou "fraca", definida como algoritmos treinados para realizar tarefas específicas, como chatbots que imitam conversas humanas ou sistemas de direção autônoma em carros. Em contrapartida, a IA geral será capaz de imitar a própria mente humana em termos de aprendizado e compreensão, e talvez até mesmo de consciência. A IA forte, ou "super", será o nível de inteligência artificial que excede as capacidades da mente humana e pode pensar de maneiras que nem sequer podemos imaginar. Alguns cientistas da computação, inclusive Kurzweil, consideram que a IA geral e a IA forte são essencialmente a mesma coisa).
Atualmente, já dependemos de uma IA restrita para muitas tarefas baseadas no pensamento que os humanos costumavam realizar, como projetar edifícios, fazer previsões de mercado e pesquisar dados em milhões de documentos arquivados. Esses programas de IA poderosos, embora limitados, vêm em uma variedade de modelos - sistemas especializados baseados na lógica e na experiência humanas, calculadoras de probabilidade que fazem previsões com base em ocorrências passadas e redes neurais que simulam o processo de aprendizado do próprio cérebro humano. Com cada um desses sistemas, Kurzweil diz que aprendemos que a capacidade das máquinas de imitar as habilidades humanas vai de fraca a superior em um curto espaço de tempo. Os computadores aprendem muito rápido.
(Nota breve: Historicamente, os computadores estão no caminho descrito por Kurzweil há algum tempo. Em especial, a década de 1950 marcou os primeiros passos em direção à verdadeira inteligência artificial. Em 1951, Marvin Minsky e Dean Edmonds construíram um computador simulando um grupo de 40 neurônios que foi programado para resolver labirintos por meio de um algoritmo de aprendizado. Alguns anos depois, em 1955, Herbert Simon, Allen Newell e Cliff Shaw desenvolveram um programa chamado Logic Theorist, capaz de resolver teoremas matemáticos usando lógica simbólica, além da mera computação numérica. Por volta dessa mesma época, o cientista da computação John McCarthy introduziu a expressão "inteligência artificial" para descrever esses sistemas e no que eles podem evoluir).
O caminho para uma IA robusta
A velocidade não é o único aspecto em que a inteligência das máquinas pode nos superar facilmente. Os computadores compartilham informações com mais facilidade do que os seres humanos, podem se conectar para aumentar o poder de computação e sua recuperação de informações é muito mais precisa do que a memória humana. Mas como saberemos quando uma IA forte foi alcançada? Kurzweil define o nível em que os computadores podem realmente compreender a linguagem humana em vez de apenas imitar a compreensão. Analisando os avanços na capacidade computacional, no armazenamento de memória, no reconhecimento de padrões e nas simulações neurais, Kurzweil prevê a chegada da IA forte em nível humano por volta do ano 2029. Essa continua sendo sua posição pública, confirmada em 2024 com o lançamento de seu novo livro, A Singularidade está mais próxima.
(Nota breve: Embora os primeiros Modelos de Linguagem Ampla (LLMs), como o ChatGPT, fossem frequentemente descritos como meramente calculando a próxima palavra mais provável, o rápido avanço em sua capacidade generalista e habilidades de raciocínio emergentes intensificou o debate. Embora os críticos ainda argumentem que eles não têm consciência verdadeira ou contexto do mundo real, a sofisticação da IA moderna levou um número crescente de especialistas a considerar esses modelos muito mais próximos da Inteligência Artificial Geral (AGI) - o termo mais frequentemente usado de forma intercambiável com a "IA forte" de Kurzweil - do que se pensava anteriormente, dando mais credibilidade à linha do tempo de 2029 de Kurzweil).
O perigo inerente à criação de uma IA forte é que uma consciência de máquina superior à nossa será praticamente impossível de controlar. Isso levou alguns futuristas a especular que a primeira IA forte criará imediatamente IAs ainda mais poderosas do que ela, mas Kurzweil discorda. Em vez disso, ele acredita que haverá um estágio de "crescimento" durante o qual a IA expandirá sua base de conhecimento. Depois disso, em vez de substituir os humanos, a IA se tornará uma ferramenta para expandir o pensamento humano à medida que aprendermos a aumentar diretamente nossos cérebros com a inteligência da máquina.
| A IA no local de trabalho Apesar do otimismo de Kurzweil, o equilíbrio entre a assistência da IA e a substituição de seres humanos tornou-se um tema quente em quase todos os campos de trabalho e não é mais um problema meramente teórico. As máquinas têm o benefício de reduzir o trabalho pesado e liberar as pessoas para tarefas mais criativas, mas a IA tem o potencial de assumir o controle de trabalhos que exigem habilidades analíticas e decisões baseadas em dados. Assim como outras revoluções tecnológicas, o advento da IA resultará na reciclagem da força de trabalho, pois os empregos serão substituídos por computadores ou exigirão habilidades diferentes para usar as ferramentas de IA. Até mesmo as ciências humanas são afetadas pela IA, pois algumas revistas se fecharam para novos autores devido a uma enxurrada de histórias geradas por chatbots. Enquanto isso, a Marvel Studios foi criticada por usar arte gerada por IA em um de seus programas de TV. Embora a IA tenha se tornado essencial para os negócios ao simplificar o trabalho e aumentar a eficiência, alguns especialistas estão preocupados com o fato de a IA treinada por humanos ampliar o viés sistêmico se ela tiver liberdade para tomar decisões. |
Construindo um cérebro: O projeto biológico
Kurzweil argumenta que o caminho para uma IA forte requer aprender como o cérebro humano funciona e duplicar suas funções cognitivas eletronicamente. Nosso progresso acelerado no poder da computação torna a reprodução das funções cerebrais mais fácil a cada ano - umcérebro digital não é apenas possível, mas pode ser inevitável. Discutiremos os avanços na pesquisa do cérebro, como eles se aplicam aos modelos de computação e como, se os computadores puderem simular cérebros, um dia você poderá carregar toda a sua mente no mundo digital.
Historicamente, as ferramentas médicas que usamos para analisar e entender o cérebro eram rudimentares, mas, como todas as outras tecnologias modernas, elas estão melhorando em um ritmo acelerado. Agora é possível fazer imagens de um cérebro em funcionamento até o nível de neurônios individuais. Kurzweil diz que os modelos de computador do cérebro também estão melhorando em um ritmo fenomenal. Embora o cérebro seja extremamente complexo, com trilhões de conexões neurais, há muita redundância embutida. Um modelo computacional eficaz de um cérebro não precisa simular o disparo de todos os neurônios, e já fizemos um progresso notável ao modelar algumas das regiões específicas do cérebro.
Kurzweil admite que a principal vantagem do cérebro em relação aos computadores digitais é que ele é maciçamente eleestabelece inúmeros caminhos neurais para resolver qualquer problema, todos ao mesmo tempo, em oposição à abordagem mais linear adotada pela computação tradicional. Isso mais do que compensa a transmissão química de dados relativamente lenta dos neurônios. Entretanto, o hardware para processamento paralelo rápido está se tornando rapidamente disponível para computadores digitais. Outra vantagem do cérebro humano é que, por meio da neuroplasticidade, ele pode reorganizar suas conexões e se adaptar, algo que os computadores físicos não podem fazer. No entanto, Kurzweil insiste que a capacidade do cérebro de se adaptar e se reordenar pode ser tratada no âmbito do software, se não do hardware.
Da teoria à prática: Engenharia de Mentes Artificiais
A percepção de Kurzweil de que a inteligência emerge de estruturas simples e repetidas o leva a concluir que criar mentes artificiais é apenas um desafio de engenharia. Não precisamos duplicar a complexidade biológica do cérebro; precisamos apenas implementar seus princípios algorítmicos. O neocórtex nos forneceu um modelo, e cada característica que identificamos se traduz em requisitos específicos de engenharia: A estrutura uniforme sugere que precisamos de muitas unidades de processamento idênticas. A plasticidade significa que essas unidades devem adaptar suas conexões com base na experiência. A integração com sistemas motivacionais implica que precisamos de aprendizado orientado por objetivos. O aprendizado contínuo exige sistemas que possam atualizar seus conhecimentos sem perder habilidades.
(Nota breve: Enquanto Kurzweil argumenta que a criação de mentes artificiais requer a cópia do projeto do cérebro, alguns pesquisadores de IA, como Yoshua Bengio, adotam uma abordagem diferente, argumentando que devemos modelar determinados aspectos da função cerebral e ignorar outros. A complexidade do cérebro pode ser impossível de ser totalmente reproduzida: Os neurônios reais são muito mais complexos do que os circuitos digitais, envolvendo efeitos quânticos, processos contínuos em vez de discretos e dinâmicas biológicas que não podem ser perfeitamente simuladas em computadores digitais. Alguns pesquisadores argumentam que isso significa que devemos abandonar totalmente a meta de copiar cérebros e, em vez disso, nos concentrar em descobrir novas maneiras de criar inteligência que funcione de forma diferente dos sistemas biológicos).
Por meio de seu trabalho no desenvolvimento de modelos hierárquicos ocultos de Markov e na análise do cérebro humano, Kurzweil identificou quatro requisitos para que um sistema de computador alcance o reconhecimento de padrões em nível humano.
Auto-organização hierárquica
A auto-organização hierárquica significa que o sistema organiza automaticamente os reconhecedores de padrões em níveis sem programação explícita. Os padrões simples se combinam naturalmente para formar padrões mais complexos, que se combinam para formar conceitos ainda mais abstratos. Essa organização emerge do processo de aprendizado em vez de ser imposta pelos programadores.
(Nota breve: A auto-organização na IA evoluiu além da visão de Kurzweil. Enquanto as redes neurais básicas se auto-organizam ajustando automaticamente suas conexões internas durante o treinamento, a "IA agêntica" vai muito além. Esses sistemas consistem em vários modelos de IA separados que se coordenam entre si, usando ferramentas diferentes, comunicando-se entre si, criticando o trabalho um do outro e reorganizando sua colaboração com base no que aprenderam. No entanto, essa flexibilidade tem custos: Cada interação entre os agentes exige uma computação cara, e os sistemas podem desenvolver comportamentos difíceis de controlar ou entender).
Expectativa e previsão
A expectativa e a previsão exigem que os padrões de nível superior enviem sinais para os níveis inferiores, tornando-os mais sensíveis às entradas esperadas. Esse processamento de cima para baixo é tão crucial quanto o reconhecimento de baixo para cima para alcançar um desempenho semelhante ao humano - assim como o seu cérebro o prepara para esperar determinadas palavras ao ler uma frase.
(Nota breve: O desenvolvimento moderno da IA valida a ênfase de Kurzweil na previsão, mas de maneiras surpreendentemente simples. Grandes modelos de linguagem, como o ChatGPT, funcionam prevendo a próxima palavra em uma sequência. Durante o treinamento, eles aprendem a reconhecer padrões praticando essa tarefa de previsão milhões de vezes em vastos conjuntos de dados. Depois de treinados, eles usam esses padrões aprendidos para escrever redações, responder a perguntas e gerar códigos. Mas esses sistemas ainda não têm os recursos de simulação multidimensionais e ricos que os seres humanos têm - por exemplo, eles podem prever textos sobre física, mas não têm a compreensão intuitiva que os seres humanos adquirem com nossa experiência vivida com objetos que se movem pelo espaço).
Redundância e robustez
Redundância e robustez significam que os padrões importantes são armazenados várias vezes em diferentes reconhecedores, permitindo um reconhecimento confiável apesar de entradas parciais ou distorcidas. Um sistema robusto se degrada graciosamente em vez de falhar completamente quando alguns componentes não funcionam perfeitamente. Essa redundância também permite o reconhecimento invariante - reconhecendo padrões apesar das variações na forma como são apresentados.
(Nota breve: O equilíbrio entre redundância e robustez apresenta desafios que Kurzweil talvez não tenha previsto. A redundância pode ocorrer na arquitetura da rede (quando partes diferentes aprendem a fazer a mesma coisa), nas representações de dados (quando a mesma informação é armazenada várias vezes) e nos próprios parâmetros do sistema. O excesso de redundância pode prejudicar o desempenho, desperdiçar recursos computacionais e dificultar a compreensão do motivo pelo qual os sistemas tomam decisões específicas. Isso está relacionado aos debates em andamento sobre se os modelos de IA precisam ficar cada vez maiores ou se há abordagens mais eficientes. Os pesquisadores estão tentando identificar e reduzir a redundância excessiva e, ao mesmo tempo, manter os benefícios identificados por Kurzweil).
Aprendizagem contínua
O aprendizado contínuo permite que o sistema se adapte e melhore com base na experiência sem perder o conhecimento adquirido anteriormente. Novos padrões devem se integrar perfeitamente às hierarquias existentes, e o sistema deve otimizar automaticamente a alocação de seus recursos de reconhecimento de padrões com base na frequência e na importância de diferentes padrões.
(Nota breve: os sistemas de IA atuais têm dificuldades com o aprendizado contínuo. A maioria dos sistemas de IA sofre de "esquecimento catastrófico" - quando aprendem algo novo, geralmente perdem as informações aprendidas anteriormente. Por exemplo, se você treinar um sistema de IA que reconhece gatos para também reconhecer cachorros, ele poderá ficar pior no reconhecimento de gatos. Os pesquisadores estão desenvolvendo soluções como os "algoritmos de caminho funcionalmente invariável", que permitem que as redes aprendam novas tarefas encontrando caminhos no espaço de parâmetros da rede que não interfiram nas informações aprendidas anteriormente. Mas descobrir como criar uma IA que atinja esse tipo de aprendizado flexível e contínuo continua sendo uma área ativa de pesquisa).
A evolução dos sistemas de IA
Kurzweil explica que as primeiras tentativas sérias de criar sistemas semelhantes ao cérebro começaram com as redes neurais artificiais na década de 1950. As primeiras redes neurais mostraram que unidades de processamento simples conectadas em redes podiam aprender a reconhecer padrões. O Mark I Perceptron de Frank Rosenblatt, que Kurzweil conheceu quando era estudante, consistia em neurônios artificiais com pesos de conexão ajustáveis que podiam ser treinados por meio de feedback. Embora essas redes pudessem aprender a distinguir entre diferentes categorias de entrada, suas limitações ficaram evidentes quando os pesquisadores tentaram ampliá-las para lidar com a complexidade do mundo real.
O problema mais significativo era o reconhecimento invariante - a capacidade de reconhecer o mesmo padrão apesar das mudanças de tamanho, posição, rotação ou estilo. Uma rede neural treinada para reconhecer a letra "A" em uma fonte e tamanho geralmente não reconhecia a mesma letra em um contexto diferente. Esses primeiros sistemas também exigiam treinamento extensivo e ainda tinham um desempenho ruim em tarefas que pareciam fáceis para os seres humanos. O campo das redes neurais ficou estagnado por quase duas décadas depois que Marvin Minsky e Seymour Papert demonstraram as limitações matemáticas das redes que existiam na época, uma crítica que efetivamente eliminou o financiamento para a pesquisa de redes neurais até a década de 1980.
A inovação de Kurzweil: modelos hierárquicos ocultos de Markov
A principal contribuição de Kurzweil para a inteligência artificial foi o desenvolvimento de modelos hierárquicos ocultos de Markov (HHMMs) para reconhecimento de fala na década de 1980. (O termo "oculto" refere-se ao fato de que o sistema deve inferir os padrões hierárquicos no cérebro de um falante com base apenas nos sons da fala que ouve, enquanto os padrões reais permanecem "ocultos" na mente do falante). Os HHMMs solucionaram os problemas que impediam os sistemas de IA anteriores, combinando a organização hierárquica com o reconhecimento de padrões probabilísticos e o manuseio eficiente de dados.
Kurzweil reconheceu que o cérebro não processa todas as informações sensoriais que recebemos, mas extrai os recursos essenciais dessas informações. Essa percepção o levou a usar a quantização vetorial, uma técnica para simplificar dados complexos e, ao mesmo tempo, preservar os principais detalhes. Pense na quantização vetorial como a criação de um mapa simplificado que captura os recursos essenciais de um terreno complexo: Você perde alguns detalhes, mas mantém o que é necessário para a navegação.
Para o reconhecimento de fala, isso significava converter a complexidade acústica da fala em padrões que capturassem o que é necessário para a compreensão da linguagem. Kurzweil organizou esses padrões hierarquicamente, com níveis mais baixos reconhecendo fonemas (as unidades básicas de som da linguagem), que se combinavam em palavras, que se combinavam em frases e sentenças. O sistema operava de forma probabilística: Ele calculava a probabilidade de que determinados padrões estivessem presentes e tomava decisões com base nessas probabilidades, em vez de exigir uma correspondência perfeita, assim como seu cérebro reconhece a fala mesmo quando as palavras estão parcialmente obscurecidas pelo ruído de fundo.
Prova de conceito: Watson e sistemas modernos
Na época em que Kurzweil escreveu seu livro, vários sistemas demonstraram que esses princípios podem funcionar em escalas impressionantes. O Watson da IBM, que derrotou os campeões humanos do Jeopardy! em 2011, implementou muitos dos principais insights de Kurzweil: Em vez de confiar em uma única abordagem, o Watson combinou centenas de módulos especializados de reconhecimento de padrões. Cada módulo contribuiu com respostas ponderadas de confiança para as perguntas, com o sistema aprendendo a confiar em diferentes módulos para diferentes tipos de problemas. Crucialmente, o Watson aprendeu a maior parte de seu conhecimento lendo documentos de linguagem natural em vez de ser programado com fatos, mostrando que os sistemas hierárquicos de reconhecimento de padrões podem adquirir amplo conhecimento por meio da experiência.
Da mesma forma, os sistemas de reconhecimento de fala que as empresas de Kurzweil desenvolveram evoluíram para tecnologias como Siri e Google Voice Search, mostrando que os HHMMs podem lidar com o processamento de linguagem do mundo real em escala de consumo. Esses sistemas executam rotineiramente tarefas que pareceriam impossíveis décadas atrás: compreender a fala natural de diversos falantes, com vários sotaques, ruídos de fundo e imperfeições gramaticais.
| Como a IA de reconhecimento de idiomas evoluiu Uma aplicação recente da tecnologia de reconhecimento de idiomas parece ficção científica: a tradução em tempo real que permite que você entenda idiomas estrangeiros instantaneamente. A tradução automática moderna alcançou esse objetivo por meio de abordagens fundamentalmente diferentes das que Kurzweil celebrou no Watson da IBM e nas primeiras versões da Siri. Os métodos hierárquicos, como os de Kurzweil, representavam uma abordagem estatística: processar a linguagem calculando probabilidades e construindo a compreensão em camadas. O Watson, por exemplo, seguia algoritmos elaborados baseados em regras para orientar o que fazia com sua compreensão hierárquica. Em vez disso, o campo mudou para abordagens neurais: usando redes neurais para processar frases inteiras de uma só vez. Em vez de dividir a linguagem em componentes e remontá-los, as redes neurais aprendem relações contextuais entre idiomas analisando grandes quantidades de texto bilíngue. Um artigo de 2018 combinou essas abordagens criando modelos neurais ocultos de Markov, essencialmente hibridizando a abordagem hierárquica de Kurzweil com o aprendizado de redes neurais. Embora essa abordagem híbrida tenha alcançado um desempenho comparável ao dos sistemas neurais puros, ela mostrou que o reconhecimento de padrões hierárquicos não era necessário para uma tradução eficaz. Desde então, o campo tem se movido amplamente em direção a métodos neurais puros, como aqueles que alimentam o Google Translate, a tradução ao vivo da Apple nos AirPods e até mesmo o Watson Language Translator da IBM. |
Explore mais as visões de IA de Ray Kurzweil
Se pudermos construir máquinas que pensam usando os mesmos princípios das mentes humanas, o que isso significa para a consciência, a identidade e o futuro da inteligência? Para explorar essas questões e os pontos de vista de Ray Kurzweil sobre IA de forma mais completa, leia os guias do Shortform sobre os dois livros de onde essas ideias vieram: