* Por Jean Remi King, Charlotte Caucheteux, Théo Desbordes e Alexandre Défossez
A inteligência artificial (IA) fez progressos impressionantes nos últimos anos, mas ainda está longe de aprender a linguagem de forma tão eficiente quanto os humanos. Por exemplo, bastam alguns exemplos para que as crianças aprendam que “laranja” pode se referir tanto a uma fruta quanto a uma cor. No entanto, os sistemas de IA não conseguem atingir esse entendimento de forma tão eficiente quanto as pessoas. Isso fez com que muitos pesquisadores se perguntassem: estudar o cérebro humano pode ajudar a desenvolver sistemas de IA capazes de aprender e raciocinar como as pessoas?
Hoje, a Meta AI está anunciando uma pesquisa de longo prazo para entender melhor como o cérebro humano processa a linguagem. Juntamente com os centros de neuroimagem NeuroSpin (CEA) e INRIA, estamos comparando como os modelos de linguagem de IA e o cérebro respondem às mesmas frases faladas ou escritas. Usaremos as análises desse trabalho para orientar o desenvolvimento de uma IA capaz de processar a fala e o texto de forma tão eficiente quanto os humanos. Nos últimos dois anos, usamos técnicas de aprendizado profundo em conjuntos de dados de neuroimagem públicos para analisar como o cérebro processa palavras e frases.
Os conjuntos de dados foram coletados e compartilhados por diversas instituições acadêmicas, incluindo o Instituto Max Planck de Psicolinguística e a Universidade de Princeton. Cada instituição coletou e compartilhou os conjuntos de dados com o consentimento informado dos voluntários. Isso foi feito de acordo com as políticas legais aprovadas pelos seus respectivos comitês de ética, incluindo o consentimento obtido dos participantes do estudo.
Nossa comparação entre cérebros e modelos de linguagem já gerou insights valiosos:
- Os modelos de linguagem que mais se aproximam da atividade cerebral são aqueles que melhor preveem a próxima palavra de acordo com o contexto (por exemplo, “era uma… vez”). A previsão baseada em entradas parcialmente observáveis está no cerne do aprendizado autossupervisionado na IA e pode ser fundamental na forma como as pessoas aprendem a linguagem.
- Contudo, descobrimos que regiões específicas do cérebro preveem palavras e ideias com muita antecedência, enquanto a maior parte dos modelos de linguagem atuais é normalmente treinada para antecipar a próxima palavra imediata. Explorar esse recurso de previsão de longo alcance pode ajudar a melhorar os modelos modernos de linguagem de IA.
Obviamente, isso é apenas o começo. Ainda há muito que não entendemos sobre como o cérebro funciona e a nossa pesquisa ainda está em andamento. Nossos colaboradores na NeuroSpin estão criando um conjunto de dados de neuroimagem para expandir essa pesquisa. Abriremos o conjunto de dados, os modelos de aprendizado profundo, o código e os artigos de pesquisa resultantes desse esforço para ajudar a estimular descobertas nas comunidades de neurociência e IA. Todo esse trabalho faz parte dos investimentos da Meta AI em inteligência artificial de nível humano que aprende com supervisão limitada ou inexistente.
Usando o aprendizado profundo para analisar sinais cerebrais complexos
Nosso trabalho faz parte de um esforço amplo da comunidade científica de usar a IA para melhor entender o cérebro. Historicamente, os neurocientistas enfrentam grandes limitações na análise de sinais cerebrais, sem falar nas dificuldades de compará-los com modelos de IA. Estudar a atividade neuronal e as imagens cerebrais é um processo que consome tempo e recursos. Por si só, a atividade neuronal (que geralmente é opaca e cheia de ruídos) exige um maquinário pesado para a sua análise. Além disso, elaborar experimentos de linguagem para mensurar as respostas cerebrais de maneira controlada também pode ser trabalhoso. Por exemplo, em estudos de linguagem clássica, as frases devem corresponder à complexidade e as palavras devem corresponder à frequência ou ao número de letras para permitir uma comparação significativa das respostas cerebrais.
O aumento do aprendizado profundo (em que várias camadas de redes neurais funcionam juntas para aprender) está rapidamente aliviando esses problemas. Essa abordagem destaca onde e quando as representações perceptivas de palavras e frases são geradas no cérebro quando um voluntário lê ou ouve uma história.
Os sistemas de aprendizado profundo requerem vários dados para garantir a precisão. Os estudos de ressonância magnética funcional (RMF) capturam apenas alguns instantes das atividades cerebrais, normalmente de uma amostra pequena. Para atender à alta quantidade de dados necessários para o aprendizado profundo, a nossa equipe modela milhares de exames cerebrais registrados a partir de conjuntos de dados públicos usando a RMF. Além disso, também os modela simultaneamente usando a magnetoencefalografia (MEG), um scanner que captura a atividade cerebral a cada milissegundo, sendo mais rápido que um piscar de olhos. Combinados, esses dispositivos de neuroimagem fornecem a maior parte dos dados necessários para detectar onde e em que ordem as ativações acontecem no cérebro. Isso é fundamental para analisar o algoritmo da cognição humana.
Em vários estudos, descobrimos que o cérebro é sistematicamente organizado em uma hierarquia bastante semelhante aos modelos de linguagem de IA (aqui, aqui e aqui). Por exemplo, os linguistas previram há muito tempo que o processamento da linguagem é caracterizado por uma sequência de cálculos sensoriais e lexicais, antes que as palavras possam ser combinadas em frases que façam sentido. Nossa comparação entre os modelos de linguagem profunda e o cérebro valida com precisão essa sequência de cálculos. Ao ler uma
palavra, o cérebro primeiro produz representações semelhantes a redes convolucionais profundas treinadas para reconhecer caracteres nos primeiros córtices visuais. Essas ativações cerebrais são então transformadas ao longo da hierarquia visual em representações lexicais semelhantes à incorporação de palavras. Por fim, uma rede cortical distribuída gera representações neurais que se correlacionam com as camadas intermediárias e finais dos modelos de linguagem profunda. As ferramentas de aprendizado profundo permitiram esclarecer a hierarquia do cérebro de maneiras que não eram possíveis antes.
Prevendo muito além da próxima palavra
Uma comparação sistemática entre dezenas de modelos de linguagem profunda mostra que, quanto melhor eles preveem palavras a partir do contexto, mais as suas representações se correlacionam com o cérebro. Descobrimos isso após analisar as ativações cerebrais de 200 voluntários em uma simples tarefa de leitura. Uma descoberta semelhante foi feita de forma independente por uma equipe do MIT com uma semana de diferença da nossa, validando ainda mais essa hipótese instigante. Esses estudos similares provam que a comunidade de IA está no caminho certo quanto ao uso do aprendizado autossupervisionado para o desenvolvimento da IA de nível humano.
Contudo, encontrar semelhanças não é suficiente para entender os princípios da compreensão da linguagem. As diferenças computacionais entre redes neurais biológicas e artificiais são fundamentais para melhorar os modelos existentes e criar novos modelos de linguagem mais inteligentes. Recentemente, descobrimos evidências de previsões de longo alcance no cérebro, que é uma habilidade que ainda desafia os modelos de linguagem atuais. Por exemplo, considere a frase “Era uma …”. A maior parte dos modelos de linguagem hoje normalmente preveria a próxima palavra como sendo “vez”. Entretanto, a capacidade de antecipar ideias, tramas e narrativas complexas (como as pessoas fazem) ainda é limitada.
Para explorar essa questão, juntamente com a INRIA, comparamos uma variedade de modelos de linguagem com as respostas cerebrais de 345 voluntários, que ouviram narrativas complexas enquanto eram gravados com a RMF. Aprimoramos esses modelos com previsões de longo alcance para rastrear as previsões no cérebro. Nossos resultados mostram que regiões específicas do cérebro, como os córtices pré-frontal e parietal, são melhor explicadas por modelos de linguagem aprimorados com representações profundas de palavras futuras que não são imediatas. Esses resultados elucidam a organização computacional do cérebro humano e a sua natureza inerentemente preditiva. Além disso, eles abrem o caminho para aprimorar os modelos de IA atuais.
Rumo a uma inteligência artificial com linguagem de nível humano
No geral, esses estudos dão suporte a uma possibilidade interessante de que existem, de fato, semelhanças quantificáveis entre cérebros e modelos de IA. Tais semelhanças podem ajudar a gerar novas análises sobre como o cérebro funciona. Essa teoria abre novos caminhos, onde a neurociência guiará o desenvolvimento de uma IA mais inteligente e, por sua vez, a IA ajudará a desvendar os mistérios do cérebro.