Crédito: CC0 Public Domain
En los últimos años, los modelos de lenguaje de inteligencia artificial se han vuelto muy buenos en ciertas tareas. En particular, sobresalen en la predicción de la siguiente palabra en una cadena de texto; esta tecnología ayuda a los motores de búsqueda y las aplicaciones de mensajes de texto a predecir la próxima palabra que escribirá.
La generación más reciente de modelos de lenguaje predictivo también parece aprender algo sobre el significado subyacente del lenguaje. Estos modelos no solo pueden predecir la palabra que viene a continuación, sino también realizar tareas que parecen requerir cierto grado de comprensión genuina, como responder preguntas, resumir documentos y completar historias.
Dichos modelos se diseñaron para optimizar el rendimiento de la función específica de predecir texto, sin intentar imitar nada sobre cómo el cerebro humano realiza esta tarea o entiende el lenguaje. Pero un nuevo estudio de neurocientíficos del MIT sugiere que la función subyacente de estos modelos se asemeja a la función de los centros de procesamiento del lenguaje en el cerebro humano.
Los modelos informáticos que funcionan bien en otros tipos de tareas del lenguaje no muestran esta similitud. al cerebro humano, ofreciendo evidencia de que el cerebro humano puede usar la predicción de la siguiente palabra para impulsar el procesamiento del lenguaje.
«Cuanto mejor es el modelo para predecir la siguiente palabra, más se ajusta al cerebro humano, «, dice Nancy Kanwisher, profesora de neurociencia cognitiva Walter A. Rosenblith, miembro del Instituto McGovern para la investigación del cerebro y del Centro para cerebros, mentes y máquinas (CBMM) del MIT, y autora del nuevo estudio. «Es sorprendente que los modelos se ajusten tan bien, y sugiere muy indirectamente que tal vez lo que hace el sistema de lenguaje humano es predecir lo que sucederá a continuación».
Joshua Tenenbaum, profesor de ciencia cognitiva computacional en MIT y miembro del CBMM y del Laboratorio de Inteligencia Artificial del MIT (CSAIL); y Evelina Fedorenko, profesora asociada de neurociencia Frederick A. and Carole J. Middleton Career Development y miembro del Instituto McGovern, son los autores principales del estudio, que aparece esta semana en las Actas de la Academia Nacional de Ciencias. Martin Schrimpf, un estudiante graduado del MIT que trabaja en CBMM, es el primer autor del artículo.
Hacer predicciones
Los nuevos modelos de predicción de la siguiente palabra de alto rendimiento pertenecen a un clase de modelos llamados redes neuronales profundas. Estas redes contienen «nodos» computacionales que forman conexiones de fuerza variable y capas que pasan información entre sí de maneras prescritas.
Durante la última década, los científicos han utilizado redes neuronales profundas para crear modelos de visión que puede reconocer objetos tan bien como lo hace el cerebro de los primates. La investigación en el MIT también ha demostrado que la función subyacente de los modelos de reconocimiento de objetos visuales coincide con la organización de la corteza visual de los primates, aunque esos modelos informáticos no fueron diseñados específicamente para imitar el cerebro.
En el nuevo estudio, el equipo del MIT utilizó un enfoque similar para comparar los centros de procesamiento del lenguaje en el cerebro humano con los modelos de procesamiento del lenguaje. Los investigadores analizaron 43 modelos de lenguaje diferentes, incluidos varios que están optimizados para la predicción de la siguiente palabra. Estos incluyen un modelo llamado GPT-3 (Generative Pre-trained Transformer 3), que, si se le solicita, puede generar un texto similar al que produciría un ser humano. Se diseñaron otros modelos para realizar diferentes tareas de lenguaje, como llenar un espacio en blanco en una oración.
Como a cada modelo se le presentó una cadena de palabras, los investigadores midieron la actividad de los nodos que forman el la red. Luego compararon estos patrones con la actividad en el cerebro humano, medidos en sujetos que realizan tres tareas de lenguaje: escuchar historias, leer oraciones de una en una y leer oraciones en las que se revela una palabra a la vez. Estos conjuntos de datos humanos incluían datos de resonancia magnética funcional (fMRI) y mediciones electrocorticográficas intracraneales tomadas en personas sometidas a cirugía cerebral por epilepsia.
Descubrieron que los modelos de predicción de la siguiente palabra con mejor rendimiento tenían patrones de actividad que se parecían mucho a los vistos en el cerebro humano. La actividad en esos mismos modelos también se correlacionó altamente con medidas de comportamiento humano, como la rapidez con la que las personas podían leer el texto.
«Descubrimos que los modelos que predicen bien las respuestas neuronales también tienden a ser mejores predecir las respuestas del comportamiento humano, en forma de tiempos de lectura. Y luego ambos se explican por el rendimiento del modelo en la predicción de la siguiente palabra. Este triángulo realmente conecta todo», dice Schrimpf.
Cambio de juego
Una de las características computacionales clave de los modelos predictivos como GPT-3 es un elemento conocido como transformador predictivo unidireccional directo. Este tipo de transformador es capaz de hacer predicciones de lo que vendrá después, basándose en secuencias anteriores. Una característica importante de este transformador es que puede hacer predicciones basadas en un contexto anterior muy largo (cientos de palabras), no solo en las últimas palabras.
Los científicos no han encontrado ningún circuito cerebral o mecanismo de aprendizaje que corresponden a este tipo de procesamiento, dice Tenenbaum. Sin embargo, los nuevos hallazgos son consistentes con las hipótesis que se han propuesto previamente de que la predicción es una de las funciones clave en el procesamiento del lenguaje, dice.
«Uno de los desafíos del procesamiento del lenguaje es el aspecto en tiempo real de eso», dice. «El lenguaje entra, y tienes que mantenerte al día y ser capaz de encontrarle sentido en tiempo real».
Los investigadores ahora planean construir variantes de estos modelos de procesamiento del lenguaje para ver cómo los pequeños cambios en su arquitectura afectan su rendimiento y su capacidad para adaptarse a los datos neuronales humanos.
«Para mí, este resultado ha cambiado las reglas del juego», dice Fedorenko. «Está transformando por completo mi programa de investigación, porque nunca hubiera predicho que en mi vida llegaríamos a estos modelos computacionalmente explícitos que capturan suficiente información sobre el cerebro para que podamos aprovecharlos para comprender cómo funciona el cerebro».
Los investigadores también planean tratar de combinar estos modelos de lenguaje de alto rendimiento con algunos modelos informáticos que el laboratorio de Tenenbaum ha desarrollado previamente y que pueden realizar otros tipos de tareas, como construir representaciones perceptivas del mundo físico.
«Si somos capaces de entender lo que hacen estos modelos de lenguaje y cómo pueden conectarse con modelos que hacen cosas que se parecen más a percibir y pensar, entonces eso nos puede dar modelos más integradores de cómo funcionan las cosas en el cerebro», dijo Tenenbaum. dice. «Esto podría llevarnos hacia mejores modelos de inteligencia artificial, además de brindarnos mejores modelos de cómo funciona una mayor parte del cerebro y cómo surge la inteligencia general, que los que hemos tenido en el pasado».
Otros autores del artículo son Idan Blank Ph.D. ’16 y estudiantes de posgrado Greta Tuckute, Carina Kauf y Eghbal Hosseini.
Explora más
¿Hermoso o atractivo? Los modelos de lenguaje neuronal prueban la sustitución de palabras Más información: La arquitectura neuronal del lenguaje: el modelado integrador converge en el procesamiento predictivo, Actas de la Academia Nacional de Ciencias (2021). DOI: 10.1073/pnas.2105646118. Información de la revista: Procedimientos de la Academia Nacional de Ciencias
Proporcionado por el Instituto de Tecnología de Massachusetts Cita: La inteligencia artificial arroja luz sobre cómo el cerebro procesa el lenguaje (2021, octubre 25) recuperado el 29 de agosto de 2022 de https://medicalxpress.com/news/2021-10-artificial-intelligence-brain-language.html Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.