Modelos de lenguaje como ChatGPT han revolucionado el campo del procesamiento del lenguaje pure, pero todavía luchan con algunas tareas básicas como la aritmética y la verificación de hechos. El jueves pasado, investigadores del Meta revelaron Formador de herramientasun modelo de lenguaje de IA que puede aprender a usar herramientas externas como motores de búsqueda, calculadoras y calendarios sin sacrificar sus capacidades básicas de modelado de lenguaje.
La clave de Toolformer es que puede utilizar API (interfaces de programación de aplicaciones), que son un conjunto de protocolos que permiten que diferentes aplicaciones se comuniquen entre sí, a menudo de manera transparente y automatizada. Durante la capacitación, los investigadores le dieron a Toolformer un pequeño conjunto de ejemplos escritos por humanos que demostraban cómo se usa cada API y luego le permitieron anotar un gran conjunto de datos de modelado de lenguaje con posibles llamadas a la API. Hizo esto de una manera “autosupervisada”, lo que significa que podía aprender sin necesidad de una guía humana explícita.
El modelo aprendió a predecir cada llamada API basada en texto como si fuera cualquier otra forma de texto. Cuando está en funcionamiento, generando texto como resultado de una entrada humana, puede insertar las llamadas cuando sea necesario. Además, Toolformer puede “decidir” por sí mismo qué herramienta usar para el contexto adecuado y cómo usarla.
Esta capacidad de llamar a la API permite que Toolformer utilice herramientas de software program externas como motores de búsqueda, calculadoras, traductores de idiomas y referencias fácticas. Por ejemplo, los modelos de lenguaje extenso (LLM) son bien conocidos por no ser particularmente bueno en aritmética. Toolformer puede sortear esa limitación mediante el uso de un programa de calculadora. O si alguien quisiera un asistente basado en LLM para agregar una fecha a su calendario, Toolformer podría manejar esa tarea usando un enlace API a una aplicación de calendario.
Toolformer se basa en un pre-entrenado GPT-J modelo con 6.700 millones de parámetros. Los experimentos realizados por los investigadores en varias tareas de uso de herramientas parecen demostrar que Toolformer logra un rendimiento mucho mayor que el mucho más grande GPT-3 modelo, que contiene 175 mil millones de parámetros.
Esta no es la primera vez que los investigadores intentan compensar las limitaciones en los modelos de lenguaje. De hecho, la reciente Chat de Bing El modelo que es noticia esta semana puede realizar búsquedas en la net por sí mismo cuando sea necesario, y otros han intentado integraciones con navegadores, calculadoras y motores de búsqueda. Según los investigadores de Meta, la mayoría de los enfoques existentes para integrar herramientas en modelos de lenguaje se han basado en grandes cantidades de anotaciones humanas o se han limitado a configuraciones específicas de tareas específicas. Por el contrario, Toolformer puede aprender a usar una variedad de herramientas de forma generalizada que no requiere capacitación especializada para tareas específicas.
Con técnicas como las que se encuentran en Toolformer, estamos viendo un futuro potencial en el que los LLM aumentados con la capacidad de usar aplicaciones externas se convertirán en asistentes mucho más versátiles y confiables (ostensiblemente). Pero la capacidad de realizar llamadas API también podría aumentar la capacidad de un LLM para dañar los datos del usuario (en aplicaciones) o crear problemas en el mundo exterior (a través de un navegador net o herramientas de comunicación), capacidades que podrían invocar accidentalmente mientras brindan una respuesta. .