Cuatro cosas que debe saber sobre GPT-4

Publicado: 2023-03-18

El martes 14 de marzo, OpenAI lanzó su último modelo de aprendizaje automático, GPT-4. Si bien no ha sacudido al mundo de inmediato de la misma manera que lo hizo ChatGPT, eso se debe principalmente a que no había una nueva interfaz brillante que lo acompañara. Confía en nosotros, sigue siendo increíblemente emocionante. Aquí hay cuatro cosas que debe saber sobre GPT-4 en este momento.

Tabla de contenido

Cosa #1: la multimodalidad aún no está aquí

Antes del lanzamiento, gran parte del entusiasmo en torno a GPT-4 se refería a que era multimodal, o que podía aceptar tanto texto como imágenes como entrada. Actualmente, OpenAI solo está probando esa multimodalidad con un solo socio, Be My Eyes. Para todos los demás, GPT-4 todavía solo acepta la entrada de texto.

Cosa n.º 2: GPT-4 puede aceptar entradas mucho más grandes

En ausencia de multimodalidad, una de las formas más obvias en que GPT-4 difiere de GPT-3.5 es que puede aceptar entradas mucho más grandes (y producir salidas más grandes, pero eso no será útil de la misma manera).

La cantidad máxima de tokens que puede usar a la vez con GPT-3.5 es 4096. Con el modelo base de GPT-4, ese máximo se duplica a 8192 tokens, e incluso hay un segundo modelo GPT-4 que puede manejar hasta 32 768 tokens.

¿Qué significa eso en la práctica?

Para empezar, significa que puedo dar lectura al informe técnico completo de GPT-4 OpenAI (menos los apéndices) sobre GPT-4. (Eso es más de 5000 palabras de contenido). Le pedí que resumiera el informe y mencionara cualquier información importante que faltara.

Esta fue la respuesta de GPT-4:

Pregunta: Resuma los puntos principales de este trabajo de investigación. ¿Qué información importante falta? (seguido del texto completo del Informe técnico GPT-4 de OpenAI)

Este informe técnico resume el desarrollo de GPT-4 de OpenAI, un modelo multimodal a gran escala que acepta entradas de imágenes y texto para generar salidas de texto. GPT-4 demuestra un rendimiento a nivel humano en varios puntos de referencia profesionales y académicos, como obtener una puntuación en el 10% superior en un examen de barra simulado. Es un modelo basado en Transformer, con su rendimiento mejorado mediante el proceso de alineación posterior al entrenamiento.

Las capacidades principales de GPT-4 incluyen:

1. Procesamiento de entradas de imágenes y texto, con aplicaciones potenciales en sistemas de diálogo, resúmenes de texto y traducción automática.

2. Obtener buenos puntajes en exámenes diseñados para humanos, con un desempeño en un examen de barra simulado en el 10% superior de los examinados.

3. Superar los modelos lingüísticos anteriores y los sistemas de vanguardia en los puntos de referencia tradicionales de NLP, y tener un desempeño sólido en las versiones traducidas de MMLU en 24 de los 26 idiomas considerados.

El informe también destaca el desarrollo de infraestructura de aprendizaje profundo y métodos de optimización que se comportan de manera predecible en una variedad de escalas. Esto permitió a los investigadores hacer predicciones precisas sobre el rendimiento de GPT-4 basándose en modelos más pequeños entrenados con 1/1000 del cálculo.

Sin embargo, GPT-4 exhibe varias limitaciones, como no ser completamente confiable, tener una ventana de contexto limitada y no aprender de la experiencia. Sus capacidades y limitaciones plantean nuevos desafíos de seguridad, con sesgo, desinformación, exceso de confianza, privacidad y ciberseguridad entre los riesgos identificados.

El informe se abstiene de analizar en detalle la arquitectura, el hardware, el cálculo de entrenamiento, la construcción de conjuntos de datos o los métodos de entrenamiento de GPT-4 debido a preocupaciones competitivas e implicaciones de seguridad.

En general, el desarrollo de GPT-4 marca un progreso significativo en el campo de la IA y demuestra un potencial considerable para aplicaciones transformadoras en el procesamiento del lenguaje natural, al mismo tiempo que enfatiza la necesidad de perfeccionamiento continuo y atención a los desafíos de seguridad.

El trabajo de investigación no revela detalles específicos sobre el hardware, la arquitectura, la construcción de conjuntos de datos o los métodos de entrenamiento de GPT-4. Obtener más información sobre estos aspectos técnicos sería útil para los investigadores que buscan replicar o desarrollar el trabajo de GPT-4.

Con GPT-3.5 y modelos anteriores, no podría darle una entrada tan larga como un informe técnico completo. Este es un avance realmente genial, ya que ahora puede proporcionar al modelo mucha más información como contexto.

Esta capacidad es especialmente útil ya que el modelo no está conectado a Internet. La única forma de que tenga nueva información es si usted la proporciona, y ahora puede proporcionar mucha más.

Por el contrario, si pregunto qué es GPT-4 sin proporcionar el informe técnico, esto es lo que obtengo:

Aviso: ¿Qué es GPT-4?

GPT-4 es el sucesor hipotético de GPT-3 de OpenAI, el modelo de lenguaje de última generación que ha logrado resultados notables en una variedad de tareas de procesamiento de lenguaje natural. GPT-4, aunque actualmente no está disponible, se espera que mejore aún más las capacidades de GPT-3, lo que podría permitir una generación y comprensión de texto aún más similar a la humana.

Como modelo de lenguaje, el objetivo de GPT-4 sería generar texto similar al humano basado en el contexto de la entrada proporcionada. Para comprender cómo podría funcionar, analicemos algunos escenarios de la vida real en los que se podría utilizar el poder de GPT-4.

Supongamos que eres un escritor ...

…etcétera.

Hasta donde sabe GPT-4, GPT-4 sigue siendo un sucesor hipotético de GPT-3. Lo cual tiene sentido, porque obviamente no podría haber sido entrenado con texto de un mundo en el que GPT-4 ya existía. En todo el contenido que ha visto el modelo, GPT-4 sigue siendo un desarrollo futuro.

Lo que esto significa, sin embargo, es que ahora podemos obtener resultados mucho mejores de GPT-4 en cosas como nuevos eventos o temas extremadamente profundos, al proporcionarle mucha más información en el aviso.

Además de lo que permite esta mejora, también es muy interesante considerarlo desde el punto de vista de la arquitectura. Para aceptar más tokens, el modelo puede recordar y sintetizar información en una ventana mucho más grande. ¿Se hizo esto simplemente construyendo un modelo más grande con más capas y parámetros, o se hicieron cambios fundamentales en la forma en que procesa y almacena la información?

Desafortunadamente, la falta de respuesta a esa pregunta nos lleva a nuestro tercer punto.

Cosa n.º 3: OpenAI ya no es tan... abierto...

Una cosa fascinante sobre GPT-4 no tiene absolutamente nada que ver con sus habilidades. Del trabajo de investigación de OpenAI al respecto:

Este informe se centra en las capacidades, limitaciones y propiedades de seguridad de GPT-4. GPT-4 es un modelo de estilo Transformer entrenado previamente para predecir el próximo token en un documento, utilizando datos disponibles públicamente (como datos de Internet) y datos con licencia de proveedores externos. Luego, el modelo se ajustó utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Dado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cálculo de entrenamiento, la construcción de conjuntos de datos, el método de entrenamiento o similar.

(Énfasis mío)

No hay más detalles sobre el tamaño del modelo, el conjunto de datos, el entrenamiento... ¿algo?

Eso no está salvajemente abierto. También es una gran desviación de la investigación pública de OpenAI sobre GPT anteriores.

También vale la pena señalar cuán contradictorias son esas dos razones para el secreto: el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala. Las "implicaciones de seguridad" requieren precaución y prudencia, pero un "panorama competitivo" requiere avanzar a todo vapor para vencer a cualquier otro.

En una nota totalmente ajena, otros dos importantes avances de IA se lanzaron el mismo día que GPT-4: el modelo Claude de Anthropic y la API PaLM de Google.

Cosa n.º 4: la IA se está convirtiendo en una estudiante estrella (pero aún miente)

Uno de los gráficos más compartidos del lanzamiento muestra el desempeño de GPT-4 en varias pruebas. Es casi como si OpenAI todavía estuviera bajo la ilusión, compartida por estudiantes de secundaria de alto rendimiento en todas partes, de que los puntajes de las pruebas estandarizadas se correlacionan de alguna manera con el éxito en el mundo real.

Jajaja.

Sin embargo, lo que vale la pena señalar es que GPT-4 no fue entrenado específicamente para realizar ninguna de estas pruebas. Este no es el caso de un modelo de IA entrenado específicamente para jugar Go y eventualmente vencer al mejor jugador humano; más bien, su capacidad para superar estas pruebas representa una inteligencia más "emergente".

Los modelos anteriores como GPT-3 tampoco fueron entrenados para realizar pruebas particulares, pero, como puede ver, el rendimiento de GPT-4 ha mejorado significativamente con respecto a GPT-3:

del informe técnico GPT-4 de OpenAI

Si no le importa la capacidad de la IA para realizar pruebas estandarizadas y solo quiere saber qué tan bien hará lo que quiere, estas siguen siendo buenas noticias. Del informe:

GPT-4 mejora sustancialmente con respecto a los modelos anteriores en la capacidad de seguir la intención del usuario. En un conjunto de datos de 5214 solicitudes enviadas a ChatGPT y la API de OpenAI, las respuestas generadas por GPT-4 fueron preferidas a las generadas por GPT-3.5 en el 70,2 % de las solicitudes.

Por lo tanto, es más probable que GPT-4 le brinde lo que está buscando que GPT-3.5. Genial. Sin embargo, es importante tener en cuenta que, a pesar de su rendimiento mejorado, el nuevo modelo todavía tiene las mismas limitaciones que conocemos y amamos de nuestros amigos de IA existentes.

Otra cita del informe:

A pesar de sus capacidades, GPT-4 tiene limitaciones similares a los modelos GPT anteriores: no es completamente confiable (por ejemplo, puede sufrir "alucinaciones"), tiene una ventana de contexto limitada y no aprende de la experiencia. Se debe tener cuidado al usar los resultados de GPT-4, particularmente en contextos donde la confiabilidad es importante.

De hecho, las alucinaciones podrían convertirse en un problema aún mayor de lo que eran, simplemente porque cuanto mejor sea la IA, más fácil será creer lo que dice. Con GPT-3 y GPT-3.5, la gente sabe muy bien que el modelo inventará cosas porque sucede con mucha frecuencia. A medida que los modelos más nuevos y mejores lo hacen con menos frecuencia, existe un mayor riesgo de que cuando alucinen , no nos demos cuenta o no lo verifiquemos.

Así que manténganse alerta, amigos. Pero también, estos son tiempos muy emocionantes.


PS Thing #5: si desea utilizar GPT-4, puede hacerlo a través de ChatGPT Plus o mediante la API. Hay una lista de espera para la API, pero solo me tomó dos días obtener acceso. Una llamada con respecto a la API es que se puede acceder a GPT-4 a través de la función ChatCompletion (igual que gpt-3.5-turbo), no la función de finalización que podría haber usado con text-davinci-003 u otros modelos anteriores. Más sobre las diferencias entre esos dos más adelante.