Quatre choses à savoir sur GPT-4

Publié: 2023-03-18

Le mardi 14 mars, OpenAI a publié son dernier modèle d'apprentissage automatique, GPT-4. Bien qu'il n'ait pas immédiatement secoué le monde de la même manière que ChatGPT, c'est principalement parce qu'il n'y avait pas de nouvelle interface brillante pour l'accompagner. Faites-nous confiance, c'est toujours incroyablement excitant. Voici quatre choses que vous devez savoir sur GPT-4 en ce moment.

Table des matières

Chose n°1 : la multimodalité n'est pas encore là

Avant le lancement, une grande partie du battage médiatique autour de GPT-4 concernait son caractère multimodal ou sa capacité à accepter à la fois du texte et des images en entrée. Actuellement, OpenAI ne teste cette multimodalité qu'avec un seul partenaire, Be My Eyes. Pour tous les autres, GPT-4 n'accepte toujours que la saisie de texte.

Chose n ° 2: GPT-4 peut accepter des entrées beaucoup plus grandes

En l'absence de multimodalité, l'une des différences les plus évidentes entre GPT-4 et GPT-3.5 est qu'il peut accepter des entrées beaucoup plus importantes (et produire des sorties plus importantes, mais cela ne sera pas utile de la même manière.)

Le nombre maximum de jetons que vous pouvez utiliser à la fois avec GPT-3.5 est de 4 096. Avec le modèle de base de GPT-4, ce maximum double à 8 192 jetons, et il existe même un deuxième modèle GPT-4 qui peut gérer jusqu'à 32 768 jetons.

Qu'est-ce que cela signifie en pratique ?

Pour commencer, cela signifie que je peux donner à lire l'intégralité du rapport technique de GPT-4 OpenAI (moins les annexes) sur GPT-4. (C'est plus de 5 000 mots de contenu.) Je lui ai demandé de résumer le rapport et d'appeler toute information importante qui manquait.

Voici la réponse de GPT-4 :

Invite : Résumez les points principaux de ce document de recherche. Quelles informations importantes manquent ? (suivi du texte intégral du rapport technique GPT-4 d'OpenAI)

Ce rapport technique résume le développement du GPT-4 d'OpenAI, un modèle multimodal à grande échelle qui accepte les entrées d'image et de texte pour générer des sorties de texte. GPT-4 démontre des performances de niveau humain sur divers critères professionnels et académiques, tels que la notation dans les 10 % supérieurs lors d'un examen du barreau simulé. Il s'agit d'un modèle basé sur Transformer, dont les performances sont améliorées grâce au processus d'alignement post-formation.

Les fonctionnalités principales de GPT-4 incluent :

1. Traitement des entrées d'image et de texte, avec des applications potentielles dans les systèmes de dialogue, la synthèse de texte et la traduction automatique.

2. Obtenir de bons résultats aux examens conçus pour les humains, avec une performance à un examen du barreau simulé parmi les 10 % des meilleurs candidats.

3. Surpasser les modèles linguistiques précédents et les systèmes de pointe sur les benchmarks NLP traditionnels, et performer fortement sur les versions traduites de MMLU dans 24 des 26 langues considérées.

Le rapport met également en évidence le développement d'une infrastructure d'apprentissage en profondeur et de méthodes d'optimisation qui se comportent de manière prévisible à différentes échelles. Cela a permis aux chercheurs de faire des prédictions précises sur les performances de GPT-4 sur la base de modèles plus petits entraînés avec 1/1 000e du calcul.

Cependant, GPT-4 présente plusieurs limites, telles qu'une fiabilité insuffisante, une fenêtre contextuelle limitée et l'absence d'apprentissage par l'expérience. Ses capacités et ses limites posent de nouveaux défis en matière de sécurité, avec les biais, la désinformation, la dépendance excessive, la confidentialité et la cybersécurité parmi les risques identifiés.

Le rapport s'abstient de discuter en détail de l'architecture, du matériel, du calcul d'entraînement, de la construction d'ensembles de données ou des méthodes d'entraînement de GPT-4 en raison de problèmes de concurrence et d'implications en matière de sécurité.

Dans l'ensemble, le développement de GPT-4 marque des progrès significatifs dans le domaine de l'IA et démontre un potentiel considérable pour des applications transformatrices dans le traitement du langage naturel, tout en soulignant la nécessité d'un raffinement continu et d'une attention aux défis de sécurité.

Le document de recherche ne divulgue pas de détails spécifiques sur le matériel, l'architecture, la construction d'ensembles de données ou les méthodes de formation de GPT-4. Obtenir plus d'informations sur ces aspects techniques serait utile pour les chercheurs qui cherchent à reproduire ou à s'appuyer sur les travaux de GPT-4.

Avec GPT-3.5 et les modèles antérieurs, vous ne pouviez pas lui donner une entrée aussi longue qu'un rapport technique complet. C'est une avancée vraiment intéressante, car vous pouvez désormais fournir au modèle beaucoup plus d'informations en tant que contexte.

Cette fonctionnalité est particulièrement utile car le modèle n'est pas connecté à Internet. La seule façon pour lui d'avoir de nouvelles informations est si vous les fournissez - et vous pouvez maintenant en fournir beaucoup plus.

Par contraste, si je demande ce qu'est GPT-4 sans fournir le rapport technique, voici ce que j'obtiens :

Invite : Qu'est-ce que GPT-4 ?

GPT-4 est le successeur hypothétique du GPT-3 d'OpenAI, le modèle de langage de pointe qui a obtenu des résultats remarquables dans une variété de tâches de traitement du langage naturel. GPT-4, bien qu'il ne soit pas disponible actuellement, devrait encore améliorer les capacités de GPT-3, permettant potentiellement une génération et une compréhension de texte encore plus humaines.

En tant que modèle de langage, l'objectif de GPT-4 serait de générer un texte de type humain basé sur le contexte de l'entrée fournie. Pour comprendre comment cela pourrait fonctionner, plongeons dans des scénarios réels où la puissance de GPT-4 pourrait être utilisée.

Supposons que vous soyez écrivain ...

…et ainsi de suite.

Pour autant que GPT-4 le sache, GPT-4 est toujours un successeur hypothétique de GPT-3. Ce qui est logique, car il est évident qu'il n'aurait pas pu être formé sur du texte d'un monde dans lequel GPT-4 existait déjà. Dans tout le contenu que le modèle a vu, GPT-4 est encore un développement futur.

Cela signifie, cependant, que nous pouvons désormais obtenir de bien meilleurs résultats de GPT-4 sur des choses comme de nouveaux événements ou des sujets extrêmement approfondis, en lui fournissant beaucoup plus d'informations dans l'invite.

En plus de ce que cette amélioration permet, c'est aussi très intéressant à considérer d'un point de vue architecture. Afin d'accepter plus de jetons, le modèle est capable de rappeler et de synthétiser des informations sur une fenêtre beaucoup plus grande. Cela a-t-il été fait simplement en construisant un modèle plus grand avec plus de couches et de paramètres, ou des changements fondamentaux ont-ils été apportés à la façon dont il traite et stocke les informations ?

Malheureusement, l'absence de réponse à cette question nous amène à notre troisième point.

Chose n ° 3: OpenAI n'est plus aussi… ouvert… plus

Une chose fascinante à propos de GPT-4 n'a absolument rien à voir avec ses capacités. D'après le document de recherche d'OpenAI à ce sujet :

Ce rapport se concentre sur les capacités, les limites et les propriétés de sécurité du GPT-4. GPT-4 est un modèle de type Transformer pré-formé pour prédire le jeton suivant dans un document, en utilisant à la fois des données accessibles au public (telles que des données Internet) et des données sous licence de fournisseurs tiers. Le modèle a ensuite été affiné à l'aide de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Compte tenu à la fois du paysage concurrentiel et des implications en matière de sécurité des modèles à grande échelle tels que GPT-4, ce rapport ne contient aucun autre détail sur l'architecture (y compris la taille du modèle), le matériel, le calcul d'entraînement, la construction d'ensembles de données, la méthode d'entraînement ou similaire.

(c'est moi qui souligne)

Pas plus de détails sur la taille du modèle, l'ensemble de données, la formation… quoi que ce soit ?

Ce n'est follement pas ouvert. C'est également un grand écart par rapport à la recherche publique d'OpenAI sur les GPT antérieurs.

Il convient également de noter à quel point ces deux raisons du secret sont en contradiction : le paysage concurrentiel et les implications en matière de sécurité des modèles à grande échelle. Les « implications en matière de sécurité » exigent prudence et prudence, mais un « paysage concurrentiel » nécessite une avance à toute vapeur pour battre les autres.

Sur une note totalement indépendante, deux autres avancées majeures de l'IA ont été publiées le même jour que GPT-4 : le modèle Claude d'Anthropic et l'API PaLM de Google.

Chose #4 : L'IA devient une étudiante vedette (mais ment toujours)

L'un des graphiques les plus largement partagés depuis le lancement montre les performances de GPT-4 sur divers tests. C'est presque comme si OpenAI était toujours sous l'illusion, partagée par les lycéens très performants du monde entier, que les résultats des tests standardisés étaient en quelque sorte corrélés au succès dans le monde réel.

Mdr.

Ce qu'il convient de noter, cependant, c'est que GPT-4 n'a pas été spécifiquement formé pour passer l'un de ces tests. Ce n'est pas le cas d'un modèle d'IA spécialement formé pour jouer au Go et finir par battre le meilleur joueur humain ; au contraire, sa capacité à réussir ces tests représente une intelligence plus «émergente».

Les modèles précédents comme le GPT-3 n'étaient pas non plus formés pour passer des tests particuliers, mais, comme vous pouvez le constater, les performances du GPT-4 se sont considérablement améliorées par rapport à celles du GPT-3 :

Si vous ne vous souciez pas de la capacité de l'IA à passer des tests standardisés et que vous voulez simplement savoir dans quelle mesure elle va faire ce que vous voulez, c'est toujours une bonne nouvelle. Du rapport :

GPT-4 améliore considérablement par rapport aux modèles précédents la capacité de suivre l'intention de l'utilisateur. Sur un ensemble de données de 5 214 invites soumises à ChatGPT et à l'API OpenAI, les réponses générées par GPT-4 ont été préférées aux réponses générées par GPT-3.5 sur 70,2 % des invites.

Ainsi, GPT-4 est plus susceptible de vous donner ce que vous recherchez que GPT-3.5. C'est super. Il est important de garder à l'esprit, cependant, que malgré ses performances améliorées, le nouveau modèle a toujours les mêmes limitations que nous connaissons et aimons de nos amis IA existants.

Une autre citation du rapport :

Malgré ses capacités, GPT-4 a des limitations similaires aux modèles GPT précédents : il n'est pas totalement fiable (par exemple, peut souffrir d'"hallucinations"), a une fenêtre de contexte limitée et n'apprend pas de l'expérience. Des précautions doivent être prises lors de l'utilisation des sorties de GPT-4, en particulier dans les contextes où la fiabilité est importante.

En fait, les hallucinations pourraient devenir un problème encore plus important qu'elles ne l'étaient, simplement parce que plus l'IA s'améliorera, plus il sera facile de croire ce qu'elle dit. Avec GPT-3 et GPT-3.5, les gens sont bien conscients que le modèle va totalement inventer des trucs parce que cela arrive si souvent. Comme les modèles plus récents et meilleurs le font moins fréquemment, il y a un plus grand risque que lorsqu'ils hallucinent , nous ne le remarquions pas ou ne le vérifiions pas.

Alors restez vigilants les amis. Mais aussi, ce sont des moments très excitants.

PS Thing #5 : Si vous souhaitez utiliser GPT-4, vous pouvez le faire via ChatGPT Plus ou via l'API. Il y a une liste d'attente pour l'API, mais il ne m'a fallu que deux jours pour y accéder. Une légende concernant l'API est que GPT-4 est accessible via la fonction ChatCompletion (identique à gpt-3.5-turbo), et non la fonction Completion que vous auriez pu utiliser avec text-davinci-003 ou d'autres modèles antérieurs. Plus sur les différences entre ces deux plus tard.