Quattro cose da sapere su GPT-4

Pubblicato: 2023-03-18

Martedì 14 marzo, OpenAI ha rilasciato il suo ultimo modello di machine learning, GPT-4. Sebbene non abbia immediatamente scosso il mondo nello stesso modo in cui ha fatto ChatGPT, ciò è dovuto principalmente al fatto che non c'era una nuova interfaccia brillante per accompagnarlo. Fidati di noi: è ancora incredibilmente eccitante. Ecco quattro cose che dovresti sapere su GPT-4 in questo momento.

Sommario

Cosa n. 1: la multimodalità non è ancora qui

Prima del lancio, gran parte dell'entusiasmo intorno a GPT-4 riguardava il fatto che fosse multimodale o in grado di accettare sia testo che immagini come input. Attualmente, OpenAI sta solo testando questa multimodalità con un unico partner, Be My Eyes. Per tutti gli altri, GPT-4 accetta ancora solo input di testo.

Cosa n. 2: GPT-4 può accettare input molto più grandi

In assenza di multimodalità, uno dei modi più evidenti in cui GPT-4 differisce da GPT-3.5 è che può accettare input molto più grandi (e produrre output più grandi, ma non sarà utile allo stesso modo).

Il numero massimo di token che puoi utilizzare alla volta con GPT-3.5 è 4.096. Con il modello base di GPT-4, il numero massimo raddoppia a 8.192 token e c'è persino un secondo modello GPT-4 in grado di gestire fino a 32.768 token.

Cosa significa in pratica?

Per cominciare, significa che posso dare da leggere l'intero rapporto tecnico di GPT-4 OpenAI (meno le appendici) su GPT-4. (Sono oltre 5.000 parole di contenuto.) Gli ho chiesto di riassumere il rapporto e di richiamare tutte le informazioni importanti che mancavano.

Ecco la risposta di GPT-4:

Prompt: Riassumi i punti principali di questo documento di ricerca. Quali informazioni importanti mancano? (seguito dal testo completo del rapporto tecnico GPT-4 di OpenAI)

Questo report tecnico riassume lo sviluppo di GPT-4 di OpenAI, un modello multimodale su larga scala che accetta input di immagini e testo per generare output di testo. GPT-4 dimostra prestazioni a livello umano su vari benchmark professionali e accademici, come il punteggio nel 10% dei migliori in un esame di abilitazione simulato. È un modello basato su Transformer, con le sue prestazioni migliorate utilizzando il processo di allineamento post-addestramento.

Le funzionalità principali di GPT-4 includono:

1. Elaborazione di immagini e input di testo, con potenziali applicazioni nei sistemi di dialogo, riepilogo del testo e traduzione automatica.

2. Punteggio buono negli esami progettati per gli esseri umani, con una prestazione in un esame di barra simulato nel 10% dei migliori partecipanti al test.

3. Superare i precedenti modelli linguistici e i sistemi all'avanguardia rispetto ai tradizionali benchmark NLP e ottenere ottimi risultati sulle versioni tradotte di MMLU in 24 delle 26 lingue considerate.

Il rapporto evidenzia anche lo sviluppo di infrastrutture di deep learning e metodi di ottimizzazione che si comportano in modo prevedibile su una vasta gamma di scale. Ciò ha consentito ai ricercatori di fare previsioni accurate sulle prestazioni di GPT-4 sulla base di modelli più piccoli addestrati con 1/1.000 del calcolo.

Tuttavia, GPT-4 presenta diversi limiti, come non essere completamente affidabile, avere una finestra di contesto limitata e non imparare dall'esperienza. Le sue capacità e i suoi limiti pongono nuove sfide per la sicurezza, con pregiudizi, disinformazione, eccessivo affidamento, privacy e sicurezza informatica tra i rischi identificati.

Il rapporto si astiene dal discutere in dettaglio l'architettura, l'hardware, il calcolo di addestramento, la costruzione di set di dati o i metodi di addestramento di GPT-4 a causa di preoccupazioni sulla concorrenza e implicazioni sulla sicurezza.

Nel complesso, lo sviluppo di GPT-4 segna progressi significativi nel campo dell'intelligenza artificiale e dimostra un notevole potenziale per applicazioni trasformative nell'elaborazione del linguaggio naturale, sottolineando anche la necessità di un continuo perfezionamento e attenzione alle sfide della sicurezza.

Il documento di ricerca non rivela dettagli specifici sull'hardware, l'architettura, la costruzione del set di dati o i metodi di addestramento di GPT-4. Ottenere maggiori informazioni su questi aspetti tecnici sarebbe utile per i ricercatori che desiderano replicare o sviluppare il lavoro di GPT-4.

Con GPT-3.5 e modelli precedenti, non potevi dargli un input così lungo come un intero rapporto tecnico. Questo è un progresso davvero interessante, poiché ora puoi fornire al modello molte più informazioni come contesto.

Questa funzionalità è particolarmente utile poiché il modello non è collegato a Internet. L'unico modo per avere nuove informazioni è se le fornisci - e ora puoi fornirne molte di più.

Al contrario, se chiedo cosa sia GPT-4 senza fornire il rapporto tecnico, ecco cosa ottengo:

Domanda: cos'è GPT-4?

GPT-4 è l'ipotetico successore di GPT-3 di OpenAI, il modello di linguaggio all'avanguardia che ha ottenuto risultati notevoli in una varietà di attività di elaborazione del linguaggio naturale. GPT-4, sebbene non sia attualmente disponibile, dovrebbe migliorare ulteriormente le capacità di GPT-3, consentendo potenzialmente una generazione e una comprensione del testo ancora più simili a quelle umane.

Come modello linguistico, l'obiettivo di GPT-4 sarebbe quello di generare un testo simile a quello umano basato sul contesto dell'input fornito. Per capire come potrebbe funzionare, tuffiamoci in alcuni scenari di vita reale in cui potrebbe essere utilizzata la potenza di GPT-4.

Supponi di essere uno scrittore ...

…e così via.

Per quanto ne sa GPT-4, GPT-4 è ancora un ipotetico successore di GPT-3. Il che ha senso, perché ovviamente non avrebbe potuto essere addestrato sul testo di un mondo in cui esisteva già GPT-4. In tutti i contenuti che il modello ha visto, GPT-4 è ancora uno sviluppo futuro.

Ciò significa, tuttavia, che ora possiamo ottenere risultati molto migliori da GPT-4 su cose come nuovi eventi o argomenti estremamente approfonditi, fornendo molte più informazioni nel prompt.

Oltre a ciò che consente questo miglioramento, è anche molto interessante da considerare dal punto di vista dell'architettura. Per accettare più token, il modello è in grado di richiamare e sintetizzare le informazioni su una finestra molto più ampia. Ciò è stato fatto semplicemente costruendo un modello più grande con più livelli e parametri o sono state apportate modifiche fondamentali al modo in cui elabora e archivia le informazioni?

Sfortunatamente, la mancanza di qualsiasi risposta a questa domanda ci porta al nostro terzo punto.

Cosa n. 3: OpenAI non è così... aperto... più

Una cosa affascinante di GPT-4 non ha assolutamente nulla a che fare con le sue capacità. Dal documento di ricerca di OpenAI su di esso:

Questo rapporto si concentra sulle capacità, i limiti e le proprietà di sicurezza di GPT-4. GPT-4 è un modello in stile Transformer preaddestrato per prevedere il token successivo in un documento, utilizzando sia i dati disponibili pubblicamente (come i dati Internet) sia i dati concessi in licenza da fornitori di terze parti. Il modello è stato quindi messo a punto utilizzando l'apprendimento per rinforzo dal feedback umano (RLHF). Dati sia il panorama competitivo che le implicazioni sulla sicurezza dei modelli su larga scala come GPT-4, questo rapporto non contiene ulteriori dettagli sull'architettura (incluse le dimensioni del modello), l'hardware, il calcolo dell'addestramento, la costruzione del set di dati, il metodo di addestramento o simili.

(Sottolineatura mia)

Nessun ulteriore dettaglio sulla dimensione del modello, il set di dati, l'addestramento... niente?

Questo è selvaggiamente non aperto. È anche un grande allontanamento dalla ricerca pubblica di OpenAI sui precedenti GPT.

Vale anche la pena notare quanto siano contrastanti queste due ragioni per la segretezza: il panorama competitivo e le implicazioni sulla sicurezza dei modelli su larga scala. Le "implicazioni sulla sicurezza" richiedono cautela e prudenza, ma un "panorama competitivo" richiede di andare avanti a tutto vapore per battere chiunque altro.

Su una nota totalmente estranea, altri due importanti progressi dell'IA sono stati rilasciati lo stesso giorno di GPT-4: il modello Claude di Anthropic e l'API PaLM di Google.

Cosa n. 4: l'intelligenza artificiale sta diventando una studentessa stellare (ma continua a mentire)

Uno dei grafici più ampiamente condivisi dal lancio mostra le prestazioni di GPT-4 su vari test. È quasi come se OpenAI fosse ancora sotto l'illusione, condivisa da tutti i liceali di alto livello di tutto il mondo, che i punteggi dei test standardizzati siano in qualche modo correlati al successo nel mondo reale.

Lol.

Ciò che vale la pena notare, tuttavia, è che GPT-4 non è stato specificamente addestrato per sostenere nessuno di questi test. Questo non è il caso di un modello di intelligenza artificiale addestrato specificamente per giocare a Go e alla fine battere il miglior giocatore umano; piuttosto, la sua capacità di superare questi test rappresenta un'intelligenza più "emergente".

Anche i modelli precedenti come GPT-3 non erano addestrati per eseguire test particolari, ma, come puoi vedere, le prestazioni di GPT-4 sono migliorate in modo significativo rispetto a GPT-3:

Se non ti interessa la capacità dell'IA di eseguire test standardizzati e vuoi solo sapere quanto bene farà quello che vuoi, questa è comunque una buona notizia. Dal rapporto:

GPT-4 migliora sostanzialmente rispetto ai modelli precedenti nella capacità di seguire l'intenzione dell'utente. Su un set di dati di 5.214 richieste inviate a ChatGPT e all'API OpenAI, le risposte generate da GPT-4 sono state preferite rispetto alle risposte generate da GPT-3.5 nel 70,2% delle richieste.

Quindi, è più probabile che GPT-4 ti dia quello che stai cercando rispetto a GPT-3.5. È fantastico. È importante tenere presente, tuttavia, che nonostante le sue prestazioni migliorate, il nuovo modello ha ancora tutti gli stessi limiti che conosciamo e amiamo dai nostri attuali amici IA.

Un'altra citazione dal rapporto:

Nonostante le sue capacità, GPT-4 ha limitazioni simili ai precedenti modelli GPT: non è completamente affidabile (ad esempio può soffrire di "allucinazioni"), ha una finestra di contesto limitata e non apprende dall'esperienza. È necessario prestare attenzione quando si utilizzano gli output di GPT-4, in particolare in contesti in cui l'affidabilità è importante.

In effetti, le allucinazioni potrebbero diventare un problema ancora più grande di prima, semplicemente perché migliore sarà l'intelligenza artificiale, più facile sarà credere a ciò che dice. Con GPT-3 e GPT-3.5, le persone sono ben consapevoli che il modello inventerà totalmente le cose perché accade così frequentemente. Poiché i modelli più recenti e migliori lo fanno meno frequentemente, c'è un rischio maggiore che quando hanno allucinazioni, potremmo non accorgercene o non verificarlo.

Quindi restate vigili, amici. Ma anche questi sono tempi molto eccitanti.

PS Cosa n. 5: se desideri utilizzare GPT-4, puoi farlo tramite ChatGPT Plus o tramite l'API. C'è una lista d'attesa per l'API, ma mi ci sono voluti solo due giorni per ottenere l'accesso. Un richiamo relativo all'API è che GPT-4 è accessibile tramite la funzione ChatCompletion (uguale a gpt-3.5-turbo), non la funzione Completion che potresti aver utilizzato con text-davinci-003 o altri modelli precedenti. Maggiori informazioni sulle differenze tra questi due in seguito.