Cztery rzeczy, które warto wiedzieć o GPT-4

Opublikowany: 2023-03-18

We wtorek 14 marca firma OpenAI udostępniła swój najnowszy model uczenia maszynowego, GPT-4. Chociaż nie od razu wstrząsnął światem w taki sam sposób, jak ChatGPT, dzieje się tak głównie dlatego, że nie było nowego, błyszczącego interfejsu, który by pasował. Zaufaj nam — to wciąż niesamowicie ekscytujące. Oto cztery rzeczy, które powinieneś wiedzieć o GPT-4 już teraz.

Spis treści

Rzecz nr 1: Multimodalność jeszcze nie istnieje

Przed premierą wiele szumu wokół GPT-4 dotyczyło tego, że jest multimodalny lub że może akceptować zarówno tekst , jak i obrazy jako dane wejściowe. Obecnie OpenAI testuje tę multimodalność tylko z jednym partnerem, Be My Eyes. Dla wszystkich innych GPT-4 nadal akceptuje tylko wprowadzanie tekstu.

Rzecz nr 2: GPT-4 może przyjmować znacznie większe dane wejściowe

W przypadku braku multimodalności, jednym z najbardziej oczywistych sposobów, w jaki GPT-4 różni się od GPT-3.5, jest to, że może przyjmować znacznie większe dane wejściowe (i generować większe wyniki, ale nie będzie to przydatne w ten sam sposób).

Maksymalna liczba tokenów, których możesz użyć jednocześnie z GPT-3.5, to 4096. W przypadku podstawowego modelu GPT-4 ta maksymalna liczba podwaja się do 8 192 tokenów — a jest nawet drugi model GPT-4, który może obsłużyć do 32 768 tokenów.

Co to oznacza w praktyce?

Na początek oznacza to, że mogę dać do przeczytania cały raport techniczny GPT-4 OpenAI (bez załączników) na temat GPT-4. (To ponad 5000 słów treści.) Poprosiłem go o podsumowanie raportu i wskazanie brakujących ważnych informacji.

Oto odpowiedź GPT-4:

Podpowiedź: Podsumuj główne punkty tego artykułu badawczego. Jakich ważnych informacji brakuje? (po którym następuje pełny tekst raportu technicznego GPT-4 OpenAI)

Ten raport techniczny podsumowuje rozwój OpenAI GPT-4, wielkoskalowego, multimodalnego modelu, który akceptuje dane wejściowe obrazu i tekstu w celu generowania danych wyjściowych tekstu. GPT-4 wykazuje wydajność na poziomie człowieka w różnych profesjonalnych i akademickich testach porównawczych, takich jak zdobycie 10% najlepszych wyników na symulowanym egzaminie adwokackim. Jest to model oparty na transformatorze, którego wydajność została zwiększona dzięki procesowi dopasowywania po treningu.

Podstawowe możliwości GPT-4 obejmują:

1. Przetwarzanie danych wejściowych obrazu i tekstu, z potencjalnymi zastosowaniami w systemach dialogowych, streszczaniu tekstu i tłumaczeniu maszynowym.

2. Dobre wyniki z egzaminów przeznaczonych dla ludzi, z wynikiem na symulowanym egzaminie adwokackim wśród 10% najlepszych zdających.

3. Przewyższenie poprzednich modeli językowych i najnowocześniejszych systemów w tradycyjnych testach porównawczych NLP oraz dobre wyniki w przetłumaczonych wersjach MMLU w 24 z 26 branych pod uwagę języków.

W raporcie zwrócono również uwagę na rozwój infrastruktury głębokiego uczenia się i metod optymalizacji, które zachowują się przewidywalnie w różnych skalach. Umożliwiło to naukowcom dokonanie dokładnych prognoz wydajności GPT-4 w oparciu o mniejsze modele przeszkolone z 1/1000 mocy obliczeniowej.

Jednak GPT-4 wykazuje kilka ograniczeń, takich jak brak pełnej niezawodności, ograniczone okno kontekstowe i brak uczenia się na podstawie doświadczenia. Jego możliwości i ograniczenia stwarzają nowe wyzwania w zakresie bezpieczeństwa, wśród których zidentyfikowano uprzedzenia, dezinformację, nadmierne poleganie, prywatność i cyberbezpieczeństwo.

Raport powstrzymuje się od szczegółowego omawiania architektury, sprzętu, obliczeń szkoleniowych, konstrukcji zestawu danych lub metod szkoleniowych GPT-4 ze względu na obawy związane z konkurencją i implikacje dla bezpieczeństwa.

Ogólnie rzecz biorąc, rozwój GPT-4 oznacza znaczący postęp w dziedzinie sztucznej inteligencji i wykazuje znaczny potencjał w zakresie zastosowań transformacyjnych w przetwarzaniu języka naturalnego, jednocześnie podkreślając potrzebę ciągłego udoskonalania i zwracania uwagi na wyzwania związane z bezpieczeństwem.

Dokument badawczy nie ujawnia szczegółowych informacji na temat sprzętu GPT-4, architektury, konstrukcji zestawu danych ani metod szkolenia. Uzyskanie większej ilości informacji na temat tych aspektów technicznych byłoby pomocne dla badaczy chcących powielić lub rozwinąć prace GPT-4.

W przypadku GPT-3.5 i wcześniejszych modeli nie można było podać tak długiego wkładu, jak cały raport techniczny. To naprawdę fajne ulepszenie, ponieważ możesz teraz dostarczać modelowi znacznie więcej informacji jako kontekstu.

Ta funkcja jest szczególnie przydatna, ponieważ model nie jest podłączony do Internetu. Jedynym sposobem, aby uzyskać nowe informacje, jest podanie ich — a teraz możesz podać o wiele więcej.

Dla kontrastu, jeśli zapytam, czym jest GPT-4 bez dostarczania raportu technicznego, oto co otrzymam:

Pytanie: Co to jest GPT-4?

GPT-4 jest hipotetycznym następcą GPT-3 firmy OpenAI, najnowocześniejszego modelu języka, który osiągnął niezwykłe wyniki w różnorodnych zadaniach związanych z przetwarzaniem języka naturalnego. Oczekuje się, że GPT-4, choć obecnie niedostępny, jeszcze bardziej poprawi możliwości GPT-3, potencjalnie umożliwiając generowanie i rozumienie tekstu jeszcze bardziej przypominające ludzkie.

Jako model języka, celem GPT-4 byłoby generowanie tekstu podobnego do ludzkiego w oparciu o kontekst dostarczonych danych wejściowych. Aby zrozumieć, jak to może działać, przyjrzyjmy się kilku rzeczywistym scenariuszom, w których można wykorzystać moc GPT-4.

Załóżmy, że jesteś pisarzem …

…i tak dalej.

O ile GPT-4 wie, GPT-4 jest nadal hipotetycznym następcą GPT-3. Ma to sens, ponieważ oczywiście nie mógł zostać wyszkolony na tekście ze świata, w którym GPT-4 już istniał. We wszystkich treściach, które model widział, GPT-4 jest wciąż przyszłym rozwojem.

Oznacza to jednak, że możemy teraz uzyskać znacznie lepsze wyniki z GPT-4 w takich kwestiach, jak nowe wydarzenia lub niezwykle szczegółowe tematy, podając znacznie więcej informacji w monicie.

Oprócz tego, co umożliwia to ulepszenie, jest to również bardzo interesujące rozważenie z punktu widzenia architektury. Aby przyjąć więcej tokenów, model jest w stanie przywołać i zsyntetyzować informacje w znacznie większym oknie. Czy dokonano tego po prostu poprzez zbudowanie większego modelu z większą liczbą warstw i parametrów, czy też dokonano fundamentalnych zmian w sposobie przetwarzania i przechowywania informacji?

Niestety brak jakiejkolwiek odpowiedzi na to pytanie prowadzi nas do trzeciego punktu.

Rzecz nr 3: OpenAI nie jest już tak… otwarte…

Jedna fascynująca rzecz w GPT-4 nie ma absolutnie nic wspólnego z jego zdolnościami. Z artykułu badawczego OpenAI na ten temat:

Ten raport koncentruje się na możliwościach, ograniczeniach i właściwościach bezpieczeństwa GPT-4. GPT-4 to model w stylu Transformera, który został wstępnie wyszkolony do przewidywania następnego tokena w dokumencie, przy użyciu zarówno publicznie dostępnych danych (takich jak dane internetowe), jak i danych licencjonowanych od zewnętrznych dostawców. Model został następnie dopracowany za pomocą uczenia się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF). Biorąc pod uwagę zarówno konkurencyjny krajobraz, jak i implikacje bezpieczeństwa wielkoskalowych modeli, takich jak GPT-4, ten raport nie zawiera dalszych szczegółów na temat architektury (w tym rozmiaru modelu), sprzętu, obliczeń szkoleniowych, konstrukcji zestawu danych, metody szkolenia lub podobnych.

(podkreślenie moje)

Żadnych dalszych szczegółów na temat rozmiaru modelu, zestawu danych, treningu… cokolwiek?

To jest szalenie nie otwarte. Jest to również duże odejście od publicznych badań OpenAI dotyczących wcześniejszych GPT.

Warto również zauważyć, jak sprzeczne są te dwa powody zachowania tajemnicy: konkurencyjny krajobraz i implikacje bezpieczeństwa wielkoskalowych modeli. „Konsekwencje dla bezpieczeństwa” wymagają ostrożności i rozwagi, ale „konkurencyjny krajobraz” wymaga pełnej pary do przodu, aby pokonać kogokolwiek innego.

Z zupełnie niezwiązanej notatki, tego samego dnia co GPT-4 wydano dwa inne ważne ulepszenia AI: model Claude firmy Anthropic i interfejs API PaLM firmy Google.

Rzecz nr 4: Sztuczna inteligencja staje się gwiazdą (ale wciąż kłamie)

Jeden z najczęściej udostępnianych wykresów z premiery pokazuje wydajność GPT-4 w różnych testach. To prawie tak, jakby OpenAI nadal żyło złudzeniem, podzielanym przez uczniów szkół średnich z wysokimi wynikami na całym świecie, że ustandaryzowane wyniki testów w jakiś sposób korelują z rzeczywistym sukcesem.

Kupa śmiechu.

Warto jednak zauważyć, że GPT-4 nie został specjalnie przeszkolony do wykonywania któregokolwiek z tych testów. Nie dotyczy to modelu AI, który został specjalnie wyszkolony do gry w Go i ostatecznie pokonał najlepszego gracza; raczej jego zdolność do pomyślnego przejścia tych testów reprezentuje bardziej „wschodzącą” inteligencję.

Poprzednie modele, takie jak GPT-3, również nie były szkolone w przeprowadzaniu określonych testów, ale jak widać, wydajność GPT-4 znacznie się poprawiła w porównaniu z GPT-3:

Jeśli nie zależy ci na zdolności sztucznej inteligencji do wykonywania standardowych testów i chcesz po prostu wiedzieć, jak dobrze zrobi to, co chcesz, to wciąż dobra wiadomość. Z raportu:

GPT-4 znacznie poprawia w porównaniu z poprzednimi modelami zdolność podążania za intencjami użytkownika. W zbiorze danych obejmującym 5214 monitów przesłanych do ChatGPT i OpenAI API odpowiedzi wygenerowane przez GPT-4 były preferowane w stosunku do odpowiedzi wygenerowanych przez GPT-3.5 w przypadku 70,2% monitów.

Tak więc GPT-4 z większym prawdopodobieństwem da ci to, czego szukasz niż GPT-3.5. To wspaniale. Należy jednak pamiętać, że pomimo ulepszonej wydajności nowy model nadal ma te same ograniczenia, które znamy i kochamy od naszych obecnych przyjaciół AI.

Kolejny cytat z raportu:

Pomimo swoich możliwości GPT-4 ma podobne ograniczenia jak wcześniejsze modele GPT: nie jest w pełni niezawodny (np. może cierpieć na „halucynacje”), ma ograniczone okno kontekstowe i nie uczy się na własnych doświadczeniach. Należy zachować ostrożność podczas korzystania z wyjść GPT-4, szczególnie w kontekstach, w których ważna jest niezawodność.

W rzeczywistości halucynacje mogą stać się jeszcze większym problemem niż były, po prostu dlatego, że im lepsza sztuczna inteligencja, tym łatwiej będzie uwierzyć w to, co mówi. W przypadku GPT-3 i GPT-3.5 ludzie doskonale zdają sobie sprawę, że model całkowicie zmyśli, ponieważ zdarza się to tak często. Ponieważ nowsze i lepsze modele robią to rzadziej, istnieje większe ryzyko, że kiedy wystąpią halucynacje, możemy tego nie zauważyć lub nie sprawdzić faktów.

Bądźcie więc czujni, przyjaciele. Ale są to również bardzo ekscytujące czasy.

PS Rzecz nr 5: Jeśli chcesz użyć GPT-4, możesz to zrobić albo przez ChatGPT Plus, albo przez API. Istnieje lista oczekujących na API, ale uzyskanie dostępu zajęło mi tylko dwa dni. Jedno objaśnienie dotyczące interfejsu API jest takie, że GPT-4 jest dostępny za pośrednictwem funkcji ChatCompletion (tak samo jak gpt-3.5-turbo), a nie funkcji Completion, której mogłeś używać z text-davinci-003 lub innymi wcześniejszymi modelami. Więcej o różnicach między tymi dwoma później.