GPT-4에 대해 알아야 할 네 가지 사항

게시 됨: 2023-03-18

3월 14일 화요일, OpenAI는 최신 기계 학습 모델인 GPT-4를 발표했습니다. ChatGPT와 같은 방식으로 즉시 세상을 뒤흔들지는 않았지만, 그것은 대부분 함께 갈 반짝이는 새 인터페이스가 없었기 때문입니다. 저희를 믿으세요. 여전히 매우 흥미진진합니다. GPT-4에 대해 지금 당장 알아야 할 네 가지 사항이 있습니다.

Thing #1: Multimodality는 아직 여기에 없습니다.

출시 전, GPT-4에 대한 많은 과대 광고는 다중 모드이거나 텍스트 와 이미지를 모두 입력으로 받아들일 수 있다는 것이었습니다. 현재 OpenAI는 단일 파트너인 Be My Eyes와만 이러한 다중 방식을 테스트하고 있습니다. 다른 모든 사용자의 경우 GPT-4는 여전히 텍스트 입력만 허용합니다.

Thing #2: GPT-4는 훨씬 더 큰 입력을 수용할 수 있습니다.

다중 양식이 없는 경우 GPT-4가 GPT-3.5와 다른 가장 확실한 방법 중 하나는 훨씬 더 큰 입력을 수용할 수 있고 더 큰 출력을 생성할 수 있지만 동일한 방식으로 유용하지는 않습니다.

GPT-3.5에서 한 번에 사용할 수 있는 최대 토큰 수는 4,096개입니다. GPT-4의 기본 모델을 사용하면 최대가 8,192개 토큰으로 두 배가 되며 최대 32,768개 토큰을 처리할 수 있는 두 번째 GPT-4 모델도 있습니다.

그것은 실제로 무엇을 의미합니까?

우선 GPT-4 에 대한 GPT-4 OpenAI의 전체 기술 보고서(부록 제외)를 읽을 수 있음을 의미합니다. (내용이 5,000단어가 넘습니다.) 보고서를 요약하고 누락된 중요한 정보를 불러오라고 요청했습니다.

GPT-4의 답변은 다음과 같습니다.

프롬프트: 이 연구 논문의 요점을 요약하십시오. 중요한 정보가 누락되었습니까? (다음은 OpenAI의 GPT-4 기술 보고서 전문)

이 기술 보고서는 텍스트 출력을 생성하기 위해 이미지 및 텍스트 입력을 허용하는 대규모 다중 모드 모델인 OpenAI의 GPT-4 개발을 요약합니다. GPT-4는 모의 변호사 시험에서 상위 10%에 드는 점수와 같이 다양한 전문 및 학업 벤치마크에서 인간 수준의 성과를 보여줍니다. 트레이닝 후 정렬 프로세스를 사용하여 성능이 향상된 Transformer 기반 모델입니다.

GPT-4의 주요 기능은 다음과 같습니다.

1. 대화 시스템, 텍스트 요약 및 기계 번역에 잠재적으로 응용할 수 있는 이미지 및 텍스트 입력 처리.

2. 시험 응시자의 상위 10%에 해당하는 모의 변호사 시험의 성과로 인간을 위해 설계된 시험에서 좋은 점수를 얻습니다.

3. 전통적인 NLP 벤치마크에서 이전 언어 모델 및 최신 시스템보다 성능이 뛰어나고 고려된 26개 언어 중 24개 언어로 번역된 MMLU 버전에서 강력한 성능을 발휘합니다.

이 보고서는 또한 다양한 규모에서 예측 가능하게 작동하는 딥 러닝 인프라 및 최적화 방법의 개발을 강조합니다. 이를 통해 연구자들은 1/1,000의 컴퓨팅으로 훈련된 더 작은 모델을 기반으로 GPT-4의 성능을 정확하게 예측할 수 있었습니다.

그러나 GPT-4는 완전히 신뢰할 수 없고 제한된 컨텍스트 창을 가지며 경험을 통해 학습하지 않는 것과 같은 몇 가지 제한 사항을 나타냅니다. 그 기능과 한계는 식별된 위험 중 편견, 허위 정보, 과도한 의존, 개인 정보 보호 및 사이버 보안과 함께 새로운 안전 문제를 제기합니다.

이 보고서에서는 경쟁 문제 및 안전 문제로 인해 GPT-4의 아키텍처, 하드웨어, 교육 컴퓨팅, 데이터 세트 구성 또는 교육 방법에 대해 자세히 논의하지 않습니다.

전반적으로 GPT-4의 개발은 AI 분야에서 상당한 진전을 이루었고 자연어 처리에서 혁신적인 응용 프로그램에 대한 상당한 잠재력을 입증하는 동시에 지속적인 개선의 필요성과 안전 문제에 대한 관심을 강조합니다.

연구 논문은 GPT-4의 하드웨어, 아키텍처, 데이터 세트 구성 또는 교육 방법에 대한 구체적인 세부 정보를 공개하지 않습니다. 이러한 기술적 측면에 대한 자세한 정보를 얻는 것은 GPT-4의 작업을 복제하거나 기반으로 구축하려는 연구자에게 도움이 될 것입니다.

GPT-3.5 및 이전 모델에서는 전체 기술 보고서처럼 긴 입력을 제공할 수 없었습니다. 이제 컨텍스트로 훨씬 더 많은 정보를 모델에 제공할 수 있으므로 이것은 정말 멋진 발전입니다.

이 기능은 모델이 인터넷에 연결되어 있지 않기 때문에 특히 유용합니다. 새로운 정보를 얻을 수 있는 유일한 방법은 귀하가 정보를 제공하는 것입니다. 이제 훨씬 더 많은 정보를 제공할 수 있습니다.

반대로 기술 보고서를 제공 하지 않고 GPT-4가 무엇인지 묻는다면 다음과 같은 결과를 얻을 수 있습니다.

프롬프트: GPT-4란 무엇입니까?

GPT-4는 다양한 자연어 처리 작업에서 놀라운 결과를 달성한 최첨단 언어 모델인 OpenAI의 GPT-3의 가상 후속 제품입니다. GPT-4는 현재 사용할 수 없지만 GPT-3의 기능을 더욱 향상시켜 잠재적으로 훨씬 더 인간과 유사한 텍스트 생성 및 이해를 가능하게 할 것으로 예상됩니다.

언어 모델로서 GPT-4의 목표는 제공된 입력의 컨텍스트를 기반으로 사람과 유사한 텍스트를 생성하는 것입니다. 작동 방식을 이해하기 위해 GPT-4의 성능을 활용할 수 있는 몇 가지 실제 시나리오를 살펴보겠습니다.

당신이 작가라면 ...

…등등.

GPT-4가 아는 한 GPT-4는 여전히 GPT-3의 가상 후속 제품입니다. GPT-4가 이미 존재하는 세계의 텍스트로 훈련될 수 없었기 때문에 말이 됩니다. 모델이 본 모든 콘텐츠에서 GPT-4는 여전히 미래 개발입니다.

그러나 이것이 의미하는 바는 프롬프트에서 훨씬 더 많은 정보를 제공함으로써 새로운 이벤트나 매우 심층적인 주제와 같은 것에 대해 GPT-4에서 훨씬 더 나은 결과를 얻을 수 있다는 것입니다.

이러한 개선으로 가능해진 것 외에도 아키텍처 관점에서 고려하는 것도 정말 흥미롭습니다. 더 많은 토큰을 수락하기 위해 모델은 훨씬 더 큰 창에서 정보를 불러오고 합성할 수 있습니다. 단순히 더 많은 레이어와 매개변수가 포함된 더 큰 모델을 구축하여 이 작업을 수행했습니까, 아니면 정보를 처리하고 저장하는 방법에 근본적인 변경을 가했습니까?

불행하게도 그 질문에 대한 답이 없기 때문에 우리는 세 번째 요점에 도달하게 됩니다.

사물 #3: OpenAI는 그다지...더 이상 개방적이지 않습니다.

GPT-4의 흥미로운 점 중 하나는 그 능력과 전혀 관련이 없습니다. OpenAI의 연구 논문에서:

이 보고서는 GPT-4의 기능, 제한 및 안전 속성에 중점을 둡니다. GPT-4는 공개적으로 사용 가능한 데이터(예: 인터넷 데이터)와 타사 공급자로부터 라이선스를 받은 데이터를 모두 사용하여 문서의 다음 토큰을 예측하도록 사전 훈련된 Transformer 스타일 모델입니다. 그런 다음 RLHF(Reinforcement Learning from Human Feedback)를 사용하여 모델을 미세 조정했습니다. 경쟁 구도와 GPT-4와 같은 대규모 모델의 안전 영향을 모두 감안할 때 이 보고서에는 아키텍처(모델 크기 포함), 하드웨어, 교육 컴퓨팅, 데이터 세트 구성, 교육 방법 등에 대한 추가 세부 정보가 포함되어 있지 않습니다.

(내 강조)

모델 크기, 데이터 세트, 교육 등에 대한 추가 정보가 없습니까?

그것은 열리지 않습니다. 또한 이전 GPT에 대한 OpenAI의 공개 연구에서 크게 벗어났습니다.

또한 비밀 유지에 대한 두 가지 이유, 즉 경쟁 구도와 대규모 모델의 안전 영향이 얼마나 상충하는지 주목할 가치가 있습니다. "안전 의미"에는 주의와 신중함이 필요하지만 "경쟁 환경"에서는 다른 사람을 이기기 위해 전력을 다해야 합니다.

완전히 관련이 없는 메모에서 GPT-4와 같은 날 Anthropic의 Claude 모델과 Google의 PaLM API라는 두 가지 다른 주요 AI 발전이 발표되었습니다.

사물 #4: AI가 스타 학생이 되고 있습니다(하지만 여전히 거짓말)

출시 당시 가장 널리 공유된 그래프 중 하나는 다양한 테스트에서 GPT-4의 성능을 보여줍니다. 마치 OpenAI가 모든 곳에서 높은 성취도를 보이는 고등학생들이 공유하는 표준화된 시험 점수가 어떤 식으로든 실제 성공과 관련이 있다는 환상 아래 있는 것과 같습니다.

ㅋㅋㅋ.

그러나 주목할 가치가 있는 것은 GPT-4가 이러한 테스트를 수행하도록 특별히 훈련되지 않았다는 것입니다. 이것은 바둑을 두도록 특별히 훈련된 AI 모델이 결국 최고의 인간 선수를 이기는 경우가 아닙니다. 오히려 이러한 테스트를 능가하는 능력은 보다 "긴급" 인텔리전스를 나타냅니다.

GPT-3과 같은 이전 모델도 특정 테스트를 수행하도록 훈련되지 않았지만 보시다시피 GPT-4의 성능은 GPT-3보다 크게 향상되었습니다.

표준화된 테스트를 수행하는 AI의 능력에 관심이 없고 원하는 것을 얼마나 잘 수행하는지 알고 싶다면 여전히 좋은 소식입니다. 보고서에서:

GPT-4는 사용자 의도를 따르는 기능에서 이전 모델보다 크게 향상되었습니다. ChatGPT 및 OpenAI API에 제출된 5,214개의 프롬프트 데이터 세트에서 GPT-4에서 생성된 응답이 프롬프트의 70.2%에서 GPT-3.5에서 생성된 응답보다 선호되었습니다.

따라서 GPT-4는 GPT-3.5보다 원하는 것을 제공할 가능성이 더 높습니다. 훌륭합니다. 그러나 향상된 성능에도 불구하고 새 모델에는 여전히 우리가 알고 있고 기존 AI 친구들이 좋아하는 모든 제한 사항이 있다는 점을 염두에 두는 것이 중요합니다.

보고서의 또 다른 인용문:

그 기능에도 불구하고 GPT-4에는 이전 GPT 모델과 유사한 제한이 있습니다. 완전히 신뢰할 수 없고(예: '환각'으로 고통받을 수 있음) 컨텍스트 창이 제한되어 있으며 경험을 통해 학습하지 않습니다. 특히 신뢰성이 중요한 상황에서 GPT-4의 출력을 사용할 때는 주의를 기울여야 합니다.

실제로 환각은 실제보다 훨씬 더 큰 문제가 될 수 있습니다. 단순히 AI가 더 좋아질수록 그것이 말하는 것을 더 쉽게 믿기 때문입니다. GPT-3 및 GPT-3.5를 사용하면 사람들은 모델이 너무 자주 발생하기 때문에 완전히 구성할 것임을 잘 알고 있습니다. 더 새롭고 더 나은 모델은 그렇게 하는 빈도가 낮기 때문에 그들이 환각을 보일 때 우리가 그것을 알아채지 못하거나 사실 확인에 실패할 위험이 더 큽니다.

그러니 경계하세요, 친구들. 그러나 또한 지금은 매우 흥미로운 시기입니다.

PS Thing #5: GPT-4를 사용하려면 ChatGPT Plus 또는 API를 통해 사용할 수 있습니다. API에 대한 대기자 명단이 있지만 액세스 권한을 얻는 데 2일 밖에 걸리지 않았습니다. API에 관한 한 가지 설명은 GPT-4가 ChatCompletion 기능(gpt-3.5-turbo와 동일)을 통해 액세스할 수 있다는 것입니다. text-davinci-003 또는 기타 이전 모델에서 사용했을 수 있는 완료 기능이 아닙니다. 이 둘의 차이점은 나중에 자세히 설명합니다.