关于 GPT-4 的四件事

已发表: 2023-03-18

3 月 14 日星期二，OpenAI 发布了其最新的机器学习模型 GPT-4。虽然它并没有像 ChatGPT 那样立即震撼世界，但这主要是因为没有一个闪亮的新界面来配合它。相信我们——它仍然非常令人兴奋。以下是您现在应该了解的关于 GPT-4 的四件事。

事情#1：多模态还没有出现

在发布前，很多关于 GPT-4 的宣传都是关于它是多模式的，或者能够接受文本和图像作为输入。目前，OpenAI 仅与单一合作伙伴 Be My Eyes 一起测试多模态。对于其他人，GPT-4 仍然只接受文本输入。

事情 #2：GPT-4 可以接受更大的输入

在没有多模态的情况下，GPT-4 与 GPT-3.5 最明显的区别之一是它可以接受更大的输入（并产生更大的输出，但这不会以同样的方式有用。）

您一次可以使用 GPT-3.5 的最大代币数量为 4,096。使用 GPT-4 的基本模型，最大加倍到 8,192 个令牌——甚至还有第二个 GPT-4 模型可以处理多达 32,768 个令牌。

这在实践中意味着什么？

对于初学者来说，这意味着我可以提供 GPT-4 OpenAI关于GPT-4 的完整技术报告（减去附录）供阅读。（超过 5,000 字的内容。）我要求它总结报告并找出任何遗漏的重要信息。

这是 GPT-4 的回应：

提示：总结这篇研究论文的要点。缺少什么重要信息？（后附OpenAI的GPT-4技术报告全文）

这份技术报告总结了 OpenAI 的 GPT-4 的开发，这是一种接受图像和文本输入以生成文本输出的大规模多模态模型。 GPT-4 在各种专业和学术基准上展示了人类水平的表现，例如在模拟律师考试中得分前 10%。 它是一个基于 Transformer 的模型，其性能使用训练后对齐过程得到增强。

GPT-4 的主要功能包括：

1. 处理图像和文本输入，在对话系统、文本摘要和机器翻译中具有潜在应用。

2. 在为人类设计的考试中取得好成绩，在模拟律师考试中的表现在应试者中排名前 10%。

3. 在传统 NLP 基准测试中优于以前的语言模型和最先进的系统，并且在考虑的 26 种语言中的 24 种翻译版本的 MMLU 上表现强劲。

该报告还强调了深度学习基础设施和优化方法的发展，这些基础设施和优化方法在一系列规模上表现可预测。 这使研究人员能够根据用 1/1,000 的计算量训练的较小模型对 GPT-4 的性能做出准确预测。

然而，GPT-4 存在一些局限性，例如不完全可靠、上下文窗口有限以及无法从经验中学习。 它的能力和局限性带来了新的安全挑战，其中包括偏见、虚假信息、过度依赖、隐私和网络安全等风险。

出于竞争考虑和安全隐患，该报告没有详细讨论 GPT-4 的架构、硬件、训练计算、数据集构建或训练方法。

总体而言，GPT-4的发展标志着人工智能领域取得了重大进展，展示了在自然语言处理方面的变革性应用的巨大潜力，同时也强调了需要不断完善和关注安全挑战。

该研究论文并未披露有关 GPT-4 的硬件、架构、数据集构建或训练方法的具体细节。 获得有关这些技术方面的更多信息将有助于研究人员寻求复制或基于 GPT-4 的工作。

使用 GPT-3.5 和更早的模型，你无法像完整的技术报告那样给它提供这么长的输入。这是一个非常棒的进步，因为您现在可以为模型提供更多信息作为上下文。

此功能特别有用，因为该模型未连接到互联网。它获得新信息的唯一方法是你提供它——你现在可以提供更多。

相比之下，如果我在不提供技术报告的情况下询问 GPT-4 是什么，我得到的是：

提示：什么是 GPT-4？

GPT-4 是 OpenAI 的 GPT-3 的假设继承者，是最先进的语言模型，在各种自然语言处理任务中取得了显著成果。 GPT-4 虽然目前不可用，但有望进一步改进 GPT-3 的功能，有可能实现更像人类的文本生成和理解。

作为一种语言模型，GPT-4 的目标是根据提供的输入上下文生成类似人类的文本。 为了了解它是如何工作的，让我们深入研究一些可以利用 GPT-4 强大功能的现实场景。

假设你是一个作家……

…等等。

据 GPT-4 所知，GPT-4 仍然是 GPT-3 的假设继承者。这是有道理的，因为显然它不可能在 GPT-4 已经存在的世界中接受过文本训练。在模型看到的所有内容中，GPT-4 仍然是一个未来的发展。

不过，这意味着我们现在可以通过在提示中提供更多信息，从 GPT-4 获得更好的结果，例如新事件或极其深入的主题。

除了这种改进带来的好处之外，从架构的角度考虑也很有趣。为了接受更多的标记，该模型能够在更大的窗口中回忆和合成信息。这是简单地通过构建具有更多层和参数的更大模型来完成的，还是对其处理和存储信息的方式进行了根本性改变？

不幸的是，这个问题没有任何答案将我们带到第三点。

第三件事：OpenAI 不再那么……开放……了

GPT-4 的一个迷人之处与其能力完全无关。来自 OpenAI 的研究论文：

本报告重点介绍 GPT-4 的功能、限制和安全属性。 GPT-4 是一种经过预训练的 Transformer 样式模型，可使用公开数据（例如互联网数据）和第三方提供商许可的数据来预测文档中的下一个标记。然后使用人类反馈强化学习 (RLHF) 对模型进行微调。鉴于竞争格局和 GPT-4 等大型模型的安全影响，本报告不包含有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。

（强调我的）

没有关于模型大小、数据集、训练……的更多细节？

那是疯狂地不开放。这也与 OpenAI 对早期 GPT 的公开研究大相径庭。

同样值得注意的是，这两个保密原因是多么矛盾：竞争格局和大型模型的安全隐患。 “安全影响”需要谨慎和谨慎，但“竞争格局”需要全力以赴击败其他任何人。

与 GPT-4 同一天发布的另外两项主要的 AI 进步是完全不相关的：Anthropic 的 Claude 模型和谷歌的 PaLM API。

事情 #4：AI 正在成为明星学生（但仍然在撒谎）

发布会上共享最广泛的图表之一显示了 GPT-4 在各种测试中的表现。这几乎就像 OpenAI 仍然处于幻想之中，世界各地的高成就高中生都认为标准化考试成绩在某种程度上与现实世界的成功相关。

哈哈。

然而，值得注意的是，GPT-4 并未接受过任何这些测试的专门培训。这不是专门训练 AI 模型下围棋并最终击败最好的人类棋手的情况。相反，它通过这些测试的能力代表了一种更“紧急”的智能。

以前的模型，如 GPT-3 也没有接受过特定测试的训练，但是，正如您所看到的，GPT-4 的性能比 GPT-3 有了显着提高：

如果你不关心 AI 是否有能力参加标准化考试，而只是想知道它会如何做你想做的事情，这仍然是个好消息。从报告中：

GPT-4 在遵循用户意图的能力方面大大提高了以前的模型。在提交给 ChatGPT 和 OpenAI API 的 5,214 个提示的数据集中，在 70.2% 的提示中，GPT-4 生成的响应优于 GPT-3.5 生成的响应。

因此，GPT-4 比 GPT-3.5 更有可能为您提供您正在寻找的东西。那太棒了。不过，请务必记住，尽管性能有所提高，但新模型仍然具有我们从现有 AI 朋友那里了解和喜爱的所有相同限制。

报告中的另一引述：

尽管功能强大，但 GPT-4 具有与早期 GPT 模型类似的局限性：它不完全可靠（例如，可能会出现“幻觉”）、上下文窗口有限，并且无法从经验中学习。使用 GPT-4 的输出时应小心，特别是在可靠性很重要的情况下。

事实上，幻觉可能会成为比过去更严重的问题，因为人工智能越好，人们就越容易相信它所说的话。使用 GPT-3 和 GPT-3.5，人们很清楚该模型会完全编造东西，因为它经常发生。随着更新更好的模型不那么频繁地这样做，当他们产生幻觉时，我们可能没有注意到或无法核实它的风险更大。

所以保持警惕，朋友们。而且，这些都是非常激动人心的时刻。

PS Thing #5：如果你想使用 GPT-4，你可以通过 ChatGPT Plus 或 API 来实现。 API 有一个候补名单，但我只花了两天时间就获得了访问权。关于 API 的一个标注是 GPT-4 可通过 ChatCompletion 函数（与 gpt-3.5-turbo 相同）访问，而不是您可能在 text-davinci-003 或其他早期模型中使用的 Completion 函数。稍后将详细介绍这两者之间的差异。