ChatGPT モデル: Databox Analytics に最適なモデルの選択

公開: 2023-11-20

Databox の使命は、成長する企業がデータを活用してより適切な意思決定を行い、パフォーマンスを向上できるよう支援することです。 私たちは、規模に関係なく、すべての企業が既存のデータを活用して、より正確なマーケティング計画、売上目標、予算計画などを作成できる未来を思い描いています。

昨年、私たちは、あらゆるビジネスで高度な分析を利用できるようにするために役立つ、データ分析、AI、機械学習における画期的な進歩の追跡を開始しました。 これらの新しいテクノロジーをお客様のニーズに適用できるよう、私たちは専用のデータ サイエンス チームを結成しました。 最新のトレンドと、高度な機能を製品に統合する革新的な方法に目を光らせているチームは、最先端の機能をユーザーに提供し、ユーザーの全体的なエクスペリエンスを次のレベルに高めるという目標の前進を支援します。 これまでのところ、これにより新しくリリースされた Databox Analytics プラットフォームが誕生しました。このプラットフォームにはパフォーマンス概要機能も含まれており、クライアントの主要な指標のパフォーマンスを要約する役割を担っており、これまで大量のデータを手動で選別するために使用されていた時間と労力を節約できます。

広範なデータセットを要約することはその複雑さから困難であるため、サポートとして生成モデルに目を向け、 GPT-3.5 か GPT-4 という極めて重要な決定に直面しました。 このブログ投稿では、GPT-3.5 と GPT-4 を調査および比較し、新しくリリースされたパフォーマンス概要のレンズを通してそれらの機能を比較します。 特徴。

ChatGPT 101: 簡単な内訳

今では、ほとんどの人が ChatGPT に精通しているでしょう。 簡単に言うと、受け取った入力に基づいて人間のようなテキストを理解して生成する言語モデルです。 モデルが役立つためには、膨大な量のデータでトレーニングする必要がありました。 ChatGPT は、Common Crawl、WebText2、Books1、Books2、Wikipedia などの多様なデータセットでトレーニングされました。 トレーニング セットが多様であることが、このツールの汎用性の大きな理由です。

GPT (Generative Pretrained Transformers) は、テキストの基本単位である「トークン」を使用して動作し、それらを使用して一貫した応答を予測および作成します。 トレーニング フェーズ中に、モデルはこれらのトークン間の統計的関係を学習し、状況に応じて適切なテキストを生成できるようにします。 ユーザーがプロンプトを送信すると、この入力はまずトークンに分割されます。これはトークン化と呼ばれるプロセスです。 たとえば、「 Databox はすごいです!」という文です。 ” は[D,atab,ox, is,すごい,! ] にトークン化されます。 ] 。 トークンは、学習されたパターンを使用してモデルのニューラル ネットワークを通じて処理され、トークン シーケンスとして適合する一貫した応答が作成されます。

ChatGPT を開発する OpenAI は、GPT-3.5 と最新の追加機能である GPT-4 を備えた、AI モデルへのアクセスを簡素化するシンプルなチャット インターフェイスを提供します。 どちらのモデルも、次のような機能をサポートすることで世界を席巻しました。

  • チャットボットのパフォーマンスを向上させ、
  • 感情分類、
  • 多様なテキストタイプの要約、
  • 説明、生成、検証、蒸散などのソフトウェア開発タスクを支援し、
  • アウトラインを作成し、重要な情報を抽出することでコンテンツを簡素化します。
  • コンテンツの拡張と作成、または
  • コンテキストに基づいて積極的な提案を提供します。

OpenAI は、チャット インターフェイスとは別に、OpenAI が開発した AI モデルにアクセスするためのアプリケーション プログラミング インターフェイス (API) を公開します。 この API は使いやすく、高度なユースケースに必要な柔軟性を維持しています。 これにより、あらゆる規模のチームが分散システムの問題ではなく研究開発に集中できるようになります。 多くのモデルが API 経由で公開されており、最も重要なのは GPT-3.5-Turbo と呼ばれる GPT-3.5 の最適化されたバリアントと、OpenAI モデルのポートフォリオに新しく追加された GPT-4 です。

最適なモデルの選択: データボックス統合のためのモデルの選択

ChatGPT で機能を強化する場合、どのモデルを統合するかを決めるのはトレードオフでした。 各モデルの特性と制限をより深く理解するために、最初のステップは、API ドキュメントと GPT-4 テクニカル レポートにある相違点の一部を比較することでした。

上記の比較は、GPT-4 が大幅に大規模なアーキテクチャによってサポートされていることを示唆しています。 結果として、GPT-4 は HumanEval ベンチマーク データセットでより優れたパフォーマンスを発揮するだけでなく、医学、コンピューター サイエンス、科学、数学、法律などの幅広い科学的取り組みにわたる試験でも比較的優れた結果を提供します。 大きな定性的な違いは、モデル サイズが大きいことの直接的な結果です。 ただし、処理時間とコストは大幅に増加し、これは価格の高騰と API の制限の厳格化に反映されています。

ユーザーが当社に託したデータのセキュリティは当社の最優先事項です。 ユーザーデータを第三者に送信する場合、これはさらに重要になります。 この記事の執筆時点では、OpenAI は GPT-3.5-Turbo と GPT-4 の両方でユーザー データの安全性とプライバシーを確​​保するための強力なポリシーを導入しています。 保存中のデータは AES-256 を使用して暗号化し、転送中のデータは TLS 1.2+ を使用して暗号化することで、セキュリティが確保されます。 OpenAI はユーザー データに基づいてモデルをトレーニングせず、SOC2 準拠について監査を受けています。 OpenAI API プラットフォームのデータ セキュリティ、プライバシー、コンプライアンスの詳細については、OpenAI セキュリティ ポータルを参照してください。

OpenAI は、使用量階層に応じてレート制限を決定します。 組織の使用レベルが高くなるほど、レート制限も高くなります。 GPT-3.5-Turbo および GPT-4 の現在の制限を以下の表に示します。

可能な場合はデフォルトで GPT-3.5-Turbo を使用し、すべてのオプションが使い果たされた場合は GPT-4 を使用する必要があります。

ChatGPT を使用したパフォーマンスの概要

当社のクライアントのほとんどは、データの集約と視覚化に Databox を使用しており、迅速なデータ解釈から大きな恩恵を受けています。 ただし、すべてのデータを 1 か所に保管することは、大量のデータを抱えているクライアントにとっては圧倒される可能性があります。 ジレンマは、より多くのデータが必要であるということから、データが氾濫しすぎることに移行します。そのため、パフォーマンス サマリー機能を作成しました。 豊富なデータを実用的な洞察に変え、クライアントの時間と労力を節約するのに役立ちます。 パフォーマンス概要は、大量の指標をふるい分ける代わりに、パフォーマンスの簡潔な概要をユーザーに提供します。

パフォーマンスの構造の概要

パフォーマンス概要機能

ユーザーにビジネスの特定の側面がどの程度うまくいっているのかを示すスナップショットを提供するために、パフォーマンス概要はいくつかのコンポーネントで構成されています。 Generative AI がサポートする要素は次のとおりです。

  1. パフォーマンス メトリックの概要は、データの説明的かつ推論的な概要を提供します。 個々の指標と個々の原因のハイライトとローライトについて説明します。 これは、個々の指標のより深い意味を識別しようとすることにより、また指標グループの一部として、単なる数値を超えています。
  2. 提案では、ユーザーに合わせた提案のリストが提供されます。
  3. トレンドには、緑、オレンジ、または赤の色のシンボルが付いた円形のアイコンが含まれており、メトリクスのサブセットの累積的な進行状況を表します。

このように設定すると、パフォーマンス概要のコンポーネントはビジネスの健全性の包括的なビューを提供し、戦略的意思決定を推進する上で不可欠です。 ただし、このような多面的なレポートの作成は複雑です。 データの照合だけでなく、さまざまな指標がどのように相互作用し、相互に影響を与えるかを微妙に理解することも必要です。 ステータスを伝え、特定のパフォーマンス指標を掘り下げ、実用的な推奨事項を提案する有意義なパフォーマンス概要を作成するには、高度なアプローチが必要です。 ここで、生成モデルの機能が役立ちます。

パフォーマンス概要の生成モデル: 賢い選択

大規模で多様なデータセットを要約することは、その複雑さのため困難です。 基本的なルールベースのシステムや機械学習システムは、意味のある概要を得るために重要な指標を結び付けるために必要なコンテキストを把握できません。 単純なモデルでは、重要な情報を効果的に凝縮する必要がある複雑なアイデアを処理することが困難になります。 専門用語や知識などの業界特有の情報を取得することは、基本的なアルゴリズムにとっては困難であり、多くの手動調整が必要です。 これらの課題を考慮すると、この機能に従来の方法を使用するのは困難です。

ChatGPT の一般提供により、高度なコンテキストの理解を必要とする機能の構築が可能になります。 モデルは大量のデータでトレーニングされるため、相互に関連するメトリクスと KPI を分析する際にコンテキストを認識します。 このモデルは、大量のデータから顕著なポイントを抽象化し、業界の優れた実践に基づいた洞察と推奨事項を追加できます。

ChatGPT は、データがまばらまたは不完全な場合でも、合理的な予測を行うことに優れています。 これは、データが予測できない可能性があるニッチ市場や新興市場をナビゲートする Databox ユーザーにとって特に便利です。 さらに、ChatGPT は特定のニーズに合わせて簡単に微調整でき、特定の業界や主題に焦点を当てるように調整できるため、Databox はユーザーのフィードバックと内部分析に基づいてパフォーマンス概要機能をカスタマイズできます。 これにより、精度が向上するだけでなく、要約がユーザーのコンテキストにより関連したものになります。

Databox における生成 API の役割

Databox マイクロサービス エコシステムで生成モデルを利用するために、内部サービスと OpenAI API の間の特殊な仲介者として機能する「Generative API」マイクロサービスを導入しました。 Generative API は、すべての生成モデルのユースケースをサポートし、機能を必要とするあらゆるサービスに公開します。 以下の図は、ソリューションの概要を示しています。

  • 生成 API – アーキテクチャの中心であり、Databox エコシステムと生成モデルの間の仲介者として機能します。 具体的には、データ サイエンス チームの所有権の下で他のサービスが使用できるように、簡素化されユースケースに合わせたインターフェイスを提供することで、OpenAI API とのインターフェイスの複雑さを抽象化します。
  • サービス X とサービス Y – 生成 API の結果を必要とするクライアント マイクロサービスを表します。 Generative API はユーザー データとメトリック データにアクセスできません。つまり、各サービスがデータを取得し、データが最新であることを確認する必要があります。
  • AMQP、ロード バランサー– サービスは、非同期メッセージングまたは HTTP メカニズムを介して公開されます。 HTTP メカニズムは、必要なトークンの量が少なく、即時の応答が要求される場合に適しています。 非同期メッセージング (AMQP プロトコル経由) は、優先度の低いリクエスト、即時の結果が必要ないリクエスト、またはより長い計算が予想される場合に適しています。
  • データベース– ユーザー データのリポジトリを表します。

このアーキテクチャは、クライアント サービスがデータ管理を処理する一方で、Generative API が計算インテリジェンスの提供に重点を置くという懸念の分離を強調しています。 また、AI 機能を既存のシステムに統合するためのスケーラブルで柔軟なアプローチも反映されており、Databox が主な機能に合わせてコア サービスを最適化したまま、AI の最新の進歩を活用できるようになります。

GPT-3.5-Turbo と GPT-4 を比較検討する

私たちの機能を強化するためにどのモデルを使用するかを決定する際には、考慮すべき要素が複数ありました。 品質、パフォーマンスとスケーラビリティ、コスト、セキュリティはすべて、どのモデルがパフォーマンス サマリー機能に最適かを決定する際に重要な役割を果たしました。

品質

私たちにとって、品質とは、モデルの操作性と事実性に依存する、明確で有益な概要を提供する ChatGPT の能力を指します。 私たちは、指示を認識すること (操縦性)、正確な情報を提供すること (事実)、害を及ぼさない出力を提供すること (安全ガードレール) という 3 つの重要な点に焦点を当てました。

広範な実験を通じて、パフォーマンス メトリックの概要の出力の基準を次のように定義しました。

  1. 情報の過負荷を防ぎ、明確さを維持するために、明示的なメトリック値の参照を指定された数に制限します。
  2. 形式的かつ会話的な方法で情報を伝えます。
  3. データ ペイロードの技術的な詳細について説明したり詳しく説明したりしないでください。
  4. 段落に HTML マークアップをタグ付けします。
  5. HTML マークアップを使用してメトリクス名にタグを付けます。
  6. 出力を特定の文字長に制限します。
  7. 有効な JSON を出力します。

提案の出力の基準は次のとおりです。

  1. X 個の提案を生成します (X は数字です)。
  2. 各提案は完全な文である必要があります。
  3. 各提案は特定の文字長に制限する必要があります。
  4. リスト形式で生成します。
  5. 有効な JSON を出力します。

トレンド値の出力基準は以下のとおりです。

  1. 出力は、「ポジティブ」、「ネガティブ」、または「ニュートラル」のいずれかの列挙値である必要があります。

高度な LLM では、単一の基準を考慮することは問題になりません。 事実を維持しながらそれらすべてをまとめて説明することは、非常に困難な作業です。 提案と傾向については、GPT-3.5 と GPT-4 の両方に準拠しています。 これはおそらく、提案やトレンドの指示がはるかに単純であり、その結果、操縦性の要求が低いためと考えられます。 次の表では、パフォーマンス メトリックの概要に関する実験の結果を簡単に説明します。

パフォーマンスとスケーラビリティ

GPT-3.5-Turbo と GPT-4 の機能の違いは、基礎となるアーキテクチャの違いに起因します。 GPT-4 は規模が大きいため、インフラストラクチャの要求が高くなります。つまり、OpenAI の実行コストが高くなります。そのため、応答時間が長くなり、トークンあたりのコストが高くなり、レート制限が厳しくなります。 まずは応答時間を見てみましょう。

予想どおり、GPT-3.5-Turbo はトークンあたり 23.05 ミリ秒でトークンの生成が速く、GPT-4 ではトークンあたり 55.36 ミリ秒であり、前者は約2.4 倍速くなります。 完了トークンの量が中程度であっても、応答時間が非常に長くなる可能性があることが簡単にわかります。 これは、サーバーの負荷を軽減するために OpenAI によって導入されたレート制限によってさらに複雑になります。1 分あたりに同時に処理するリクエストが多すぎると、ユーザー エクスペリエンスが中断される可能性があります。

次のことによってユーザー エクスペリエンスを向上させます。

  • キャッシュ: 特定のメトリクスに対する既存のパフォーマンス概要リクエストの応答を保存し、再利用します。 これによりリクエスト数が減り、ユーザー エクスペリエンスが向上します。
  • レート制限ヘッダー: OpenAI は各応答にレート制限ヘッダーを提供します。これを使用してデータを要求する速度を調整し、問題を回避します。
  • 再試行戦略: リクエストが失敗した場合は、ジッターを伴う指数バックオフを使用して再試行します。
  • スケジューリング: システムの過負荷を避けるために、優先度の高いパフォーマンス概要をオンデマンドで生成し、優先度の低いリクエストの間隔をあけます。

料金

前に説明したように、GPT-4 は GPT-3.5-Turbo よりもトークンあたりのコストが 10 倍高くなります。 コストの内訳に関しては、プロンプトには固定と変動の 2 つのコンポーネントがあります。

  • 変数部分には、メトリックの詳細、データ ソース タイプ、集計値などのリクエスト固有のデータが含まれます。 この部分には、数ショットのプロンプト例と追加のコンテキストも含まれます。
  • 固定部分では、パフォーマンス概要のユースケースに関連するすべてのリクエストの共通ルールセットの概要を説明します。

GPT-3.5-Turbo はより経済的ですが、同等の結果を得るにはより多くのトークンと高度なテクニックが必要となるため、その操作は困難になる可能性があります。 パフォーマンス概要機能のコンテキストで具体的な例を考えてみましょう。

入力トークンと行われたリクエストの数に違いがあるのは、GPT-3.5 Turbo の操作が大幅に難しいためです。 GPT-4 では、単一のリクエストに含まれるすべてのパフォーマンス概要要素と複雑さを定義できますが、モデルの操作性を向上させるには、概要、推奨事項、トレンドを個別のリクエストに分割する必要があります。 それを考慮してもGPT-3.5 Turboの方が断然安いですね。 モデルの推論機能に対する要求が低いユースケースでは、ChatGPT-3.5-Turbo の出力の改善に時間を投資する価値があることがよくあります。

最後に、毎月の請求額を妥当な料金に制限するには、製品側で制限を設定することが賢明です。 ここで重要なのは、ユーザーが通常の使用に制約を感じないようにすると同時に、予期せぬ高額なコストや負荷に関する不必要な問題を回避するために、「合理的な」使用法と適切な制限を決定することです。

私たちの選択を振り返る

パフォーマンス概要機能に適したモデルを選択する際には、GPT-4 の優れたパワーと GPT-3.5-Turbo の費用対効果とより広い帯域幅の間でスイート スポットを見つける必要がありました。 パフォーマンス概要のユースケースに踏み込むと、目標と制限をテストして確認しない限り、どのモデルを選択するかは不明確でした。 主な目標がコスト効率と速度である場合、特にユースケースが単純で、ソフトウェア設計が制限に対処できるほど賢い場合には、GPT-3.5-Turbo が賢明な選択になる可能性があります。 一方、 GPT-4 は、物事をよりよく把握して最高の出力を提供することに優れており、予算が多少高くなっても、詳細で微妙な結果が必要な場合に頼りになります。 最終的に、私たちの契約を決定づけたのは、ユーザーに価値を提供することでした。 より正確で洞察力に富んだパフォーマンス概要によりユーザー エクスペリエンスを向上させる GPT-4 の機能も、Databox で検討した点です。 この分野は急速に進化しているため、私たちは最新情報を常に把握し、それに応じて戦略を調整していきます。


ChatGPT モデルの探索は、当社のテクノロジー、アーキテクチャ、製品およびエンジニアリング プロセスの内部動作を紹介する一連の技術記事の一部です。 これらの記事の著者は、当社の製品またはエンジニアリングのリーダー、アーキテクト、および当社チームの他の上級メンバーであり、製品を通じて常にお客様により多くの価値を提供するために当社が講じた考え、アイデア、課題、またはその他の革新的なアプローチを共有しています。 。

Aleksej Milosevicはデータ サイエンス チームのプロダクト サイエンティストであり、プロダクト チームやデータ エンジニアリング チームと積極的に協力して、データの力を活用するソリューションを考案しています。 彼の仕事は、機械学習を統合するシステムの構築、製品の進歩と全体的なユーザー エクスペリエンスの充実に大きく貢献する実用的な洞察の抽出に重点を置いています。

当社はデータと AI の力を通じて製品を強化し続けるため、一連の技術的な洞察と最先端の考え方に注目してください。