2024年5月13日、OpenAIから新しいモデル「GPT-4o」が発表されました。「o」は「omni」(オムニ=すべての)を意味しています。
GPT-4oモデルの登場が話題となっていますが、何がすごいのでしょうか。
本記事では、GPT-4oの使い方や性能、料金などをすべて解説しています。ぜひ参考にしてみてください。
ChatGPT-4oアップデートの内容は?
GPT-4oは、特に「画像処理」と「音声認識」の能力が大幅に向上しています。また応答速度も早くなっており、リアルタイムの応答ができるため、音声会話はまるで人間と自然に話しているかのように感じられます。
他にも従来モデルより多くの変化点がありますので、以下にアップデート内容をすべて紹介します。
ーマルチモーダル対応
マルチモーダルとは、異なる種類の情報(テキスト、画像、音声、動画など)を一つのシステムで統合的に処理する技術です。
ChatGPT-4oはマルチモーダルに対応しており、以下の情報を1つのシステムで処理しています。
・読み込む情報:テキスト、音声、画像、動画
・出力する情報:テキスト、音声、画像
マルチモーダルのメリット
これまでは、ユーザーが声で画像生成をした場合、
「音声処理」⇒「テキスト処理」⇒「画像処理」といくつかの工程に変換しながら、別々のモデルが処理していました。そのため以下のデメリットがありました。
・次工程に変換するときに、情報の欠落や内容が変わってしまうことがあった。
・処理工程が多いので、ChatGPTのレスポンスに時間がかかっていた。
マルチモーダルは、1つのシステムで処理するので変換ロスが少なく、情報の欠落も少ないです。上記のデメリットを解消して、ユーザーの意図に沿った回答を、短時間で出せるようになりました。
ー音声会話・音声入力機能の改良
ChatGPT-4oでは、音声機能が大幅に改善されました。その特徴は以下の通りです。
音声トーンの変更
ChatGPT-4oは、声のトーンを変更できます。これにより、感情的なしゃべり方や、歌うような返答もリクエスト可能になりました。感情やトーンの変化に関する機能は、今後さらに充実していく予定です。今は若干AIっぽさが残っていますが、人間の声と区別が出来なくなるのも時間の問題でしょう。
感情の認識機能
ChatGPT-4oは、話し手の声色やトーンを聞き分け、感情を読み取れます。声色を聞き分けられることで、アドバイスがより的確になったり、落ち着かせるためにフォローを入れたりと、より人間らしい応答が可能になりました。
ノイズの除去
ChatGPT-4oは、背景ノイズを除去して情報処理ができます。これにより、騒がしい環境などでも音声機能を使うことが出来ます。
複数人の同時処理
ChatGPT-4oは、複数人の会話も同時に処理できるようになりました。そのため会議やディスカッションの議事録をより正確に認識できます。また誰が何を言ったかを正確に把握できるため、情報の誤解が減るでしょう。
ー返答スピードの向上
ChatGPT-4oの処理速度は、従来のChatGPTに比べて2倍になりました。具体的には、音声入力に平均0.32秒で反応できるため、人間の応答時間に近いです。また英語以外の言語でも反応速度が大幅に向上しました。
ートータル的な性能アップ
ChatGPT-4oは、従来のGPT-4に比べ大幅に性能がアップしており、スコアもほとんどGPT-4oが1位となっています。
以下に、各生成AIの性能を示す具体的なスコアを紹介します。
各評価項目のスコア
項目 | ChatGPT-4o | GPT-4(初期版) | Gemini Ultra 1.0 | Gemini Pro 1.5 | Claude 3 Opus | Llama3 400b |
マルチタスクにおける言語理解能力(MMLU) | 88.7 | 85.6 | 81.9 | 86.1 | 85.8 | 86.1 |
一般常識に基づく質問応答能力(GPCQA) | 53.6 | 50.4 | 35.7 | 48.0 | N/A | N/A |
数学力(MATH) | 76.6 | 60.1 | 42.5 | 57.8 | 58.5 | 53.2 |
コード生成の正確さ(HumanEval) | 90.2 | 84.9 | 74.4 | 71.9 | 84.1 | 67.0 |
複数ステップの算術的な推論能力(MGSM) | 90.5 | 90.7 | 74.5 | 80.9 | 79.0 | 82.4 |
複数段落にわたる推論能力(DROP) | 86.0 | 83.1 | 78.2 | 81.8 | 83.5 | 82.4 |
上記の結果から分かるように、GPT-4oは従来からあるGPT-4の上位互換となります。有料プランに加入している方は、特に理由がなければGPT-4oに設定していれば間違いないでしょう。
ー画像の読み込みが可能
ChatGPT-4oでは、画像のアップロードが可能です。この画像解読ツールにより、具体的には以下のような使い方ができます。
1. 画像内の物の名前や使い方を知る
画像をアップロードすると、モノの名前や使い方について説明してもらえます。
【具体例】
・ 動物の写真をアップロードすると、その動物の名前や生息地について教えてもらえます。
・ 製品の画像を見せれば、その商品名や使い方などを確認できます。
2. 画像内の文字読み取り
画像内の文字や数字を読み取って、さまざまな情報を得ることができます。
【具体例】
・レシートの画像をアップロードし、項目ごとに分類してエクセル表にまとめることができます。
・計算式の画像を見せると、アドバイスやヒントをもらいながら問題を解決することができます。
・プログラミングコードのスクリーンショットをアップロードすると、コードの解読や改善のアドバイスを受けられます。
3. グラフやチャートの読み込み
アップロードしたグラフやチャートを読み取り、傾向の分析やエクセル表にまとめるといった事が出来ます。
【具体例】
・会社の業績や客層など幅広いグラフを読み込ませて、データに共通するトレンドや傾向などの分析結果を得ることができます。
このように、ChatGPT-4oを使うことで、画像からさまざまな情報を引き出し、日常生活や仕事に役立てることができます。
画像の認識能力アップ+画像生成の性能アップ
ChatGPT-4oは画像認識の能力がアップしたため、細部の区別ができるようになっています。
具体的には、唐辛子とパプリカの違いや、よく似た花の区別が出来るようになりました。
またテキストから画像を生成する能力が向上しました。
具体的には、以下のような点が改善されています。
・ユーザーの指示とは違う画像を生成したり、崩れた画像が生成される確率が減りました。
・一度生成されたりアップロードされた既存の画像を編集する際に、画像の一貫性が保たれるようになりました。
「GPTs」が利用可能に。
ChatGPT-4oでは、無料プランでもGPTsが利用可能になりました。これによりライティングやデータ分析、家庭教師、イラスト生成などに特化したGPTを使えるようになります。ただし、無料プランの場合はGPTsの自作は出来ません。することは出来ないようです。
最新情報を参照
GPT-4oは、2023年10月までの情報を参照すると公式に記載されています(GPT-4は、2023年3月までのデータを基にしています)。さらにGPT-4oは、実際にはそれ以降の直近の情報にもアクセスしているようです。ただし重要な情報は、他の信頼できるソースからも確認しましょう。
APIトークン数が減少
ChatGPT-4oでは、日本語のトークンコストが約30%の削減となりました。従来、以下の例文では37トークンが必要でしたが、GPT-4oでは26トークンに減少しました。
例文
「こんにちは、私の名前は GPT-4o です。私は新しいタイプの言語モデルです。初めまして!」
(GPT-4は37トークン、GPT-4oは26トークン)
ーGoogle DriveやOneDriveからファイルがアップロード可能
ChatGPT-4oでは「Google Drive」「Microsoft OneDrive」との連携が可能です。つまりGoogleドキュメントやExcelファイルのアップロードが簡単になったので、ユーザーの利便性が大幅に向上しました。
連携方法
- Google Driveとの連携:
・ChatGPT-4oの設定画面からGoogleアカウントにログイン
Microsoft OneDriveとの連携:
アップロードしたいファイルを選択し、簡単に操作可能
OneDriveにサインインし、必要なファイルをアップロード
ChatGPT-4o内でファイルを直接利用可能
GPT-4 Turboとの比較
GPT-4oは、「性能」「応答の速さ」「API料金」どの点からみても、従来からある「GPT-4 Turbo」の上位互換となりました。現在もGPT-4 Turboを選択することはできますが、特にこだわりがなければ、GPT-4oを使用することをおすすめします。
ChatGPT 4oの使い方
ChatGPT-4oの使い方は簡単で、チャット入力画面で「GPT-4o」を選択するだけ。他のGPT-3.5やGPT-4 Turboを選択する欄に追記されています。具体的には、以下を参考にしてみてください。
PCブラウザでの使い方
ChatGPTをブラウザで立ち上げます。
左上のプラン選択で「GPT-4o」を選びます。
これで設定は完了です。そのまま質問すればGPT-4oが答えます。
(通常のチャット形式で質問を入力するだけです)
もしくはチャット文の右下にあるプラン選択で「GPT-4o」を選んでも使えます。
モバイル(iphone,スマホのブラウザ上)での使い方
PC版と同じく、ChatGPTをブラウザで立ち上げます。
画面の上側にあるプラン名をタップし、「GPT-4o」を選びます。
これで設定は完了です。
PC版と同じく、チャット文の右下にあるプラン選択で「GPT-4o」を選んでも使えます。
スマホアプリでの使い方
PC版と同じく、画面の上側にあるプラン名をタップし、「GPT-4o」を選べば設定完了です。
AzureでのGPT-4o利用方法
利用可能場所:「Early Access Playground」から利用
【利用手順】
Azure OpenAI Studioにアクセス。
「Early Access Playground」を開き、設定を行います。
【注意点】
日本リージョンは非対応
現在はプレビュー段階であり、利用は「米国西部3」または「米国東部」リージョンのみ
利用回数制限:5分ごとに10件の要求まで
制限:デプロイや直接のAPIアクセスは不可
ChatGPT 4oの料金
ChatGPT 4oは無料でも使えますが、いくつか制限があります。
以下に、無料版と有料版の違いなどを解説します。
【無料版】
・GPT-4oは、すべてのユーザーが無料でアクセス可能です。
・利用制限:5時間で10回までの利用が可能です(5時間経過したメッセージ分のみ、利用枠が復活する。よくある間違いとして、4時間59分に10回目のメッセージを送信しても、1分後の5時間目に10メッセージ分の利用枠が復活することはありません。)。
・画像出力とPDF出力はできません。
・GPTs(カスタムチャットボット)の作成はできません。
・制限に達した後は、GPT-3.5モデルのみ利用可能となります。
【有料版 (ChatGPT Plus)】
・有料プランに加入しているユーザーのみが使用可能です。
・利用制限:3時間で80回の利用が可能です。
・画像出力とPDF出力が可能です。
・音声モード:数週間以内に新しい音声モードが展開される予定です。音声での対話がよりスムーズになるようです。
APIの料金
ChatGPT 4oのAPI料金は、従来のGPT-4 Turboと比べて1/2になりました。具体的な料金は、以下の通りです。
・入力:1,000,000トークンで 5ドル
・出力:1,000,000トークンで 15ドル
GPT-4 Turboに比べ、GPT-4oは2倍の速度で、価格は半分です。
またレート制限が解放され、最大毎分1000万トークンまで使えるようになりました。
【モデル別 料金】
・GPT-4o $5.00 $15.00
・GPT-4 Turbo $10.00 $30.00
・GPT-4 $30.00 $60.00
・GPT-4-32K $60.00 $120.00
詳細な料金プランは、OpenAIの公式サイトで確認できます。
新機能
数週間以内に、APIで新しいオーディオおよびビデオ機能がリリースされるとのこと。より多様なメディアでの対話が可能になりそうです。
ChatGPT 4oのセキュリティは?
ChatGPT-4oは、ユーザーの安全性を考えた設計がされています。具体的には、以下のような取り組みが行われています。
トレーニングデータのフィルタリング
不適切な情報が含まれないように、トレーニングに使用されるデータは厳選されています。これにより、AIが安全に使用できる情報を提供します。
モデルの改良
プログラムが公開された後も、継続的に改良が行われています。安全性についても継続的に向上しており、ユーザーにとって安心して使用できる環境にあります。
新しい安全システム
音声出力に関して、不適切な内容が出ないようにガイドラインが設定されています。このガイドラインにより、音声出力を利用する際の安全性が向上しています。
独立した評価
ChatGPT-4oは外部からの独立した評価も受けています。サイバーセキュリティや誤情報の取り扱いなど、あらゆる分野での評価は危険域に達していないため、AIが大きな問題を引き起こすリスクは低いとされています。
外部専門家による検証
70人以上の外部専門家が参加する大規模なレッドチーミング(攻撃者の視点で組織の脆弱性を検証する手法)が実施され、AIのリスクを特定し、安全対策を強化するためのフィードバックが反映されています。このようなユーザーが安心して利用できるAIとなることを目指しています。
モデルのテストと改良
カスタムの微調整や、あらゆるプロンプトを使用したテストが行われ、安全性を向上させています。また、モデルの限界や新たなリスクについて、継続的に検証・改善が行われています。
これらの取り組みを通じて、ChatGPT-4oは使いやすく、安全に情報を処理できるように設計されています。今後も技術の進化に伴い、新しい機能が追加されたり、既存の機能が改良されたりすることで、さらに便利で安全なツールとなるでしょう。
Apple製品「Siri」にChatGPT 4oが搭載へ
2024年6月10日にAppleは、iPhoneやiPadに標準搭載されている「Siri」と、ChatGPTの最新モデル「GPT-4o」を統合することを発表しました。統合はiOS 18、iPadOS 18、macOS Sequoia以降のモデルで行われる予定です。これまでユーザーは、疑問があればネット検索をしていました。しかしGPT-4oの統合により、ネット検索はAIアシスタントの仕事になり、ユーザーは疑問をデバイスに聞くだけでよくなるかもしれません。この出来事は、いずれインターネットの根本に大きな変化を与える出来事になるかもしれません。
まとめ
GPT-4o(GPT-4 Omni)は、従来のGPTモデルや他のAIと比べてハイグレードな性能です。また反応速度の向上や感情表現を手に入れたことで、より人間らしさに近づきました。日々進化するAIから、これからも目が離せません。
ちなみに、公式サイトが発表した「GPT-4o」についての原文を知りたい方は、コチラのリンクをクリックしてください(すべて英語表記です)。
⇒【公式サイト】