OpenAI の最新アップグレードにより、基本的にユーザーは ChatGPT を使用してライブストリーミングできるようになります

経験豊富な暗号通貨投資家でありテクノロジー愛好家として、私は OpenAI の最新 AI モデル GPT-4o に関する最近の発表に完全に魅了されたことを認めざるを得ません。 AI モデルがテキスト、音声、画像の入力をリアルタイムで処理できる機能は、まさに革新的なものです。

ChatGPT の作成者である OpenAI は、GPT-4o という名前の最新の人工知能 (AI) モデルを発表しました。この高度な AI は、より会話的なやり取りを行い、人間のやり取りをより正確に模倣するように設計されています。さらに、ユーザーのオーディオおよびビデオ入力をリアルタイムで処理し、反応する機能も備えています。

GPT-4 Omni は、同社の一連のリリースを通じて実証されており、さまざまな方法で将来のユーザーを支援します。たとえば、ユーザーが洗練されて面接に備えることができるようにすることで、面接の準備を支援します。さらに、新しい iPhone の交換を確保するためにカスタマーサポートに連絡することも容易になります。

さまざまなデモンストレーションで、ChatGPT は、父親向けのダジャレを交換したり、現実の状況で二か国語の会話を瞬時に翻訳したり、2 人のユーザー間のじゃんけんゲームで公平な仲裁者として機能したり、挑発されたときに皮肉を言ったりできることが示されています。さらに、ある展示では、ChatGPT とユーザーの新しい子犬とのやりとりを初めて紹介しました。

「やあ、こんにちは、クッパ！あなたはとても愛らしい子ではないですか？」チャットボットが叫んだ。

こんにちは。当社の最新の上級モデルである GPT-40 をご紹介できることを嬉しく思います。アナリストとして、当社のこの新しいフラッグシップがオーディオ、ビジョン、テキストからの情報をリアルタイムで同時に処理できることを共有できることを嬉しく思います。本日より、テキストと画像の入力が API と ChatGPT を通じて利用できるようになりました。近い将来、音声とビデオの機能も統合され、より包括的なユーザーエクスペリエンスが実現される予定です。
— OpenAI (@OpenAI) 2024 年 5 月 13 日

暗号通貨投資家として、高度な AI テクノロジーを使用すると、畏敬の念を抱かずにはいられません。まるで SF 映画の中に足を踏み入れたかのようです。たとえそれが具体的な現実であるとしても、このテクノロジーの能力はまだ信じられません。これは、CEO のサムアルトマン氏が 5 月 13 日のブログ投稿で雄弁に述べています。

「人間レベルの応答時間と表現力を実現することは、大きな変化であることがわかりました。」

5 月 13 日、OpenAI はテキストと画像のみのバリアントを導入しました。完全版は近い将来リリースされる予定であると、彼らはXに関する最近の投稿で付け加えた。

高度な人工知能モデルを研究している研究者として言えるのは、GPT-40 は、無料アカウントを持つユーザーを含むすべての ChatGPT ユーザーがアクセスできるようになると予想されているということです。このアクセシビリティは、ChatGPT のアプリケーションプログラミングインターフェイス (API) を通じて容易になります。

OpenAI から、GPT-4o の「o」は「オムニ」という用語を表し、より有機的でリアルな人間とコンピューターのインターフェイスへの進歩を意味していることを学びました。

GPT-40 は、高度な推論のためにテキスト、オーディオ、ビデオ入力をリアルタイムで処理できる最新のイノベーションです。その多用途性により探索が魅力的であり、より本物に近い人間と AI、さらには AI と AI の相互作用に向けた進歩を表しています。
— Greg Brockman (@gdb) 2024 年 5 月 13 日

テキスト、オーディオ、画像の入力を同時に処理する GPT-4 の機能は、ChatGPT-4 などの OpenAI の以前のツールと比較して、大幅な進歩を表しています。簡単に言うと、ChatGPT-4 は複数のタスクの処理に苦労し、その過程で貴重な情報を失う可能性がありますが、GPT-4 は 3 種類の入力すべてを一度に管理することに長けています。

高度な言語モデルを研究している研究者として、OpenAI が以前のモデルと比較して視覚と音声理解の領域で GPT-4 の優位性を主張していると伝えられていることを共有できます。この機能強化は単なるテキスト入力を超えて、ユーザーの感情や呼吸パターンなどの微妙な手がかりの識別を可能にします。

また、OpenAI の API の GPT-4 Turbo よりも「はるかに高速」かつ「50% 安価」です。

OpenAI によると、最新の AI テクノロジーは音声コマンドを平均わずか 2.3 秒で処理でき、この応答時間は通常約 3.2 秒で、これは人間の通常の会話に匹敵する速度です。

2024-05-14 03:40