Nvidia の新しいオープンソース AI モデルがベンチマークで GPT-4o を上回る

人工知能に深い関心を持つ経験豊富な研究者として、私は Nvidia の最新作である Llama-3.1-Nemotron-70B-Instruct に興味をそそられています。 AI モデルとその機能について数え切れないほどの時間を費やして研究してきた私は、この発表が私の好奇心を刺激したと自信を持って言えます。

10 月 15 日、Nvidia は革新的な人工知能モデルをさりげなく導入しました。この新しいモデルは、GPT-4o や Claude-3 などの現在のトップ層 AI システムをパフォーマンスで上回ると言われています。

Nvidia AI 開発者チームが X.com ソーシャル メディア プラットフォームで共有した投稿によると、Llama-3.1-Nemotron-70B-Instruct モデルは現在、lmarena.AI の Chatbot Arena のトップ モデルの 1 つであると述べられています。

ネモトロン

基本的に、Llama-3.1-Nemotron-70B-Instruct は、オープンソースの Llama-3.1-70B-Instruct を改訂したものです。名前にある「Nemotron」は、最終製品への Nvidia の関与を表しています。

Meta の「ラマ グループ」のコレクションは、プログラマーにとって無料の出発点として機能し、モデルを構築して拡張できるようになります。

Nemotron に関しては、Nvidia は、OpenAI の ChatGPT や Anthropic の Claude-3 などの有名なモデルを有用性で上回ることを目的としたシステムを作成することにしました。

Nvidia は、カスタマイズされたデータセット、洗練された微調整技術、最先端の AI ハードウェアを採用することで、Meta の標準 AI モデルを世界的に「最も役立つ」モデルの 1 つに変換しました。

「LLM を比較するために通常尋ねるコーディングに関する質問をいくつか尋ねたところ、最良の回答がいくつか得られました。笑、なんてことだ。」

ベンチマーク

どの AI モデルが「最適」であるかを判断することに関しては、明確な方法論はありません。たとえば、水銀温度計で周囲温度を測定する場合とは異なり、AI モデルのパフォーマンスに関しては単一の「真実」は存在しません。 

アナリストとして、私は人間の評価と同等の方法で AI モデルのパフォーマンスを評価することが重要であると感じています。これを達成するために、私は比較テスト方法を採用しています。

私は人工知能分野の研究者として、AI モデルのベンチマークの実践に従事しています。このプロセスには、同一のクエリ、タスク、または問題を含む複数の AI モデルを提示し、それらを比較することで応答の有効性を評価することが含まれます。有用な結果を構成するものを決定するのは主観的である可能性があるため、通常は人間の評価者が採用され、各マシンのパフォーマンスを盲目的に評価します。

Nvidia は、新モデルのパフォーマンスが、現在この分野でリードしている GPT-4o や Claude-3 などのモデルを大幅に上回ることを示唆しているようです。

この画像は、Chatbot Arena Leaderboards 内の「Difficult」テストのランキングを示しています。ここでは、Nvidia の Llama-3.1-Nemotron-70B-Instruct が明示的に表示されていません。ただし、このテストで 85 点を獲得したという開発者の主張が正確であれば、デフォルトでこの特定のカテゴリの主要モデルとなるでしょう。

この成果をめぐる陰謀は、Llama-3.1-70B が Meta によって開発されたミッドレンジのオープンソース AI モデルであるという事実によってさらに高まるかもしれません。 Llama-3.1 には、より大きな数のパラメータ (具体的には約 4,050 億) を使用して微調整された、405B バージョンという大幅に大きな亜種が存在します。

比較すると、GPT-4o は 1 兆を超えるパラメーターを使用して開発されたと推定されています。

2024-10-17 20:21