2024年11月3日、OpenAIのCEOであるサム・アルトマンがX(旧Twitter)で、同社の最新技術に関する興味深い投稿を行いました。その内容は「i heard o2 gets 105% on GPQA」という短いものでしたが、続けて「damn, wrong account」とも投稿しています。この一連の投稿は瞬く間に注目を集め、SNS上では「o2」や「GPQA」という用語、そして「105%」という異例の数値について、テクノロジー業界やAI専門家の間で多くの推測が飛び交うことになりました。
「o2」「GPQA」とは何を意味するのか?
まず注目されたのが、投稿に含まれていた「o2」と「GPQA」という言葉です。「o2」はOpenAIが開発中の新しいAIモデルのコードネームである可能性が高いと考えられています。OpenAIはこれまでに「GPT-4」などの高度な言語モデルを発表しており、次世代モデルが開発段階にあるとの噂から、「o2」はその進化版である可能性が指摘されています。
「GPQA(General Performance and Quality Assessment)」についても多くの推測がされていますが、これは一般的にAIモデルの性能や品質を評価するためのフレームワークです。特に、Graduate Level Expert Reasoning(大学院レベルの専門的知識と論理的思考力)を要求する質問を通じて、AIの高度な推論能力を測定する評価基準としても使用されています。GPQAは、物理学、化学、生物学、経済学、哲学など様々な専門分野から大学院レベルの質問を集め、AIの性能を総合的に測定するものです。
なお、専門家が自身の専門分野に限定されたGPQAテストであれば、100%に近いスコアを達成することは十分に可能です。専門分野における深い知識と経験により、正確かつ一貫した応答が期待できるためです。しかし、複数の専門分野にまたがる質問に対して高得点を出すのは難しいこともあり、ここでAIは広範な知識を一貫性を持って適用する点で優位に立ちます。
応答の正確さ:ユーザーの質問に対して関連性が高く、正確な回答を提供できるかを評価します。
一貫性:同じ質問や連続する質問に対して矛盾のない応答ができるかを評価します。
流暢さ:応答が自然な言語で構成され、読みやすいかも重要なポイントです。
適応性や応答の多様性:異なる分野や複雑なテーマに関する質問にも適切な回答ができる柔軟性が求められます。
OpenAIのような企業では、こうしたGPQAの評価基準を通して、モデルの性能や応答品質を確認し、改良を重ねることで高品質なAIを提供しています。アルトマン氏の投稿は、このGPQAにおいて「o2」が105%という異例のスコアを記録したことを示唆しており、次世代のAIモデルが従来を超える性能を発揮している可能性があると考えられます。
異例の「105%」スコアが意味するもの
今回の投稿で最大の話題となったのが、105%というスコアです。一般的に性能テストの上限は100%とされるため、100%を超えたスコアは「AIが期待される性能を超えている」という特別な評価を示すものです。ここでは、この異例のスコアがどのような意味を持つのか、4つのポイントに分けて考察していきます。
1. 人間基準を超えるAIの性能
多くのAI評価基準では、100%は「人間の平均的なパフォーマンス」を意味しています。しかし、AIがその基準を上回る場合、人間を超えるパフォーマンスを発揮していると見なされるため、105%や110%のようなスコアが表示されることがあります。今回の「o2」の105%というスコアは、AIが人間の限界を超えた能力を示していると考えられるでしょう。
2. GPQAテストでの100%以上のスコア
「GPQA(General Performance and Quality Assessment)」が、AIモデルの品質や精度を評価するテストであるとすれば、105%というスコアは、従来のモデルを超えた高い精度を達成していることを意味します。特に、AIの応答がより一貫性があり、適切な回答を提供できることを示す可能性があります。これは、OpenAIの新しいモデルが人間を基準とする既存のスコアを超え、次世代のパフォーマンスを実現していると考える根拠となるでしょう。
3. 新たな基準に対応した評価方式
AIの技術進歩に伴い、評価基準も進化しています。従来の基準ではAIの性能を十分に測りきれない場合、新しい基準を設けることがあります。そうした新たな基準の下で105%というスコアを達成しているということは、このモデルがさらに進化した評価基準でも優れたパフォーマンスを発揮できていることを示唆しています。
4. 他のAI評価における100%以上のスコアの事例
実際、他のAI評価基準でも100%以上のスコアが出るケースはあります。たとえば、画像認識や機械翻訳の分野では、特定の基準を上回るAIの性能が観測されています。特に、自然言語処理における複数の評価軸(文脈把握、流暢さ、一貫性など)が絡む場合、AIが人間基準を超える結果を出すこともあるため、105%のスコアはOpenAIの新世代AIの性能を象徴している可能性があります。
サム・アルトマンが予測するAGIの実現時期
アルトマンは、AGI(汎用人工知能)の実現に対しても明確な見解を持っています。2024年9月には「数千日以内に超知能が誕生する可能性がある」と述べており、これは2027年頃までにAGIが実現する可能性を示唆しています。また、2023年10月には「AIが人並みの知能を示すAGIは4年で到達し、2030年から2031年には人工超知能(ASI)に達する可能性がある」とも発言しています。これらの発言から、アルトマン氏は2027年から2031年の間にAGIやASIの実現を予測していると考えられます。
AGIがすでにOpenAI内で完成している可能性
これはあくまでも筆者の推測ではありますが、アルトマン氏の投稿やその後の対応から推察すると、AGIがすでにOpenAI内部で完成している可能性も考えられます。今回の「105%」というスコアや、その後の反応が示唆するように、一般提供は2027年以降になるものの、既にAGIレベルの技術に到達していることを社内で確認している可能性があるかもしれません。もしこれが事実であれば、OpenAIは次世代のAI技術の開発において、競合他社を一歩リードしていると言えるでしょう。
「damn, wrong account」の意図とは?
アルトマン氏が続けて投稿した「damn, wrong account」というコメントにも注目が集まりました。この発言は、投稿するべきでなかったアカウントから誤って投稿してしまったことを意味しているようです。これにより、この情報が公式な発表ではなく、内部で共有する予定だった情報である可能性が浮かび上がりました。意図せぬ形で公開された情報であるがゆえに、さらに多くの関心を集める結果となりました。
しかし、これが意図的に行われたもので、マーケティング戦略の一部だった可能性もあります。OpenAIの技術に対する関心を引き、次世代モデルに注目を集めるための巧妙な戦略である可能性を指摘する声もあります。
過去の事例とAI技術の未来
今回の一連の投稿は、近年テクノロジー企業のCEOが意図せず機密情報を漏洩してしまう事例の一環とも言えます。たとえば、TeslaのCEOであるイーロン・マスク氏も度々ツイートでプロジェクトに関する詳細を公開し、注目を浴びてきました。こうした発信は、新製品やプロダクトに対する期待感を高める一方で、AI技術が未成熟な段階でのリスクも伴う可能性があります。今回の105%のスコアは、OpenAIの新モデルが今までの限界を突破し、人間を超える可能性を秘めていることを示しているのかもしれません。
さらに、AIが私たちの生活に与える影響はますます大きくなっています。自然言語処理の精度が向上すれば、カスタマーサービスや医療診断、さらには自律型ロボットの実現など、さまざまな分野において技術革新が進むでしょう。
【合わせて読みたい記事】
【AI未来予測】Anthropic CEOのダリオ・アモデイの記事を超要約
Anthropic CEO ダリオ・アモデイが描く未来のAIの姿とは?彼が語る「人間と共存するAI」へのビジョンと、安全性を重視した技術発展の方向性を簡潔にまとめた超要約記事!
AI限界説は真っ赤な嘘だ
「AIの進化には限界がある」という説は間違い?2027年までにAGIが実現する可能性と、GPTシリーズを超える次世代AIの進化について考察する記事です。
AIboxで問い合わせ対応をアップデートしませんか?
AIboxは、進化を続けるAI技術を駆使して社内の問い合わせ業務を最適化し、業務効率を高めるためのツールです。繰り返される同様の質問対応や煩雑な問い合わせ対応から解放され、AIが一貫した回答を提供することで、業務の効率化が可能になります。さらに、AIboxは社内データに基づいた精度の高い回答を実現するRAG機能を搭載しており、質問者もすぐに回答を得られるメリットがあります。
バックオフィスの生産性向上を図りたいとお考えの皆様、ぜひAIboxをご活用ください。導入に関するご相談も随時受け付けておりますので、ぜひご連絡ください。
問合せ先
スノーリーズ株式会社について
バックオフィス向けソリューション AIboxについて
Comments