2024年12月6日、「12 Days of OpenAI」の2日目として、OpenAIは新しい「強化学習ファインチューニング(Reinforcement Fine-Tuning: RFT)」技術を発表しました。この技術により、企業や研究者は自分たちのデータセットを使ってAIモデルをより高度な専門タスクに対応させることが可能になります。
o1モデルが正式リリース、API対応も間近との情報も!
OpenAIは、最新の「o1モデル」をプレビューから正式リリースし、ChatGPTに導入しました。このモデルは近い将来、APIとしても利用可能になる予定です。
さらに、今回はこの「01モデル」を活用できる新技術「強化学習ファインチューニング(RFT)」のプレビュー版も発表されました。この技術は2025年には一般公開される予定で、様々なユースケースに対応可能です。
RFT(強化学習ファインチューニング)って結局何がすごいの?
RFT(強化学習ファインチューニング)は、従来のAI学習法に対する認識を覆す画期的な技術です。わずか数十の例を与えるだけで、特定の専門タスクに対応できるモデルを構築することが可能になりました。
これまで、「人間は少数の例で学習できるが、AIには大量のデータが必要」とされていたAIの課題が、RFTによって一定程度解消されていると見られています。
この成果について、OpenAIのCEOであるサム・アルトマン氏は次のようにコメントしています。
this works amazingly well; it has been one of my biggest surprises of 2024. excited to see what people build! (日本語訳) これは驚くほどうまく機能し、2024 年の私にとって最大の驚きの 1 つとなりました。 人々が何を構築するかを見るのが楽しみです!
従来の監視学習ファインチューニングとは何が違う?
RFTは、従来の監視学習ファインチューニングとは異なり、モデルが新しい方法で「推論」する能力を獲得するために設計されています。この技術では、モデルに問題を考える時間を与え、最終的な回答を評価します。その結果、正しい回答につながる思考プロセスを強化し、誤りにつながるプロセスを抑制します。
従来の監視学習ファインチューニング(Supervised Fine-tuning)とは
従来のChatGPTには監視学習ファインチューニングが搭載されていました。
監視学習ファインチューニングの詳しい説明とやり方はこちらの記事を参照してください。
【合わせて読みたい記事】
新機能解禁!ChatGPTのファインチューニングでカスタムAIを手軽に構築する方法
基本原理
監視学習ファインチューニングは、モデルに「入力」と「対応する正解ラベル」を与えて学習を進めるアプローチです。すでに存在するタスク固有のデータセット(例えば、テキスト入力とその正しい分類ラベル、またはQAペア)に基づいて、モデルは出力と正解との誤差(損失)を最小化するようパラメータを更新します。これにより、モデルは明確に定義されたタスクを高精度でこなす能力を獲得します。
例
質問応答(Question Answering):質問と正確な回答のペアを多数学習し、未知の質問に対しても正確な回答を導く。
テキスト分類:ラベル付きテキストデータを用いてモデルを訓練し、スパムメール判定などを行う。
長所
学習プロセスが安定しやすく、学習時の目標(損失関数)が明確。
高品質な正解ラベルが存在すれば、高性能なモデルを比較的容易に獲得できる。
課題
十分な量と品質の正解ラベルが必要。
ラベルが存在しない、または「正解」が明確に定義しづらい問題には適用が困難。
新規タスクで正解が確定していない場合、モデルは対応しづらく、「わからない」や無意味な回答に留まる可能性がある。
強化学習ファインチューニング(Reinforcement Learning Fine-tuning)とは
基本原理
強化学習は、明確な正解ラベルがない状況でも、「報酬(Reward)」を指標にモデルを改善する手法です。モデルは「行動(出力)」を生成し、その結果を評価する仕組み(人間評価者や自動スコアリング)によって報酬が与えられます。モデルはこの報酬を最大化するようにポリシーを更新し、試行錯誤(探索と活用)を通して、より望ましい出力を生み出せるようになります。
「報酬(Reward)」とは何か?
「行動(出力)」とは何か?
についてはソフトバンクワールド2024で孫正義氏が詳しく解説していますので詳細はこちらの記事を参照してください。
【合わせて読みたい記事】
孫正義の超知性ビジョンとは?ソフトバンクワールド2024で語られたAIと人類の未来
例
ヒューマン・フィードバックを用いた強化学習(RLHF):モデルが生成した回答を人間が評価し、その評価を報酬としてモデルを改善。チャットボットの自然さや有用性を向上させるために活用される。
ゲームプレイエージェント:ゲームの各ステップで得点(報酬)を受け取り、その得点を最大化する行動戦略を学習。
長所
明確な正解が存在しない問題や、定量的ラベル化が困難なタスクに有効。
人間の好み、ユーザー満足度など、抽象的かつ間接的な指標を報酬として組み込める。
モデルが「わからない」状態からでも、試行錯誤でより良い方針へ近づくことが可能。
課題
報酬設計(Reward Design)が難しく、適切な指標を設定しないとモデルが期待しない行動を強化する恐れがある。
学習の安定性や収束性が監視学習より劣ることがあり、調整コストが高くなる場合もある。
報酬が遅れてやってくるため(遅延報酬)、どの出力が有利だったかを判断する「帰属問題(Credit Assignment Problem)」が生じやすい。
応用事例:法務と科学研究
OpenAIは既にいくつかの分野でRFTの効果を実証しています。例えば、法務分野ではトムソン・ロイターとの協力で、法務支援AI「Co-Counsel」にこの技術を適用。法務プロフェッショナルが直面する複雑な分析タスクを支援しています。
また、科学研究ではバークレー研究所のジャスティン・リー氏が、希少疾患の研究に01モデルを活用。症状データから遺伝子の原因を推論するタスクで成果を挙げています。RFTによるトレーニングを通じ、モデルは単なるデータの記憶ではなく、未知のケースにも適応できる能力を示しました。
トレーニングと評価のプロセス
RFTを使ったモデルカスタマイズでは以下のステップを踏みます。
1. データセット準備
RFTでは、まずJSONL形式のデータセットを準備します。このデータセットには、トレーニング用の具体例が各行に記載されており、モデルが学習するための基礎データとなります。この形式により、モデルに与えるべき情報を整理しやすくします。
ケースレポート(Case Report)
患者に関する情報が記載されています。この例では、51歳の女性で、症状の発症時期は特定されていません。症状には「眼間隔開大(Hypertelorism)」、「瞼裂狭小症(Blepharophimosis)」、「小顎症(Micrognathia)」、「軟口蓋機能不全(Velopharyngeal insufficiency)」などが含まれています。一方で、「口蓋裂(Cleft palate)」や「Fallot四徴症(Tetralogy of Fallot)」といった不在症状(Absent Symptoms)も明記され、モデルが不要な誤推論を防ぐ助けとなります。
指示(Instructions)
モデルへの指示が記載されています。この例では、「与えられた症状に基づき、原因となり得る遺伝子を最も可能性が高い順にリスト化し、それぞれの遺伝子が関与していると考える理由を説明してください」とされています。
正解(Correct Answer)
トレーニング時にはモデルに見せませんが、評価時に使用される正解データです。この例では「FOXE3」という遺伝子が正解として記載されています。
このような詳細なデータセットを準備することで、モデルは症状と遺伝子の関連を学習し、精度の高い推論が可能になります。この例は、モデルが現実の医学的タスクにどのように適応するかを示す典型的なケースです。
2. グレーダー(採点アルゴリズム)の設定
RFTでは、モデルが出力した結果を評価するために、グレーダー(採点アルゴリズム)を使用します。
この仕組みでは、モデルの出力を正解データと比較し、スコアを算出します。例えば、正解の遺伝子名が「FOXE3」である場合、モデルが出力した遺伝子リストの順位に応じてスコアが付与されます。
具体的には、「FOXE3」がリストの2番目に出現した場合、スコアは「0.7」が付与されます。一方、もし「FOXE3」がリストの最初に出現していれば、スコアは最高点の「1」となります。リスト内の順位が下がるごとにスコアは徐々に減少し、リストの後方に行くほどスコアは「0」に近づきます。このようなスコアリングによって、モデルが正答にどれだけ近づいているかを定量的に評価できます。
また、順位付けされたリストを評価しないタスクにも対応するため、OpenAIは幅広いタスクに対応できる汎用的なグレーダーを用意しています。このグレーダーのコレクションは、多様な評価基準をカバーできるよう設計されており、ユーザーのニーズに応じた柔軟な採点が可能です。これにより、より多くのユースケースで効果的にモデルの性能を測定することができます。
さらに、OpenAIは様々なタスクに対応できる汎用的なグレーダーをあらかじめ用意しているため、ユーザーが必ずしも独自のグレーダーを開発する必要はありません。この汎用的なグレーダーのコレクションは、多様な評価基準をカバーできるよう設計されており、ほとんどのユースケースで柔軟に利用できます。必要に応じて、ユーザーがカスタムグレーダーを用意することも可能ですが、初期段階ではOpenAIが提供するグレーダーをそのまま活用できる点は、大きな利便性と言えるでしょう。
3. トレーニングの実行と評価
最後に、OpenAIのトレーニングインフラストラクチャを活用してトレーニングを実行します。このプロセスでは、事前に準備したトレーニングデータセットを用いて、モデルに新しいスキルを学習させます。また、トレーニングとは別に用意したバリデーションデータセットを使用し、モデルが学習した内容をどの程度一般化できているかを確認します。
具体的には、トレーニングジョブの結果を評価する際に「バリデーションリワードスコア」を指標として使用します。このスコアは、バリデーションデータセットに対するモデルの平均スコアを示すもので、モデルがタスクをどれだけ効果的に遂行できているかを定量的に測定します。
例えば、先ほど実行したトレーニングジョブでは、バリデーションリワードスコアが継続的に向上していることが確認されました。この向上は、モデルがタスクを一般化できるようになったことを意味します。つまり、モデルが単に症状と遺伝子の関連を暗記しているだけでなく、未知のデータにも適応できる能力を備えていることを示しています。
このようなトレーニングと評価のプロセスを通じて、モデルは未知のタスクにも対応可能な高度な推論能力を獲得します。
具体的な成果
テスト結果では、RFTを施した「01ミニ」モデルが、より大きな「01モデル」を超える性能を発揮しました。例えば、「症状リストから疾患原因となる遺伝子を推測する」タスクにおいて、正解がリストの最上位に出る割合(Top 1スコア)は以下のように向上しています:
o1ミニ(ファインチューニング前):17.7%
o1モデル:25%
ファインチューニング済み01ミニ:31%
特に、モデルが自分の推論プロセスを説明する機能も追加されており、結果の透明性が高まっています。
研究分野へのインパクトと将来の展望
RFTは、バイオインフォマティクスや法務、ヘルスケアなど、専門性が高く複雑な分野において特に大きな可能性を秘めています。ジャスティン氏は、「既存のツールとRFTモデルのハイブリッド活用が最善の解決策になる」と述べており、これらのモデルを医療現場に統合することで、患者ケアを大幅に改善できると期待されています。
AIboxのご紹介
AIboxは、問い合わせ対応を自動化する最強のAIソリューションです。
RAG(Retrieval-Augmented Generation)機能を搭載し、マニュアルやFAQなど膨大な社内データをもとに高精度な回答を提供します。
AIbox導入のメリット
RAG機能で高精度な回答が可能 「AIbox」はRetrieval-Augmented Generation(RAG)という技術を搭載。社内のマニュアルや過去の問い合わせデータ、FAQなどを参照して、内容に基づいた精度の高い回答を提供します。これにより、従来のチャットボットよりも使いやすく、頼れるサポートが実現します。
スムーズな社内コミュニケーション 社内でよく利用されるSlackとの連携機能により、AIboxはSlack内の情報も検索対象にすることが可能です。例えば「経費申請の締め切りを知りたい」といった質問も、Slackから直接AIに問い合わせることで即座に回答を得られ、業務が止まることなく進みます。
徹底サポートと安全性 AIboxは、Azure OpenAIサービスを活用した高いセキュリティ性も特徴です。利用データが外部のOpenAI社に送信されることはなく、企業内の機密文書も安心して取り扱うことができます。さらに、導入時や運用後のデータ整備についても専門スタッフが支援し、スムーズな導入と安心運用が可能です。
こんな部門での活用が進んでいます
経理、総務、人事などのバックオフィス:各部門で必要なFAQやマニュアルをAIboxに登録することで、社員からのよくある問い合わせ対応が自動化され、日常的な業務負担が軽減されます。
カスタマーサポート:エクセルや問い合わせ履歴などのデータをAIに読み込ませておくことで、過去の対応履歴から適切な回答をAIが自動生成。お客様からの問い合わせに、的確で素早い回答を提供できます。
問合せ先
スノーリーズ株式会社について
バックオフィス向けソリューション AIboxについて
תגובות