top of page
AIbox magazin
スノーリーズ株式会社(Snowlys inc.)が運営するAI情報発信メディア

AIの未来をリードする—メルマガ登録で最新情報をゲット!

AIの未来をリードする
メルマガ登録で最新情報をゲット!

AIの最新トレンドや活用事例、業界の動向を配信します。
・2週間に1回配信します
・メルマガの購読はワンクリックで解除できます
・メールアドレスが第三者に共有されることはありません

AIのハルシネーション問題はRAGで解決できる!RAGとは何かも徹底解説!

AIのハルシネーションとは?原因と影響

AIの生成モデルが「ハルシネーション」と呼ばれる、誤った情報や根拠のない回答を生成する問題は、信頼性を損なう大きな課題です。

ハルシネーションとは、AIがトレーニングデータや外部情報に基づかない、完全に架空の事実を生成してしまう現象を指します。これは、AIが回答の「正確性」ではなく「それらしい表現」を優先して出力する仕組みに起因します。


ハルシネーションが起こる原因について詳しく見ていきます。

AIのハルシネーションはRAGで解決できる
AIのハルシネーションはRAGで解決できる

1. トレーニングデータの品質

AIは、大量のテキストデータを学習することで、言語モデルとしての能力を獲得します。しかし、このトレーニングデータの品質が低い場合、以下のような問題が発生します。


  • 誤情報の学習:インターネット上のデータは信頼性がまちまちであり、虚偽や誤解を含む内容も多く存在します。これを学習したAIは、誤った知識を蓄積してしまいます。

  • 偏った情報の影響:特定の分野や視点に偏ったデータが多い場合、AIの出力もその偏りを反映したものになります。

  • データの更新不足:AIは学習後に更新されない場合、新しい知識や事実に対応できず、古い情報を基に誤った回答を生成することがあります。


2. モデルの設計(確率的生成の特性)

生成モデルは、次に生成する単語を確率的に予測して文章を構築します。この仕組みは柔軟な生成能力をもたらしますが、同時に以下のリスクも伴います。

  • 「それらしさ」の優先:モデルは回答の正確性よりも、文法的に正しく「それらしい」文を生成することを優先します。そのため、根拠が不十分でも自信を持った回答を出力することがあります。

  • 文脈の曖昧さ:ユーザーの質問が曖昧な場合、モデルはその曖昧さを解消するために、無理に情報を補完して間違った回答を生成することがあります。


3. 知識の限界

AIはトレーニングデータに基づいて知識を構築しますが、その知識には限界があります。

  • 未学習領域の存在:AIは学習データに含まれない事柄に対しては、適切な回答ができません。この場合でも、AIは「何も答えない」代わりに「それっぽい答え」を生成してしまうことがあります。

  • 専門性の欠如:特定の専門分野において、モデルが十分なデータでトレーニングされていない場合、回答が表面的で誤解を招く可能性があります。


4. プロンプトの設計不足

AIの回答は、ユーザーが与えたプロンプト(質問内容)に大きく依存します。

  • 曖昧な質問:質問が具体性を欠いている場合、AIは文脈を推測して回答を生成しようとしますが、この推測が間違っていることがあります。

  • 適切な制約の欠如:プロンプトに「不明な場合は分からないと答える」といった制約がない場合、AIは曖昧な質問に対しても無理に回答を生成してしまいます。


5. 過剰な応答生成の設定

モデルには、詳細な情報を生成するよう指示する設定があり、これがハルシネーションを誘発することがあります。

  • 高い温度設定(Temperature):生成の多様性を高める設定が使用されている場合、AIは創造的ではあるものの、正確性に欠ける回答を生成する傾向があります。

  • 長い出力の優先:長い文章を生成する設定では、途中で根拠のない情報が付加されるリスクが高まります。


6. モデルの自己完結性

AIは質問の回答を外部データベースなどに依存せず、自分の内部知識のみで完結しようとする傾向があります。

  • 外部データへのアクセス不足:モデルが外部データを参照するRAG(Retrieval-Augmented Generation)のような技術を活用していない場合、正確性が低下することがあります。

  • 信頼性の欠如:モデルが回答に自信を持っているかどうかをユーザーに示す手段がない場合、誤った回答が真実として受け取られやすくなります。


ハルシネーションの対策

RAG(Retrieval-Augmented Generation)の活用

RAG(Retrieval-Augmented Generation)は、AIの生成モデルに外部データベースやドキュメントを組み合わせる技術で、AIがより正確で信頼性の高い回答を提供できるようになります。このアプローチは、ハルシネーションのリスクを大幅に減らし、特にカスタマーサポートやFAQ対応などで有効です。


RAGについての詳しい解説はこちらの記事でもまとめています。


たとえば、企業が過去のお問い合わせ履歴をExcelファイルにまとめている場合、このExcelデータをRAG技術を用いてAIに読み込ませることで、次のようなメリットが得られます。

  1. 問い合わせ履歴に基づいた正確な回答 AIが過去の問い合わせ内容やその回答を参照するため、類似の質問に対しても迅速かつ正確に回答できます。過去の問い合わせ履歴に類似の問い合わせがない場合はAIは「分からない」と回答します。

  2. カスタマーサポートの負担軽減 従来、サポート担当者が手動で対応していた過去の履歴を参照するプロセスをAIが代替します。これにより、問い合わせ対応のスピードが向上し、人的リソースを削減できます。

  3. リアルタイムの情報提供 Excelデータを定期的に更新することで、AIは最新の情報を基に回答を提供できます。新製品やサービス変更に対応する際にも有効です。


具体例:カスタマーサポートの効率化

たとえば、お客様から次のような問い合わせがあったとします。

「以前購入した製品の保証内容について教えてください。」

AIがRAG技術を活用して過去の問い合わせ履歴や製品保証に関するデータを参照すると、次のように回答できます:

「ご購入いただいた製品には、1年間の保証が付いています。保証期間内であれば、修理または交換が可能です。」

このように、RAGを用いたシステムは正確な情報を即座に提供できるため、サポート業務の大幅な効率化を実現します。


さらに、音声データやPDF資料、メールログなど複数のフォーマットのデータにも対応可能であり、企業が保有する既存のナレッジベースをフル活用できます。このような仕組みを構築することで、AIは単なる生成モデルを超えて、企業に特化したインテリジェントな情報提供ツールとなります。


さらに詳しく知りたい方へ

AIを活用してカスタマーサポートの問い合わせ業務を効率化する方法については、こちらをご覧ください。実践例や導入のポイントを詳しく解説しています。


明確なプロンプト設計

適切なプロンプト設計は、AIの性能を最大化し、誤った回答を減らすための重要な要素です。

ハルシネーションを防ぐための具体的なプロンプト設計については「プロンプトチューニングの具体的なやり方:ChatGPTとClaudeの性能を最大化する実践テクニック」で詳しく解説しています。この中で効果的な方法として紹介しているのが、次のようなシンプルで明示的な指示です。

「ハルシネーションを起こさないでください。分からない時は分からないと答えてください。」

このプロンプトを使用することで、AIは回答を生成する際に慎重さを増し、根拠が不十分な場合には「分からない」と答えるようになります。この手法は特に、曖昧な質問や未知の情報に対応する際に有効です。

詳細なテクニックや具体例については、「プロンプトチューニングの具体的なやり方」をご覧ください。この記事では、ChatGPTやClaudeを最大限に活用するための実践的なアプローチを解説しています。プロンプト設計を改善することで、AIの信頼性を高め、ハルシネーションのリスクを大幅に低減できるでしょう。


生成AIにおけるハルシネーション率の比較

最新の研究データを基に、各生成AIモデルのハルシネーション率と正確性を比較します

(データ出典:Hallucination Leaderboard)。


最新のデータから、生成AIにおけるハルシネーション率の違いはモデルによって顕著に異なることが確認されました。

特に、Zhipu AI GLM-4-9B-ChatGoogle Gemini-2.0-Flash-Expなどの上位モデルは、ハルシネーション率が1.3%と非常に低く、正確性が98.7%と高水準であることが評価されています。一方で、モデルの種類や規模によってはハルシネーション率が10%以上に達するものもあり、用途に応じた選定が重要です。

総じて、ハルシネーション率が低いモデルほど、回答の信頼性が高く、実用面での適応性も優れていることが分かります。

しかし、ハルシネーション率が低いモデルであっても、完全に誤情報が排除されるわけではなく、特定の文脈や質問内容によってはリスクが残ります。

また、ハルシネーション率の低さだけでなく、回答率や正確性、生成される文章の長さなどの要因も総合的に考慮する必要があります。たとえば、OpenAIの「o1-mini」はハルシネーション率が1.4%と低く、文章生成の長さも十分で、多様な用途に適しているといえます。一方、Google Geminiシリーズは比較的短めの要約を得意とし、迅速な応答が求められる場面で優位性があります。

モデル

ハルシネーション率

正確性

回答率

平均要約長(単語)

Zhipu AI GLM-4-9B-Chat

1.3 %

98.7 %

100.0 %

58.1

Google Gemini-2.0-Flash-Exp

1.3 %

98.7 %

99.9 %

60.0

OpenAI-o1-mini

1.4 %

98.6 %

100.0 %

78.3

GPT-4o

1.5 %

98.5 %

100.0 %

77.8

Anthropic Claude-3-5-sonnet

4.6 %

95.4 %

100.0 %

95.9

まとめ

生成AIのハルシネーションは、技術の信頼性向上において克服すべき重要な課題です。最新のモデル比較データを基に、適切なAIを選定するとともに、RAG技術を活用したソリューションを導入することで、ビジネス活用の可能性を広げることができます。

Comments


b367c377-a8c4-411a-a21e-e5d603bcd498 (1).jpg

スノーリーズ株式会社​

代表取締役

石黒翔也

​執筆者プロフィール

約7年間にわたりモバイルアプリケーションやWebアプリケーションの開発、AzureやAWSを活用したサーバー構築に従事。

その後、2021年にスノーリーズ株式会社を設立し、AIで問い合わせ業務の効率化を実現する「AIbox」を開発。

AIboxは最新のRAG技術(Retrieval-Augmented Generation)を活用し、問い合わせ業務に課題を抱える企業に採用されています。

現在は、企業の技術顧問としても活動しながら、AIやクラウド技術の普及に取り組んでいます。

bottom of page