2024年10月23日、Anthropicが「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」、そして何よりも革新的な「Computer Use」機能を発表したとき、多くの技術者や開発者にとって驚きの瞬間となりました。AIが単にテキストを生成するだけでなく、まるで人間がコンピュータを操作するかのように画面を見て、クリックし、入力する能力を備えたことは、まさにSF映画のような進展でした。
これまでのAIの進化も驚異的でしたが、この「Computer Use」機能はそれ以上の可能性を秘めています。現実世界での自動化、ブラウジング、フォーム入力など、AIによるコンピュータ操作が実際に現実のものとなり、ビジネスや開発の現場に劇的な影響を与えると期待されています。
この発表により、AI業界に新たな時代が到来したことを多くの人々が実感しました。特に、「Computer Use」機能はその中でも目玉の一つで、AIが直接コンピュータを操作するというアイデアは、これまで考えられていたAIの枠を大きく超えるものでした。
Anthropic公式の発表はこちらから確認することができます。
「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」の概要
Claude 3.5 Sonnetは、前モデルと比べて大幅な性能向上があり、特にコーディングやツール操作のタスクで高いパフォーマンスを発揮します。また、SWE-bench Verifiedテストでのスコアも改善されています。価格と速度は前のモデルと同等で、コストパフォーマンスも良いです。
Claude 3.5 Haikuは、低コストかつ高速なモデルであり、Claude 3 Opusを超える性能を持っています。特に、コーディングタスクにおいて優れた結果を示しています。
両モデルともに、Anthropic APIやBedrock、Google Cloud Vertex AIで利用可能です。
この記事では「Computer Use」について詳しく記載しますが、「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」のモデルの詳しい内容について知りたい方はこちらの記事も参照してみてください。
【合わせて読みたい記事】
最新のAI「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」を詳しく解説
また、最新の技術的進展とその可能性を解説した記事を公開しました。AIがどのようにPC操作を操作し、今後のビジネスや日常生活にどのような影響を与えるか、詳しく知りたい方はこちらの記事をご覧ください。
合わせて読みたい記事
Claude「ComputerUse」機能の意義とセキュリティへの取り組み
2. 「Computer Use」の特徴
Computer Use機能は、従来のチャットボットやAPI機能を超えて、AIが実際にコンピュータを操作できるという画期的な機能です。画面を見て、カーソルを動かし、クリックしてテキストを入力するなど、人間のようにインターフェースを操作します。
この機能はまだ実験段階で、フィードバックを基に改善されていく予定です。開発者向けにAPIを通じて提供されており、操作の自動化や効率化に大きく寄与する可能性があります。
3.「Computer Use」のリスク
「Computer Use」はまだベータ版の機能であり、標準のAPIやチャットインターフェースとは異なる、独自のリスクを伴います。
Claudeの公式サイトでは以下のように警告が書かれていますので良く注意して使用してください。
Anthropic Claude 公式サイト https://docs.anthropic.com/en/docs/build-with-claude/computer-use
「Computer Use」はベータ機能です。コンピュータの使用には、標準の API 機能やチャット インターフェースとは異なる固有のリスクがあることにご注意ください。これらのリスクは、コンピュータを使用してインターネットとやり取りする場合に高まります。リスクを最小限に抑えるには、次のような予防策を検討してください。
直接的なシステム攻撃や事故を防ぐために、最小限の権限を持つ専用の仮想マシンまたはコンテナーを使用します。
情報の盗難を防ぐために、アカウント ログイン情報などの機密データへのモデル アクセスを許可しないようにします。
悪意のあるコンテンツへの露出を減らすために、インターネット アクセスを許可リストのドメインに制限します。
Cookie の受け入れ、金融取引の実行、利用規約への同意など、肯定的な同意を必要とするタスクだけでなく、現実世界で意味のある結果をもたらす可能性のある決定を人間に確認してもらいます。
状況によっては、Claude は、ユーザーの指示と矛盾する場合でも、コンテンツ内のコマンドに従います。たとえば、Web ページまたは画像に含まれる Claude の指示は、指示を上書きしたり、Claude に間違いを起こさせたりする可能性があります。
プロンプト インジェクションに関連するリスクを回避するために、Claude を機密データやアクションから隔離する予防策を講じることをお勧めします。
最後に、自社製品で「Computer Use」を有効にする前に、エンドユーザーに関連するリスクを通知し、同意を得てください。
4.「Computer Use」を試す前の準備
「Computer Use」を試す前に、以下の準備を進める必要があります。これらの手順を完了することで、APIを使った操作を開始できるようになります。
Anthropic Consoleでのアカウント作成
まず、Anthropicの公式ウェブサイトにアクセスし、Anthropic Consoleにてアカウントを作成します。メールアドレスや必要な情報を入力して登録を完了させましょう。
クレジットの購入
アカウント作成後、APIの使用にはクレジットが必要です。Anthropic Console内でクレジットを購入できます。最低購入金額は5ドルからで、必要な使用量に応じて購入額を選択してください。
APIキーの取得
クレジットを購入したら、次はAPIキーを取得します。Anthropic Consoleの「APIキー」セクションに移動し、キーを生成します。このAPIキーは、後ほどDockerコンテナを起動する際に使用するため、コピーして保存しておきましょう。
5. 「Computer Use」を試す手順
Dockerのインストールとセットアップ まずはDockerがインストールされていることを確認します。公式サイトからインストールします。 Dockerを使用するだけならDockerDescktopをダウンロードするといいでしょう。 こちらからWindowsまたはMac用のアプリケーションをダウンロードできます。 https://www.docker.com/ja-jp/products/docker-desktop/
APIキーの取得 Anthropic ConsoleからAPIキーを取得し、それを環境変数として設定します。例えば、LinuxやmacOSなら以下のコマンドを使用します。 "your_api_key"の部分はご自身のAPIキーを入力してください。
【LinuxまたはmacOSの場合は以下のコマンドを使用する】
export ANTHROPIC_API_KEY=your_api_key
【Windowsの場合は以下のコマンドを使用する】
set ANTHROPIC_API_KEY=your_api_key
Dockerコンテナの起動 次に、以下のコマンドでDockerコンテナを起動します。
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
デモアプリへのアクセス ブラウザで以下のURLにアクセスして、デモを開始します。
すべてのインターフェース: http://localhost:8080
Streamlitインターフェース: http://localhost:8501
デスクトップビューのみ: http://localhost:6080/vnc.html
6.デモアプリを操作してみる
以下のURLにアクセスするとトップ画面が表示されました。
画面左側にはチャットで指示をするメッセージボックスが表示されています。
画面右側には仮想のLinux環境が表示されています。
チャットで指示した内容に従って画面右側のパソコンが操作されるというものです。
試しにチャットで「かわいい猫の画像をダウンロードしてください」と指示をしてみます。
Firefoxブラウザのアイコンの位置を特定する
Firefoxのブラウザを起動する
Google画像検索を表示する
検索欄に「猫」と入力して検索する
表示された画像を右クリックして「名前をつけて保存」を選択する
名前を変更して保存を完了する
この一連の流れを全てAIが指示をして完遂することができました。
見事に猫の画像がダウンロードすることができていることを確認しました。
Firefoxのブラウザを開くときにアイコンの位置を最初に特定していたことから、「ComputerUse」の内部処理的には、どうやら最初にスクリーンショットを撮って目的の縦横のピクセルを計算し、それを元にマウス操作を行っているようです。
忙しい人のためにスクリーンショットのダイジェスト形式でもお伝えします。
7.コスト
「Computer Use」を試してみて感じたことは、コストの高さです。実際に約5分間の操作を行っただけで、1ドル近くのクレジットを消費しました。このため、人間の操作を自動化するには、現時点ではコストが高すぎて実用的とは言えないと感じました。
もちろん、「Computer Use」は非常に革新的な機能であり、AIが実際に画面を操作するという新しい可能性を提供してくれますが、長時間の作業や大規模な自動化には、コストがネックになるでしょう。しかし、これは時間の問題であり、Claudeのアップデートや最適化により、この課題は解消されることが期待されます。AI技術が進化し、コストが下がれば、将来的には多くの分野で広く利用される可能性が高いです。
8.「ComputerUse」でできないこと
企業の問い合わせフォームへの自動送信を試してみようとしましたが、倫理的な制限事項から実行できないようです。
その他にも以下のようなことが制限されています。
1. システム利用における基本的な制限
「ComputerUse」は以下のような基本的な制限が設けられています。
提供された関数以外でのファイルアクセスの禁止
外部リソースとの直接的なやり取りの制限
アプリケーションの起動方法の制限
大量出力を生成するコマンドの使用制限
2. 外部リソースとの関係
外部リソースとの関わり方について、禁止事項と許可される操作を明確に区別することが重要です。
【禁止されている操作】
・直接的なネットワークアクセス
・直接的なAPIの呼び出し
・直接的なWebサービスとの通信
・直接的なファイルシステムへのアクセス
【許可されている操作】
・指定された関数を通じたWebブラウジング
・bashコマンドを使用したファイルダウンロード
・専用エディタを通じたファイル操作
・システムコマンドの実行
3. 倫理的な制限事項
「ComputerUse」は、倫理的な観点からも重要な制限を設けています。例えば:
営業目的での問い合わせフォームの使用禁止
スパムや迷惑行為の禁止
システムの目的外使用の制限
これらの制限が設けられている理由:
倫理的配慮:誠実で透明性のある行動の維持
技術的制限:基本的なコンピュータ操作に特化した設計
法的遵守:各種規約や法規制への準拠
システム設計方針:正当な利用目的への限定
まとめ
この記事では、Anthropicの最新技術「Claude 3.5」と「Computer Use」機能の革新について紹介しましたが、AIの進化はこれだけにとどまりません。社内業務の効率化を目指す企業向けに、「AIbox」も次世代のAIソリューションを提供しています。
「AIbox」は、バックオフィス業務をAIが自動で処理することで、社員が本来の業務に専念できるようサポートします。経理・人事・総務など、日々の問い合わせ対応に追われるスタッフの負担を軽減し、高精度な回答を瞬時に提供するため、残業や人的ミスの削減につながります。
膨大な社内データを活用し、質問に対して最適な回答を導き出すAIbox。RAG技術を活用して、FAQや過去の問い合わせ履歴からも正確な情報を引き出せるので、担当者の違いによる対応のバラつきもありません。AI導入の検討をしている企業は、ぜひ「AIbox」をチェックしてみてください!
問合せ先
スノーリーズ株式会社について
バックオフィス向けソリューション AIboxについて
Comments