これまで多くの企業で導入されてきたRPA(Robotic Process Automation)。定型業務を自動化し、生産性向上に貢献してきた一方で、その限界も見え始めています。「少しでも手順が変わると止まってしまう」「導入やメンテナンスのコストが高い」といった柔軟性の欠如は、変化の激しい現代のビジネス環境において大きな課題です。しかし今、AIの進化がその壁を打ち破ろうとしています。単なる手順の模倣ではなく、目的を理解し、自律的にタスクを遂行する「AIエージェント」。この技術を活用した「知的オートメーション(Intelligent Automation)」は、RPAが担いきれなかった非定型業務や、より複雑な判断を伴う業務の自動化を可能にします。これまで人手に頼らざるを得なかった領域をソフトウェアが代替する、まさにゲームチェンジの到来です。この記事では、そんな知的オートメーションの可能性を体現するサービス「Browser Use」を取り上げます。LLM(大規模言語モデル)を活用してブラウザ操作を自動化するこのツールは、私たちの働き方をどう変えるのか。そして、RPAの未来はどうなるのか。代表の岡田とエンジニアの秋月が、その実力と可能性について徹底的に語り合いました。LLMがブラウザを操作する「Browser Use」とは?岡田:今回は「Browser Use」というサービスについて紹介できればと思います。簡単に言うと、ブラウザの自動操作にLLMを組み合わせたようなサービスです。プロンプトで一度指示を与えるだけで、LLMがボタンの箇所などを自動で検知し、ステップバイステップでタスクを進めてくれる仕組みになっています。秋月:なるほど。RPAのようにセレクタを細かく指定しなくても、AIが自律的に判断してくれるわけですね。岡田:その通りです。実際の画面を見ながら使い方を説明します。まず、ここで使用するLLMのモデルを選べます。今回はClaude 4 Sonnetにしておきましょう。プロキシの設定や、アクセスするドメインの制限も可能です。また、「シークレット」という機能で、IDやパスワードのような機密情報を安全に保管しておけます。秋月:認証が必要なサイトでも使えるのは便利ですね。岡田:では、試しに「エアトリで明日の羽田発、大分行きの片道航空券を検索してください」と入力してみます。岡田:このように、新しいブラウザが起動しました。これはChromeのようですね。今、画面上の各要素に番号が振られています。LLMはこれを認識して、次にどこをクリックすべきかを判断しています。秋月:まさにAIが画面を見て操作している感じですね。エアトリのサイトを開いて、デフォルトで出発地と到着地が入力されていますが、これはエアトリ側の仕様ですね。岡田:ええ。そして今、AIは出発日が「明日」であるかをチェックしています。お、出発日を変更しようとしていますね。…ですが、うまく認識されなかったようです。往復にもなってしまっています。秋月:やはり、複雑なUIだとまだ完璧にはいかない部分もあるんですね。岡田:ただ、ここで面白いのが「テイクコントロール」という機能で、人間が途中で操作を助けることができるんです。私が手動で日付を修正して、ここから再度AIに処理を任せます。秋月:なるほど、AIと人間が協調して作業を進められるんですね。これは実用的かもしれません。裏側ではPlaywrightのようなテスト自動化フレームワークを使っているのでしょうか。岡田:その可能性はありますね。今、検索結果画面をスクロールして情報を探してくれています。ただ、このステップ数には上限があるようで、あまりに複雑なタスクは途中で止まってしまう可能性があります。秋月:モデルの性能にも依存しそうですね。Claude 4 Opusのような、より高性能なモデルを使えば結果は変わるかもしれません。岡田:そうですね。一つの指示(タスク)をより小さく分解して、「Google検索だけするタスク」「チケットを取ってくるタスク」のように分ければ、性能は上がるかもしれません。お、最終的にチケットを見つけてくれたようです。性能とコストの壁秋月:このBrowser Useの性能は、客観的にどのレベルなのでしょうか?岡田:公式サイトでは「WebVoyager」というベンチマークが使われています。これによると、他の類似ツールよりも高いスコアを記録しているようです。このベンチマークが面白くて、「このサイトからベジタリアン用のラザニアの高評価レシピを探し、必要な主要材料をリストアップする」といった、かなり具体的な問題と正解のセットで評価されています。秋月:単なるクリック成功率ではなく、目的を達成できたかで評価しているわけですね。岡田:はい。ただ、成功率は90%程度なので、従来のRPAと同じような感覚でミッションクリティカルな業務に使うのはまだ難しいかもしれません。UIが頻繁に変わるWebサイトの自動化など、RPAが苦手としていた領域では、こちらの方が優れている可能性はあります。秋月:なるほど。もう一つ気になるのが、デメリットです。岡田:明確なデメリットは、動作が非常に遅いことと、コストです。秋月:コストはどのくらいかかるのですか?岡田:料金体系を見ると、1ステップごとの課金になっています。例えば、Claude 3.7 sonnetを使って1ステップのタスクを実行すると、$0.03ドルかかります。日本円で約5円ですね。秋月:1ステップ5円ですか…。さっきの航空券予約は10ステップくらいかかっていたので、1タスク50円。毎日動かすとなると結構な金額になりますね。岡田:例えば、企業リストを作成するタスクを考えてみましょう。「あるキーワードで検索(1ステップ)→企業サイトにアクセス(1ステップ)→会社概要を確認(1ステップ)」と、1社あたり3〜5ステップかかるとします。1社25円として、1,000社で25,000円、1万社で25万円。価値の高い業務でなければ、費用対効果が見合わないかもしれません。秋月:失敗したステップも課金されるのであれば、なおさらですね。現状ではまだ「面白い技術」の枠で、本格的なビジネス利用は限定的かもしれません。知的オートメーションが切り拓くRPAの次なる未来岡田:ただ、この技術が目指しているビジョンは非常に大きいんです。アンドリーセン・ホロウィッツ(a16z)も指摘していますが、これまでのRPAは、人間が行うクリックやキーボード入力を真似するだけで、少しでも手順が変わると止まってしまう柔軟性のなさが課題でした。秋月:まさに、現場でよく聞く話です。岡田:それに対して、Browser Useのような「知的オートメ-ション」は、単なる手順の模倣ではありません。「〇〇を予約して、このデータをDBに入れて」といった目的を理解し、自律的に動くエージェントです。これは、これまで人手に頼っていた事務作業、データ入力、書類処理や、BPO(ビジネス・プロセス・アウトソーシング)として外注されていた業務を、ソフトウェアで完結できる可能性を秘めています。秋月:市場規模は計り知れないですね。この領域には、セールスにおけるSalesforceのような絶対的な王者がまだ存在しない。なぜなら、これまでの「製品」は「人」だったからです。岡田:その通りです。だからこそ、新規参入のチャンスが大きい。例えば、病院がFAXで受け取る紹介状をAI-OCRで読み取り、患者情報を自動で電子カルテに入力するシステム。あるいは、物流業界でメールで届く大量の配送依頼をAIが理解し、見積もり作成から基幹システムへの入力までを自動化する、といったことが現実になっています。秋月:秘書的な業務も自動化できそうですね。「社長の会食先の予約を取っておいて」といった曖昧な指示も、将来的にはAIエージェントがこなせるようになるでしょう。岡田:ええ。今はまだ精度やコストの面で人間がやった方が安いし正確ですが、技術は確実に進化します。Browser Useのようなツールは、その未来を予感させるものです。RPAが担ってきた「定型業務の自動化」から、AIエージェントによる「知的業務の自動化」へ。この大きなシフトは、すでに始まっています。秋月:確かに。単純な繰り返し作業だけでなく、ある程度の知的判断が必要な業務を自動化する、というコンセプトは非常に納得感があります。岡田:Browser Useはまだ発展途上ですが、これが進化していった先には、あらゆるホワイトカラー業務が変革される未来が待っている。そう感じさせる、非常に面白いツールでした。その業務課題、AIで解決できるかもしれません「AIエージェントで定型業務を効率化したい」 「社内に眠る膨大なデータをビジネスに活かしたい」このような課題をお持ちではありませんか?私たちは、お客様一人ひとりの状況を丁寧にヒアリングし、本記事でご紹介したような最新のAI技術を活用して、ビジネスを加速させるための最適なご提案をいたします。AI戦略の策定から、具体的なシステム開発・導入、運用サポートまで、一気通貫でお任せください。「何から始めれば良いかわからない」という段階でも全く問題ありません。 まずは貴社の状況を、お気軽にお聞かせください。>> AI開発・コンサルティングの無料相談はこちら注釈(登場したツール・サービス)Browser Use: LLM(大規模言語モデル)を活用し、自然言語の指示に基づいてブラウザ操作を自動化するサービス。AIが画面を認識し、自律的にタスクを遂行する「知的オートメーション」を実現する。Claude 4: Anthropic社が開発した大規模言語モデル。Sonnet、Opusの2つのモデルがあり、性能と速度のバランスが異なる。対談ではSonnetが使用された。Playwright: Microsoftが開発したオープンソースのブラウザ自動化ライブラリ。Webアプリケーションのテストや、Webスクレイピングなどに利用される。RPA (Robotic Process Automation): PC上で行われる定型的なキーボードやマウスの操作をソフトウェアロボットに記録させ、自動化する技術。a16z (Andreessen Horowitz): シリコンバレーを拠点とする世界的に著名なベンチャーキャピタル。テクノロジー業界のトレンドに関する深い洞察で知られる。