【検証レポ】生成AI×書類OCRはどこまで使える？複数フォーマットのPDF請求書をGeminiで自動転記させてみた

毎月、大量に送られてくる請求書や見積書。フォーマットは取引先ごとにバラバラで、会計ソフトやExcelに手入力する作業に多くの時間を費やしていないでしょうか。手作業による入力ミスや、確認のためのダブルチェックなど、経理部門の負担は計り知れません。こうした定型的ながらも手間のかかる業務は、ビジネスの生産性を阻害する大きな要因となっています。しかし、近年の生成AI技術の進化、特に画像やドキュメントの内容を深く理解する「マルチモーダルAI」の登場により、この状況は劇的に変わろうとしています。従来のOCR（光学的文字認識）が抱えていた課題を克服し、人間のように書類の文脈を読み取って正確にデータ化できるようになったのです。今回は、弊社の代表である岡田とエンジニアの秋月が、最新の生成AI、特にGoogleのGeminiを用いて、フォーマットの異なる複数の請求書PDFをどこまで正確にデータ化できるのか、その実用性を検証した際の対談内容をお届けします。この検証が、貴社の業務効率化のヒントになれば幸いです。従来のOCRと生成AI（マルチモーダルAI）によるOCRの決定的違い岡田：まず前提として、これまでのOCRと今の生成AI、特にGeminiが搭載しているようなマルチモーダルAIによるOCRには、根本的な違いがあります。従来のOCR技術は、特定の帳票、つまり決められたフォーマットの書類にしか、高い精度で対応できませんでした。例えば、請求書のレイアウトが少しずれたり、項目名が異なったりするだけで、検知精度が大きく下がってしまうという問題があったんです。秋月：そうですね。事前に「この座標に書かれているのが請求日」「ここが合計金額」といったように、テンプレートを細かく設定しておく必要がありました。岡田：しかし、マルチモーダルAIのOCRは、人間のように書類に書かれている内容そのものを理解した上で情報を抽出します。そのため、請求書のレイアウトや書き方、フォーマットが取引先ごとに異なっていても、AIが「これは請求金額だな」「これが支払期日だな」と文脈を判断して、正確にデータを抜き出すことができるんです。マルチモーダルAIの強み機能従来型OCR生成AI (マルチモーダル) OCRフォーマット対応特定のテンプレートに依存。位置がずれると精度低下。フォーマット不問。レイアウトが異なっても内容を理解して抽出。文脈理解限定的。文字をテキストとして認識するのみ。可能。「請求金額」「発行日」などの意味を理解。多言語対応対応言語が限られる場合が多い。非常に強い。多くの言語を高い精度で認識。付加機能限定的。単位変換（例: 1KG→1000g）や、グラフからの数値抽出も可能。柔軟性低い。帳票ごとに設定が必要。高い。多様な非定型帳票に対応できる。岡田：多言語に強いのも特徴ですし、例えば書類に1KGと書かれていたら、それを1000MGに単位変換して出力するといった芸当も可能です。さらに、報告書にあるようなグラフの画像を読み込んで、その数値をデータとして取り出すといった、人間が目で見て書き写すような作業も得意です。【実践】Geminiで複数フォーマットの請求書をOCR処理してみた岡田：口頭での説明だけでは伝わりにくいので、実際に試したデモをお見せします。今回は、取引先から送られてくることを想定し、あえてフォーマットが全く異なる複数の請求書PDFを用意しました。%3Cdiv%20style%3D%22position%3A%20relative%3B%20padding-bottom%3A%2062.42774566473989%25%3B%20height%3A%200%3B%22%3E%3Ciframe%20src%3D%22https%3A%2F%2Fwww.loom.com%2Fembed%2Ffcc50c29c05642d7b8bfaed801929d84%3Fsid%3D7e39e769-f5b9-4256-8ca8-a1c9982c31b2%22%20frameborder%3D%220%22%20webkitallowfullscreen%20mozallowfullscreen%20allowfullscreen%20style%3D%22position%3A%20absolute%3B%20top%3A%200%3B%20left%3A%200%3B%20width%3A%20100%25%3B%20height%3A%20100%25%3B%22%3E%3C%2Fiframe%3E%3C%2Fdiv%3E岡田：正直、請求書レベルであれば既存の特化型OCRサービスでも対応できるものはありますが、今回は生成AIの汎用的な能力を試すためにあえてこの題材を選んでいます。見ての通り、請求元の会社名やレイアウトは全部違います。これをGoogle Apps Script（GAS）を使って並列処理させ、まとめてGeminiに処理させてみました。具体的には、GoogleドライブにあるPDFファイルを読み込み、その内容をGeminiに解釈させて、結果をスプレッドシートに出力するという流れです。秋月：並列化して、5個くらいまとめて処理させているんですね。岡田：そうです。そして、これが実際に出力された結果です。岡田：以前、30個くらいの請求書で試したんですが、結果は全てノーミスでした。 これだけ精度が高いと、実務での活用がかなり現実味を帯びてきます。生成AI×OCRで実現できる業務自動化の可能性秋月：この技術、本当にすごいですね。経理代行を外部に依頼している会社も多いですが、この仕組みを使えばかなりの部分を内製化できてしまいそうです。岡田：間違いなくそうですね。例えば、経理業務には「消込作業」というものがあります。これは、銀行口座への入金記録と、こちらが発行した請求書の情報を突合させて、支払いが正しく行われたかを確認する作業です。このプロセスも、銀行の入出金データをAPIで取得し、OCRでデータ化した請求書情報と照合させることで、支払いの漏れや遅延を自動でチェックできるようになります。秋月：なるほど。逆の使い方もできますね。業務委託の方から送られてきた請求書と、実際の稼働時間を記録したデータを突合させて、請求内容が正しいかを自動でチェックするとか。岡田：その通りです。これまでは担当者が一件一件、目で見て確認していた作業がほぼ自動化できる。特に、月に数百、数千枚といった帳票を処理している会社や、弊社のような経理代行（BPO）サービスを提供している会社にとっては、無限の可能性があると感じています。精度100%は可能？AIによるOCRの課題と対策岡田：ただ、一点注意すべきなのは、精度が100%とは断言できないことです。私のテストではノーミスでしたが、「1000件に1件はミスが起こるかもしれない」という前提で考えるべきです。その万が一のミスのために、最終的なチェックを行う人間はまだ必要だというのが現状の認識です。秋月：そのチェック作業も、AIにやらせることはできないんでしょうか。例えば、違うAIモデルを使ってクロスチェックするとか。岡田：非常に良い視点ですね。異なるモデルでダブルチェックさせると精度が向上する可能性があります。例えば、現在のAIモデルにはそれぞれ得意・不得意があります。Gemini: 画像認識能力が高く、OCRの精度が非常に高い。GPT-4o: 長文の読解や、抽出した情報を構造化するのが得意。これを組み合わせることで、以下のようなワークフローが考えられます。まず、OCR性能に優れたGeminiに請求書PDFを読み込ませ、書かれている全ての文字をテキスト化させる。次に、そのテキストデータをGPT-4oに渡し、「請求元」「金額」といった項目に正確に分解・構造化させる。秋月：なるほど。一つのモデルに全てを任せるのではなく、それぞれの強みを活かして役割分担させるわけですね。それなら、人間によるチェックの負担も大幅に軽減できそうです。岡田：はい。このようにモデルを組み合わせることで、限りなく100%に近い精度を目指せるでしょう。まとめ今回の検証を通じて、生成AI、特にGeminiのようなマルチモーダルAIを活用したOCRが、もはや実験的な技術ではなく、実務に十分耐えうるレベルに達していることが明らかになりました。フォーマットの異なる請求書を、ほぼノーミスで自動的にデータ化できる能力は、経理部門をはじめとするバックオフィス業務に革命をもたらす可能性を秘めています。もちろん、100%の精度を保証するものではなく、当面は人間による最終チェックが必要ですが、それも複数のAIモデルを組み合わせる「クロスチェック」によって、限りなく自動化に近づけることができるでしょう。これまで手作業でのデータ入力に費やしていた膨大な時間を解放し、より付加価値の高い業務に集中する。生成AIは、そんな未来を現実のものにしようとしています。その業務課題、AIで解決できるかもしれません「AIエージェントで定型業務を効率化したい」「社内に眠る膨大なデータをビジネスに活かしたい」このような課題をお持ちではありませんか？私たちは、お客様一人ひとりの状況を丁寧にヒアリングし、本記事でご紹介したような最新のAI技術を活用して、ビジネスを加速させるための最適なご提案をいたします。AI戦略の策定から、具体的なシステム開発・導入、運用サポートまで、一気通貫でお任せください。「何から始めれば良いかわからない」という段階でも全く問題ありません。 まずは貴社の状況を、お気軽にお聞かせください。＞＞ AI開発・コンサルティングの無料相談はこちらFAQ（よくある質問）Q1. 生成AIを使ったOCRの導入には、専門知識や高額なコストが必要ですか？A1. 必ずしもそうとは限りません。本記事で紹介したGeminiなどはAPI経由で比較的安価に利用を開始できます。Google Apps Scriptなどを使えば、プログラミングの初歩的な知識で簡単な自動化ツールを構築することも可能です。より高度なシステム連携やセキュリティ要件が伴う場合は、専門の開発会社に相談することをお勧めします。初期投資を抑え、スモールスタートで効果を検証しながら進めることが成功の鍵です。Q2. 請求書や見積書以外に、どのような書類に対応できますか？A2. 生成AIのOCRは特定のフォーマットに依存しないため、非常に幅広い書類に対応できます。例えば、領収書、納品書、契約書、アンケート用紙、議事録、さらには手書きのメモなど、テキスト情報が含まれるものであれば、原理的にデータ化が可能です。ただし、書類の複雑さや手書き文字の癖などによって精度は変動します。Q3. 機密情報を含む書類をAIに読み込ませても、セキュリティ的に安全ですか？A3. 非常に重要な点です。OpenAIやGoogleなどが提供する法人向けのAPIサービスでは、多くの場合、送信したデータがAIの学習に再利用されないことが規約で定められています。しかし、自社のセキュリティポリシーと照らし合わせ、利用するサービスの規約を十分に確認することが不可欠です。オンプレミス環境や、セキュリティを強化したプライベートな環境で利用できるAIモデルもあるため、要件に応じて最適なソリューションを選択する必要があります。用語解説・注釈Gemini: Googleが開発したマルチモーダル生成AIモデル。テキストだけでなく、画像、音声、動画などを統合的に理解できる能力を持つ。本記事では主にGemini 2.5 Flashを想定している。GPT-4o: OpenAI社が開発した生成AIモデル。自然言語処理の能力が非常に高く、対話や文章生成、要約、構造化などが得意。マルチモーダルAI: テキスト、画像、音声など、複数の異なる種類（モダリティ）の情報を同時に処理・理解できるAIのこと。OCR (Optical Character Recognition): 光学文字認識。画像データの中から文字を見つけ出し、テキストデータに変換する技術。Google Apps Script (GAS): Googleが提供する、JavaScriptベースのプログラミング環境。GoogleスプレッドシートやGmail、GoogleドライブなどのGoogleサービスを連携・自動化できる。BPO (Business Process Outsourcing): 企業が自社の業務プロセスの一部を、専門的な外部企業に委託すること。経理代行や人事代行などが代表例。