【検証レポ】生成AI×書類OCRはどこまで使える?複数フォーマットのPDF請求書をGeminiで自動転記させてみた
最終更新日:
2025.10.14

監修者情報

岡田 徹
NOVEL株式会社 代表取締役
大阪大学在学中よりエンジニアとして活動し、複数のプロダクト立ち上げを経験。
2019年2月にNOVEL株式会社を設立。
2022年より生成AI領域に特化し、
AIライティングSaaS『SAKUBUN』(累計70万回利用・2万アカウント)を企画・開発。大手メディアや人材企業・出版企業への導入実績を持つ。
現在は中堅企業向けAIコンサルティングに注力し、製造業・小売業・金融機関など業種を問わず、生成AIの導入から定着までを一気通貫で支援している。
著書: 『2冊目に学ぶ ChatGPTプロンプト攻略術』(C&R研究所、2024年)
この記事に関連するお役立ち資料

AIを活用した業務自動化 事例BOOK
無料ダウンロード
毎月、大量に送られてくる請求書や見積書。フォーマットは取引先ごとにバラバラで、会計ソフトやExcelに手入力する作業に多くの時間を費やしていないでしょうか。手作業による入力ミスや、確認のためのダブルチェックなど、経理部門の負担は計り知れません。こうした定型的ながらも手間のかかる業務は、ビジネスの生産性を阻害する大きな要因となっています。
しかし、近年の生成AI技術の進化、特に画像やドキュメントの内容を深く理解する「マルチモーダルAI」の登場により、この状況は劇的に変わろうとしています。従来のOCR(光学的文字認識)が抱えていた課題を克服し、人間のように書類の文脈を読み取って正確にデータ化できるようになったのです。
今回は、弊社の代表である岡田とエンジニアの秋月が、最新の生成AI、特にGoogleのGeminiを用いて、フォーマットの異なる複数の請求書PDFをどこまで正確にデータ化できるのか、その実用性を検証した際の対談内容をお届けします。この検証が、貴社の業務効率化のヒントになれば幸いです。
岡田:まず前提として、これまでのOCRと今の生成AI、特にGeminiが搭載しているようなマルチモーダルAIによるOCRには、根本的な違いがあります。
従来のOCR技術は、特定の帳票、つまり決められたフォーマットの書類にしか、高い精度で対応できませんでした。例えば、請求書のレイアウトが少しずれたり、項目名が異なったりするだけで、検知精度が大きく下がってしまうという問題があったんです。
秋月:そうですね。事前に「この座標に書かれているのが請求日」「ここが合計金額」といったように、テンプレートを細かく設定しておく必要がありました。
岡田:しかし、マルチモーダルAIのOCRは、人間のように書類に書かれている内容そのものを理解した上で情報を抽出します。そのため、請求書のレイアウトや書き方、フォーマットが取引先ごとに異なっていても、AIが「これは請求金額だな」「これが支払期日だな」と文脈を判断して、正確にデータを抜き出すことができるんです。
機能 | 従来型OCR | 生成AI (マルチモーダル) OCR |
|---|---|---|
フォーマット対応 | 特定のテンプレートに依存。位置がずれると精度低下。 | フォーマット不問。レイアウトが異なっても内容を理解して抽出。 |
文脈理解 | 限定的。文字をテキストとして認識するのみ。 | 可能。「請求金額」「発行日」などの意味を理解。 |
多言語対応 | 対応言語が限られる場合が多い。 | 非常に強い。多くの言語を高い精度で認識。 |
付加機能 | 限定的。 | 単位変換(例: |
柔軟性 | 低い。帳票ごとに設定が必要。 | 高い。多様な非定型帳票に対応できる。 |
岡田:多言語に強いのも特徴ですし、例えば書類に1KGと書かれていたら、それを1000MGに単位変換して出力するといった芸当も可能です。さらに、報告書にあるようなグラフの画像を読み込んで、その数値をデータとして取り出すといった、人間が目で見て書き写すような作業も得意です。

岡田:口頭での説明だけでは伝わりにくいので、実際に試したデモをお見せします。今回は、取引先から送られてくることを想定し、あえてフォーマットが全く異なる複数の請求書PDFを用意しました。
岡田:正直、請求書レベルであれば既存の特化型OCRサービスでも対応できるものはありますが、今回は生成AIの汎用的な能力を試すためにあえてこの題材を選んでいます。見ての通り、請求元の会社名やレイアウトは全部違います。
これをGoogle Apps Script(GAS)を使って並列処理させ、まとめてGeminiに処理させてみました。具体的には、GoogleドライブにあるPDFファイルを読み込み、その内容をGeminiに解釈させて、結果をスプレッドシートに出力するという流れです。
秋月:並列化して、5個くらいまとめて処理させているんですね。
岡田:そうです。そして、これが実際に出力された結果です。

岡田:以前、30個くらいの請求書で試したんですが、結果は全てノーミスでした。 これだけ精度が高いと、実務での活用がかなり現実味を帯びてきます。
秋月:この技術、本当にすごいですね。経理代行を外部に依頼している会社も多いですが、この仕組みを使えばかなりの部分を内製化できてしまいそうです。
岡田:間違いなくそうですね。例えば、経理業務には「消込作業」というものがあります。これは、銀行口座への入金記録と、こちらが発行した請求書の情報を突合させて、支払いが正しく行われたかを確認する作業です。
このプロセスも、銀行の入出金データをAPIで取得し、OCRでデータ化した請求書情報と照合させることで、支払いの漏れや遅延を自動でチェックできるようになります。
秋月:なるほど。逆の使い方もできますね。業務委託の方から送られてきた請求書と、実際の稼働時間を記録したデータを突合させて、請求内容が正しいかを自動でチェックするとか。
岡田:その通りです。これまでは担当者が一件一件、目で見て確認していた作業がほぼ自動化できる。特に、月に数百、数千枚といった帳票を処理している会社や、弊社のような経理代行(BPO)サービスを提供している会社にとっては、無限の可能性があると感じています。
岡田:ただ、一点注意すべきなのは、精度が100%とは断言できないことです。私のテストではノーミスでしたが、「1000件に1件はミスが起こるかもしれない」という前提で考えるべきです。その万が一のミスのために、最終的なチェックを行う人間はまだ必要だというのが現状の認識です。
秋月:そのチェック作業も、AIにやらせることはできないんでしょうか。例えば、違うAIモデルを使ってクロスチェックするとか。
岡田:非常に良い視点ですね。異なるモデルでダブルチェックさせると精度が向上する可能性があります。例えば、現在のAIモデルにはそれぞれ得意・不得意があります。
Gemini: 画像認識能力が高く、OCRの精度が非常に高い。
GPT-4o: 長文の読解や、抽出した情報を構造化するのが得意。
これを組み合わせることで、以下のようなワークフローが考えられます。
まず、OCR性能に優れたGeminiに請求書PDFを読み込ませ、書かれている全ての文字をテキスト化させる。
次に、そのテキストデータをGPT-4oに渡し、「請求元」「金額」といった項目に正確に分解・構造化させる。
秋月:なるほど。一つのモデルに全てを任せるのではなく、それぞれの強みを活かして役割分担させるわけですね。それなら、人間によるチェックの負担も大幅に軽減できそうです。
岡田:はい。このようにモデルを組み合わせることで、限りなく100%に近い精度を目指せるでしょう。
今回の検証を通じて、生成AI、特にGeminiのようなマルチモーダルAIを活用したOCRが、もはや実験的な技術ではなく、実務に十分耐えうるレベルに達していることが明らかになりました。
フォーマットの異なる請求書を、ほぼノーミスで自動的にデータ化できる能力は、経理部門をはじめとするバックオフィス業務に革命をもたらす可能性を秘めています。
もちろん、100%の精度を保証するものではなく、当面は人間による最終チェックが必要ですが、それも複数のAIモデルを組み合わせる「クロスチェック」によって、限りなく自動化に近づけることができるでしょう。
これまで手作業でのデータ入力に費やしていた膨大な時間を解放し、より付加価値の高い業務に集中する。生成AIは、そんな未来を現実のものにしようとしています。
「AIエージェントで定型業務を効率化したい」
「社内に眠る膨大なデータをビジネスに活かしたい」
このような課題をお持ちではありませんか?
私たちは、お客様一人ひとりの状況を丁寧にヒアリングし、本記事でご紹介したような最新のAI技術を活用して、ビジネスを加速させるための最適なご提案をいたします。
AI戦略の策定から、具体的なシステム開発・導入、運用サポートまで、一気通貫でお任せください。
「何から始めれば良いかわからない」という段階でも全く問題ありません。 まずは貴社の状況を、お気軽にお聞かせください。
A1. 必ずしもそうとは限りません。本記事で紹介したGeminiなどはAPI経由で比較的安価に利用を開始できます。Google Apps Scriptなどを使えば、プログラミングの初歩的な知識で簡単な自動化ツールを構築することも可能です。より高度なシステム連携やセキュリティ要件が伴う場合は、専門の開発会社に相談することをお勧めします。初期投資を抑え、スモールスタートで効果を検証しながら進めることが成功の鍵です。
A2. 生成AIのOCRは特定のフォーマットに依存しないため、非常に幅広い書類に対応できます。例えば、領収書、納品書、契約書、アンケート用紙、議事録、さらには手書きのメモなど、テキスト情報が含まれるものであれば、原理的にデータ化が可能です。ただし、書類の複雑さや手書き文字の癖などによって精度は変動します。
A3. 非常に重要な点です。OpenAIやGoogleなどが提供する法人向けのAPIサービスでは、多くの場合、送信したデータがAIの学習に再利用されないことが規約で定められています。しかし、自社のセキュリティポリシーと照らし合わせ、利用するサービスの規約を十分に確認することが不可欠です。オンプレミス環境や、セキュリティを強化したプライベートな環境で利用できるAIモデルもあるため、要件に応じて最適なソリューションを選択する必要があります。
Gemini: Googleが開発したマルチモーダル生成AIモデル。テキストだけでなく、画像、音声、動画などを統合的に理解できる能力を持つ。本記事では主にGemini 2.5 Flashを想定している。
GPT-4o: OpenAI社が開発した生成AIモデル。自然言語処理の能力が非常に高く、対話や文章生成、要約、構造化などが得意。
マルチモーダルAI: テキスト、画像、音声など、複数の異なる種類(モダリティ)の情報を同時に処理・理解できるAIのこと。
OCR (Optical Character Recognition): 光学文字認識。画像データの中から文字を見つけ出し、テキストデータに変換する技術。
Google Apps Script (GAS): Googleが提供する、JavaScriptベースのプログラミング環境。GoogleスプレッドシートやGmail、GoogleドライブなどのGoogleサービスを連携・自動化できる。
BPO (Business Process Outsourcing): 企業が自社の業務プロセスの一部を、専門的な外部企業に委託すること。経理代行や人事代行などが代表例。
最後までお読みいただき、ありがとうございます。
NOVEL株式会社では、生成AIを活用して企業の業務改善や新規プロダクト開発を支援しています。
私たちは「現場に眠るデータをつなぎ人とAIが協働する社会を創る」というビジョンのもと、非IT業界が抱える複雑な課題に日々向き合っています。
もしあなたが、
新しい技術の可能性にワクワクする方
困難な課題解決を楽しめる方
自分の手で「0から1」を創り出す経験をしたい方
であれば、私たちのチームで大きなやりがいを感じていただけるはずです。 まずは、私たちがどんな未来を描いているのか、採用ページで少し覗いてみませんか?
この記事に関連するお役立ち資料を無料ダウンロード

AIを活用した業務自動化 事例BOOK
AI技術を活用した社内業務効率化の基本から、実際の導入ステップまでをわかりやすく解説しています。
下記フォームにご記入下さい。(30秒)
テックユニットは、下記のような方におすすめできるサービスです。
お気軽にご相談ください。
・開発リソースの確保に困っている方
・企業の新規事業ご担当者様
・保守運用を移管したい方
・開発の引き継ぎを依頼したい方


おすすめの記事
関連する記事はこちら
OCRを導入したのに工数が変わらない理由──「一気通貫で自動化しないと意味ない」と断言できる根拠
OCRを導入して読み取りはできるのに、その後のExcel貼り付けや確認作業は人のまま。「一気通貫で自動化しないと全体工数は変わらない」という構造的な理由と、例外処理・辞書の育て方・ROIの出し方を解説します。この記事でわかること「読み取り部...
「3年前に試して無理だった書類」が今は99.9%で読み取れる──生成AIベースOCRが変えた精度の常識
3〜5年前に諦めたOCRを再度試したら99.9%の性能が出た、という現場が増えています。生成AIベースOCR(VLM)が旧来OCRと何が違うのか。精度99%の実態と、図面・手書き書類への対応力の変化を解説します。 この記事でわかる...
使うのは全体の3割だけ──ChatGPTが社内に定着しない「2つの壁」
大企業でも全社導入後に使っているのは2〜3割にとどまる背景と、社内に定着しない「2つの壁」、そして企業によって定着しやすさに差が出る理由を解説します。この記事で分かること・ChatGPTは3000人規模の大企業でも、全社導入後に使っているの...
「提案は立派なのに何も変わらない」を防ぐーー1問で分かるAI導入コンサルの本当の見極め方
AI導入コンサル選びの失敗パターン3つと、面談で使える見極め方を実務経験から解説。「論点整理だけ」「開発はできるがコンサルはできない」など現場で起きる地雷の正体とは?この記事でわかること-AI導入コンサル選びの失敗は「提案の華やかさ」で選ぶ...
AI外注 vs 内製 どっちが正解?3年やって出た答えは"どっちもコケる"
AI外注か内製かで悩む中小企業向けに、どちらを選んでもコケる理由と、成果が出るハイブリッドの分業モデルを実務経験から解説します。この記事でわかること- フル外注もフル内製も、どちらを選んでも失敗しやすい構造的な理由がある- AI導入の失敗は...
そのデータ、本当にAIに使えますか?活用前に整理したい2つのこと
「AIを使いたいけど、うちのデータって本当に使えるのかな……?」そんな不安を感じている企業は少なくありません。ChatGPTなどの生成AIを導入しても、社内データの状態が整っていなければ、期待した答えが返ってこないことはよくあります。そこで...
Excel・Accessがもう限界?移行を判断する10のサインと、中小企業の現実的な進め方
ある日突然、業務が止まる前に「受注管理のExcelを2人で同時に開いたら壊れた。バックアップがなく、1週間分のデータが消えた。」「Accessのデータベース、作った担当者が退職してから誰も触れていない。クラッシュしたら終わり。」「月末の集計...
AI時代に必要なデータ基盤とは?整理しないとAIは使えない
「AIを入れたのに使えない」の本当の原因「ChatGPTを社内に導入したけど、精度が出なくて結局使われていない」「AIで月次レポートを自動化したいのに、どこから手をつければいいかわからない」こうした声は、AI導入を検討している中小企業のあち...
DX推進室がなくても大丈夫!現場主導のAI活用スモールスタート術
「AIの導入は、専門のDX推進室や優秀なAIエンジニアがいる大企業だけの話だ」 「我が社には推進できる人材がいないから…」企業の規模を問わず、多くのビジネスリーダーがAIの可能性を感じながらも、人材不足を理由に最初の一歩を踏み出せずにいます...
AIで営業の優先度付けを自動化|売れる3%に集中する方法
「なぜ、あの人だけが常に高い成果を上げ続けるのか?」 多くの営業組織では、一握りのトップセールスが全体の売上の大半を支えるという、いわゆる「属人化」が長年の課題となっています。彼らの持つ勘や経験を組織に共有するのは難しく、多くの営業担当者は...
方法から入るAI導入は失敗する|現場起点のAI定着設計術
「最新のAIツールを導入したが、現場では全く使われず、ライセンス費用だけが無駄になっている…」 これは、AI導入に取り組む多くの企業が直面する、決して珍しくない現実です。鳴り物入りで始まったプロジェクトが、なぜ現場に受け入れられず、静かに形...
AIは指示待ちから先回りへ。次世代AIエージェントとは
これまで私たちが慣れ親しんできたChatGPTをはじめとする生成AIは、非常に賢いアシスタントでした。しかし、その基本はあくまで「指示待ち」。ユーザーがプロンプトを入力して初めて、その能力を発揮する受動的な存在でした。しかし今、その常識が大...
人気記事ランキング
おすすめ記事