PDFビジネス文書翻訳の品質を保つ実務ガイド：レイアウト保持と5つのチェック項目

PDFは「閲覧用の最終フォーマット」なので、翻訳には最も向かない形式です。それでも実務では避けられません。本記事ではPDF翻訳が難しい理由と、品質を担保しながら効率的に翻訳する実務的なアプローチを解説します。対象は契約書、提案書、IR資料、製品マニュアルなどビジネス文書全般です。

なぜPDF翻訳は難しいのか

1. レイアウトとフォントへの依存

PDFはページ単位の絶対座標で要素を配置しています。日本語と英語では同じ内容でも文字数が大きく違う（英語は日本語の1.3〜1.5倍が一般的）ため、単純に置き換えるとボックスからテキストが溢れる、改行位置がずれる、という問題が必ず発生します。

2. テキストPDFとスキャンPDFの違い

同じPDFでも中身は2種類あります：

テキストPDF：文字情報がそのまま埋め込まれている。コピペできる。翻訳ツールで処理しやすい。
スキャンPDF（画像PDF）：紙をスキャンしただけ。画像として保存されている。OCRが必要。

ファイルを開いてテキストが選択できれば前者、できなければ後者です。スキャンPDFはOCRの精度が翻訳品質の天井を決めるため、別途対策が必要になります。

3. 表・図・画像内テキスト

グラフのラベル、フローチャートのボックス、組織図、画像内のキャプションは、多くのPDF翻訳ツールが無視するか、レイアウトを破壊して訳すかのどちらかです。これらが多い文書（IR資料、研修資料、製品仕様書）では特に注意が必要です。

PDF翻訳の3つのアプローチ

アプローチA：テキスト抽出 → Wordで翻訳 → PDF化

最も伝統的な方法。Adobe AcrobatやWord変換ツールでPDFをWordに変換し、翻訳してから再度PDFに書き出す。レイアウトは大幅に崩れるので、手作業の再フォーマットが必須です。

向いているケース：レイアウトより内容が重要な文書（社内メモ、議事録）。避けるべきケース：契約書、提案書、IR資料など見た目が重要な文書。

アプローチB：AI翻訳ツールで原本形式を保持

最新のAI翻訳ツール（BizHonyakuを含む）は、PDFのレイアウトを保ったまま翻訳できます。テキストブロック、表、リストの構造を維持したまま訳文に置き換える方式です。

長所：再フォーマット工数がほぼゼロ。元の見た目に近いPDFが手元に届く。
短所：複雑なレイアウト（多段組、図表が密集）では完全には維持できない場合がある。

現代のビジネス文書翻訳のデフォルトはこのアプローチです。

アプローチC：スキャンPDFはOCR + 翻訳の2段階

スキャンPDFはまずOCR（光学文字認識）でテキストを抽出してから翻訳します。 OCRの精度は文字の鮮明さ、フォント、レイアウトに依存します。

印刷品質が良い文書：OCR精度95%以上
スキャン解像度が低い、手書き混在：60〜80%
古い文書、コピーのコピー：50%以下のことも

OCR後の原文確認は必須です。誤認識があるとそのまま誤訳に直結します。

品質を担保する5つのチェック項目

1. 数値・日付・固有名詞

PDFのレイアウト崩れで数字が分割されたり、桁数が変わることがあります。財務数値、契約金額、日付は翻訳後に必ず原文と突合してください。

2. ページ番号・目次の整合性

日本語と英語では文字数が違うのでページ数が変わります。目次のページ番号、「P.5参照」のような相互参照が機能しているか確認が必要です。

3. 表内テキストとセル幅

表のセル幅は固定なので、英語が長くなるとセルから溢れます。翻訳後に表が破綻していないか目視確認が必要です。

4. ヘッダー・フッターの統一

ヘッダーやフッター（会社名、機密区分、ページ番号）は翻訳対象に含まれているか、意図的に英語版に書き換えるかの判断が必要です。多くのツールがここを見落とします。

5. 添付・別紙の翻訳漏れ

本体PDFと別紙PDFが分かれている場合、別紙が翻訳されないままになる事故が頻発します。提出前に全添付ファイルのリストを作って、すべて翻訳済みか確認する運用を推奨します。

業務文書タイプ別のおすすめアプローチ

契約書PDF：アプローチB（AI翻訳でレイアウト保持）+ 法務レビュー必須
提案書・営業資料：アプローチB。図表が多ければ手作業で図内テキストを別途翻訳
IR資料・年次報告書：アプローチBが基本だが、最終版はネイティブのチェック必須
マニュアル・取扱説明書：アプローチB。用語集を必ず適用
スキャンされた古い文書：アプローチC（OCR）後にアプローチB

BizHonyakuのPDF翻訳

BizHonyakuはPDFをレイアウトを保持したまま翻訳します：

テキストブロックの構造を保ったまま訳文を配置
表、リスト、見出しの階層を維持
用語集を適用して固有名詞・社内用語の訳を統一
原文と訳文を並べて確認できる対訳ビュー
1ページから無料でプレビュー可能（透かし付き）

スキャンPDFも対応していますが、OCR精度が低い文書は事前にお問い合わせください。

まとめ

PDF翻訳の品質は、(a) PDFの種類（テキストかスキャンか）、(b) レイアウトの複雑さ、(c) 翻訳後のチェック工程の3点で決まります。現代的なAI翻訳ツールはレイアウト維持型がデフォルトになりつつあるので、旧来の「Word変換 → 翻訳 → PDF化」ワークフローはもう必要ありません。

まずは1ページプレビューで品質と仕上がりを確認してから、本番運用に乗せるのが安全な始め方です。