PDFは「閲覧用の最終フォーマット」なので、翻訳には最も向かない形式です。 それでも実務では避けられません。本記事ではPDF翻訳が難しい理由と、 品質を担保しながら効率的に翻訳する実務的なアプローチを解説します。 対象は契約書、提案書、IR資料、製品マニュアルなどビジネス文書全般です。
なぜPDF翻訳は難しいのか
1. レイアウトとフォントへの依存
PDFはページ単位の絶対座標で要素を配置しています。日本語と英語では同じ内容でも文字数が大きく違う(英語は日本語の1.3〜1.5倍が一般的)ため、 単純に置き換えるとボックスからテキストが溢れる、 改行位置がずれる、という問題が必ず発生します。
2. テキストPDFとスキャンPDFの違い
同じPDFでも中身は2種類あります:
- テキストPDF:文字情報がそのまま埋め込まれている。コピペできる。翻訳ツールで処理しやすい。
- スキャンPDF(画像PDF):紙をスキャンしただけ。画像として保存されている。OCRが必要。
ファイルを開いてテキストが選択できれば前者、できなければ後者です。 スキャンPDFはOCRの精度が翻訳品質の天井を決めるため、別途対策が必要になります。
3. 表・図・画像内テキスト
グラフのラベル、フローチャートのボックス、組織図、画像内のキャプションは、 多くのPDF翻訳ツールが無視するか、レイアウトを破壊して訳すかのどちらかです。 これらが多い文書(IR資料、研修資料、製品仕様書)では特に注意が必要です。
PDF翻訳の3つのアプローチ
アプローチA:テキスト抽出 → Wordで翻訳 → PDF化
最も伝統的な方法。Adobe AcrobatやWord変換ツールでPDFをWordに変換し、 翻訳してから再度PDFに書き出す。レイアウトは大幅に崩れるので、 手作業の再フォーマットが必須です。
向いているケース:レイアウトより内容が重要な文書(社内メモ、議事録)。避けるべきケース:契約書、提案書、IR資料など見た目が重要な文書。
アプローチB:AI翻訳ツールで原本形式を保持
最新のAI翻訳ツール(BizHonyakuを含む)は、PDFのレイアウトを保ったまま翻訳できます。 テキストブロック、表、リストの構造を維持したまま訳文に置き換える方式です。
- 長所:再フォーマット工数がほぼゼロ。元の見た目に近いPDFが手元に届く。
- 短所:複雑なレイアウト(多段組、図表が密集)では完全には維持できない場合がある。
現代のビジネス文書翻訳のデフォルトはこのアプローチです。
アプローチC:スキャンPDFはOCR + 翻訳の2段階
スキャンPDFはまずOCR(光学文字認識)でテキストを抽出してから翻訳します。 OCRの精度は文字の鮮明さ、フォント、レイアウトに依存します。
- 印刷品質が良い文書:OCR精度95%以上
- スキャン解像度が低い、手書き混在:60〜80%
- 古い文書、コピーのコピー:50%以下のことも
OCR後の原文確認は必須です。誤認識があるとそのまま誤訳に直結します。
品質を担保する5つのチェック項目
1. 数値・日付・固有名詞
PDFのレイアウト崩れで数字が分割されたり、桁数が変わることがあります。 財務数値、契約金額、日付は翻訳後に必ず原文と突合してください。
2. ページ番号・目次の整合性
日本語と英語では文字数が違うのでページ数が変わります。目次のページ番号、 「P.5参照」のような相互参照が機能しているか確認が必要です。
3. 表内テキストとセル幅
表のセル幅は固定なので、英語が長くなるとセルから溢れます。 翻訳後に表が破綻していないか目視確認が必要です。
4. ヘッダー・フッターの統一
ヘッダーやフッター(会社名、機密区分、ページ番号)は翻訳対象に含まれているか、 意図的に英語版に書き換えるかの判断が必要です。多くのツールがここを見落とします。
5. 添付・別紙の翻訳漏れ
本体PDFと別紙PDFが分かれている場合、別紙が翻訳されないままになる事故が頻発します。 提出前に全添付ファイルのリストを作って、すべて翻訳済みか確認する運用を推奨します。
業務文書タイプ別のおすすめアプローチ
- 契約書PDF:アプローチB(AI翻訳でレイアウト保持)+ 法務レビュー必須
- 提案書・営業資料:アプローチB。図表が多ければ手作業で図内テキストを別途翻訳
- IR資料・年次報告書:アプローチBが基本だが、最終版はネイティブのチェック必須
- マニュアル・取扱説明書:アプローチB。用語集を必ず適用
- スキャンされた古い文書:アプローチC(OCR)後にアプローチB
BizHonyakuのPDF翻訳
BizHonyakuはPDFをレイアウトを保持したまま翻訳します:
- テキストブロックの構造を保ったまま訳文を配置
- 表、リスト、見出しの階層を維持
- 用語集を適用して固有名詞・社内用語の訳を統一
- 原文と訳文を並べて確認できる対訳ビュー
- 1ページから無料でプレビュー可能(透かし付き)
スキャンPDFも対応していますが、OCR精度が低い文書は事前にお問い合わせください。
まとめ
PDF翻訳の品質は、(a) PDFの種類(テキストかスキャンか)、(b) レイアウトの複雑さ、(c) 翻訳後のチェック工程の3点で決まります。 現代的なAI翻訳ツールはレイアウト維持型がデフォルトになりつつあるので、 旧来の「Word変換 → 翻訳 → PDF化」ワークフローはもう必要ありません。
まずは1ページプレビューで品質と仕上がりを確認してから、本番運用に乗せるのが安全な始め方です。