Googleとかで何か調べものしてるとき、以前はまちがってPDFのリンクを開いてしまうと、ブラウザが固まってしまったかのような状態に陥り、そのたびに後悔。
今は全然違う。
軽さで定評のある Foxit Reader を使うようになってからは、PDFだろうがなんだろうが、ばんばんリンクを踏み歩く日々。
鈍重な Adobe Reader はもちろんアンインストール。
PDFから貴重な情報を得ることもある。
そこで欲しくなったのが、PDFをできるだけ正確にテキスト変換してくれるフリーウェア。
今使ってるのが、PDFDocText.
Windows用。
作者のreadme.txtを少し引用させてもらう。
§1. 概要
PDFファイルをテキストファイルに変換するツールです。
テキスト変換はページ・ファイル単位で行うことができます。--------------------------------------------------------------------------------
§2. 制限事項と仕様・中国語、韓国語には対応していません。
・抽出されたテキストはレイアウト(文字と改行位置)が不適当な場合があります。
・しおりやフォーム、注釈などからはテキストを抽出できません。※1
・セキュリティが設定されているPDFファイルからはテキストを抽出できません。※2
・PDFファイルがLZWで圧縮されている場合はテキストを抽出できません。※3
・Acrobat6.0(PDF1.5)以降の形式には対応していません。※1 PDFファイルからしおりと文書情報を取得したい場合は「PDFDocInfo」をご利用ください。
※2 暗号化技術には特許と輸出規制(?)があるみたいなので対応することはできません。
※3 LZW圧縮されているPDFファイルはほとんどありませんので問題はないと思います。(過去の遺物です)--------------------------------------------------------------------------------
§3. 対応しているフォントのエンコーディング欧米
WinAnsiEncoding
MacRomanEncoding
MacExpertEncoding
StandardEncoding日本語
Identity-H Ext-RKSJ-H
Identity-V Ext-RKSJ-V
83pv-RKSJ-H EUC-H
90pv-RKSJ-H EUC-V
90ms-RKSJ-H H
90ms-RKSJ-V V
90msp-RKSJ-H UniJIS-UCS2-H
90msp-RKSJ-V UniJIS-UCS2-V
Add-RKSJ-H UniJIS-UCS2-HW-H
Add-RKSJ-V UniJIS-UCS2-HW-V※フォントのエンコーディングが「ビルドイン」となっているものについては、
文書内にCMapリソースがある場合のみ対応可能です。(ビルドインの場合は通常、文書内にあります)
※フォントのエンコーディングが「カスタム」となっているものについては、
正常にテキストを取得できない場合があります。(アクロバットでも正常にテキスト抽出を行えません。PDFファイルの仕様です)

このPDFDocTextの機能を一言で言うと、PDFのテキストファイル変換。
つまりhogehoge.pdfというファイルを読み込んでhogehoge.txtというファイルを生成するというもの。
(単純にテキストとして表示するだけなら、FoxitReaderにもその種の機能がある)
ほとんどのPDFで特に問題なく変換をおこなってくれる。たまに対応していない形式のPDFにもお目にかかるけど、めったにそういうのはないから、実用度は高いと思う。
問題はちゃんと読めるようなテキストになってくれるかどうか。ようするにレイアウトが無茶苦茶になるPDFもあるということ。
そういうのは、このPDFDocTextに問題があるというより、そのPDFのつくりかたに問題があるのではないかと。
その証拠に、レイアウトに凝ったPDFをテキストに変換すると非常に読みにくいけど、画像を多用せず文字情報が多いPDFでは、非常に楽に読めるテキストファイルが生成される。
レジストリをいじるわけではないので、気軽に使える。
PDFDocTextを起動すると、非常にあっさりとしたウィンドウが開かれる。
そこにPDFをドラッグ、ドロップしてもいいんだけど、WindowsのSendToフォルダにPDFDocTextのショートカットを入れておくのが賢い使い方かな。