ArtSaltのサイドストーリー

音楽、フリーウェア、WEBサービス、食べものなどに関する日記。トラックバック、コメント歓迎。

地味に便利なPDFDocText

PDFをテキストファイルに変換するソフト

Googleとかで何か調べものしてるとき、以前はまちがってPDFのリンクを開いてしまうと、ブラウザが固まってしまったかのような状態に陥り、そのたびに後悔。
今は全然違う。
軽さで定評のある Foxit Reader を使うようになってからは、PDFだろうがなんだろうが、ばんばんリンクを踏み歩く日々。
鈍重な Adobe Reader はもちろんアンインストール。

PDFから貴重な情報を得ることもある。
そこで欲しくなったのが、PDFをできるだけ正確にテキスト変換してくれるフリーウェア。

今使ってるのが、PDFDocText.
Windows用。

ダウンロードはこちらで。
papy's softwarelibrary - PDF関連のいろんなソフトを数多く扱っている

作者のreadme.txtを少し引用させてもらう。

§1. 概要

PDFファイルをテキストファイルに変換するツールです。
テキスト変換はページ・ファイル単位で行うことができます。

--------------------------------------------------------------------------------
§2. 制限事項と仕様

・中国語、韓国語には対応していません。
・抽出されたテキストはレイアウト(文字と改行位置)が不適当な場合があります。
・しおりやフォーム、注釈などからはテキストを抽出できません。※1
・セキュリティが設定されているPDFファイルからはテキストを抽出できません。※2
・PDFファイルがLZWで圧縮されている場合はテキストを抽出できません。※3
・Acrobat6.0(PDF1.5)以降の形式には対応していません。

※1 PDFファイルからしおりと文書情報を取得したい場合は「PDFDocInfo」をご利用ください。
※2 暗号化技術には特許と輸出規制(?)があるみたいなので対応することはできません。
※3 LZW圧縮されているPDFファイルはほとんどありませんので問題はないと思います。(過去の遺物です)

--------------------------------------------------------------------------------
§3. 対応しているフォントのエンコーディング

欧米
WinAnsiEncoding
MacRomanEncoding
MacExpertEncoding
StandardEncoding

日本語
Identity-H Ext-RKSJ-H
Identity-V Ext-RKSJ-V
83pv-RKSJ-H EUC-H
90pv-RKSJ-H EUC-V
90ms-RKSJ-H H
90ms-RKSJ-V V
90msp-RKSJ-H UniJIS-UCS2-H
90msp-RKSJ-V UniJIS-UCS2-V
Add-RKSJ-H UniJIS-UCS2-HW-H
Add-RKSJ-V UniJIS-UCS2-HW-V

※フォントのエンコーディングが「ビルドイン」となっているものについては、
文書内にCMapリソースがある場合のみ対応可能です。(ビルドインの場合は通常、文書内にあります)
※フォントのエンコーディングが「カスタム」となっているものについては、
正常にテキストを取得できない場合があります。(アクロバットでも正常にテキスト抽出を行えません。PDFファイルの仕様です)

PDFDocTextスクリーンショット

変換の精度は高い

このPDFDocTextの機能を一言で言うと、PDFのテキストファイル変換。
つまりhogehoge.pdfというファイルを読み込んでhogehoge.txtというファイルを生成するというもの。
(単純にテキストとして表示するだけなら、FoxitReaderにもその種の機能がある)

ほとんどのPDFで特に問題なく変換をおこなってくれる。たまに対応していない形式のPDFにもお目にかかるけど、めったにそういうのはないから、実用度は高いと思う。

問題はちゃんと読めるようなテキストになってくれるかどうか。ようするにレイアウトが無茶苦茶になるPDFもあるということ。

そういうのは、このPDFDocTextに問題があるというより、そのPDFのつくりかたに問題があるのではないかと。
その証拠に、レイアウトに凝ったPDFをテキストに変換すると非常に読みにくいけど、画像を多用せず文字情報が多いPDFでは、非常に楽に読めるテキストファイルが生成される。

レジストリをいじるわけではないので、気軽に使える。

PDFDocTextを起動すると、非常にあっさりとしたウィンドウが開かれる。
そこにPDFをドラッグ、ドロップしてもいいんだけど、WindowsのSendToフォルダにPDFDocTextのショートカットを入れておくのが賢い使い方かな。

Google
WWW ArtSaltのサイドストーリー
Web site (optional)
Comment - Need to type CAPTCHA, an image of distorted Japanese Hiragana or Katakana afterward.
Password - Not allowed to modify your comment later if password not entered.
On secret mode?
 

http://art2006salt.blog60.fc2.com/tb.php/468-d20b169f

このブログについて

最近のエントリ

カテゴリー
あわせて読みたいブログ

あわせて読みたい

最近のコメント
Internet Explorer
よりも便利です

Opera 9 - Always secure with Opera Firefoxをダウンロード!!

相互リンク