無料でダウンロードできるThe Elements of Statistical LearningのPDFが使いにくいので,ブックマークをつけて余白を切り取る.

以下の方法をConvex Optimization – Boyd and Vandenbergheにも試したところ,下図のように使いやすいPDFが得られた.

example1example2

PDF閲覧にはezPDF Readerを使用した.

やったこと

事前準備

The Elements of Statistical Learning - Data Mining, Inference, and Prediction, Second Edition の table of contents のPDFですべてのテキストを選択してTXTファイルにコピペしておく1.このままだと目次のページのヘッダ(ex. xiv Contents)が紛れていたり,改行がおかしくなっていたりするので手作業で修正しておく.

参考文献などを参考にしてpdftkやbrissをインストールしておく.

作業手順

pdftkを使ってHastie本のPDFからブックマーク情報を取り出す

pdftk Hastie.pdf dump_data > bookmark.txt

自作のスクリプトでpdftkが読み込める形式のブックマーク情報を書き出す

python pdfmine.py > mytoc.txt

bookmark.txtmytoc.txt を結合する

cat bookmark.txt mytoc.txt > new-bookmark.txt

pdftkを使って生成したブックマークをHastie本のPDFに合成する

pdftk Hastie.pdf update_info new-bookmark.txt output temp.pdf

brissを起動

java -jar ./path/to/briss-0.9.jar temp.pdf

参考文献を参考にして好きなように余白を切り取ったら,エクスポートする

完成

まとめ

最高だった

ソースコード

追記

PDF版で空白のページが削除されている場合2は自分で空白のページを挿入する必要がある.

echo "" | ps2pdf -sPAPERSIZE=jisb5 - empty.pdf
pdftk A=before.pdf B=empty.pdf cat A1-98 B1 A99-119 B1 A120-158 B1 A159-end output inserted.pdf

ps2pdfなどで適当な空白ページを作成して,pdftkで挿入する.

参考文献

  1. 配布されているHastie本の目次はタイトルとページ数がなぜか別カラムになっているので同じことをしてもうまく行かない

  2. 例えば,チャプターの境目などにある空白ページがなぜか削除されていたりした.



blog comments powered by Disqus

Published

27 December 2014

Tags