December 19, 2019

wgetで便利なオプション達

wgetのオプションは非常に豊富にあって調べきれないが、自身が便利に感じた機能をまとめました。

–recursive

サイトを再帰的にクローリングする

-e robots=off

robots.txtに従わない。 行儀の良いクローラーを作る時には使ってはならない。

–level=3

3階層目までクローリング対象にする。 --level=infにすれば無限になる。大きなサイトを対象にすると長い時間終わらなくなるので、ある程度絞ること。

–random-wait

クローリングの待ち時間をランダムにする。-wもしくは--waitで指定して待ち時間を0.5倍から1.5倍にする。

–wait=1

クローリング間隔を1秒にする

ダウンロードしたファイルが外部参照できるようにリンクを書き換える

–no-check-certificate

サーバ証明書の問い合わせを無効にする

–no-parent

指定したURLより親階層をクローリング対象にしない。これは必須

–adjust-extension

拡張子がついてないファイルに.htmlなどの拡張子をつける。保存したファイルを読みやすくなる。

–restrict-file-names=nocontrol,windows,ascii

パーセントエンコードした形のファイル名にする。日本語がURLに含まれている時の対策

–reject-regex=‘hoge|fuga|’

正規表現でクロールの対象外にするURLを指定する

–user-agent=“Mozilla/10.0 (Windows NT 10.0) AppleWebKit/538.36 (KHTML, like Gecko) Chrome/69.420 Safari/537.36”

ユーザーエージェントの偽装

-nv

--no-verboseとも。出力結果を簡易表示する

–timeout=10

10秒でタイムアウトする。指定しないと永遠に問い合わせを待ってしまうことがある。

–secure-protocol=auto

SSLv2やSSLv3などのプロトコルを自動的に選択する

© gepuro 2013