#クローラー

December 19, 2019

wgetで便利なオプション達

wgetのオプションは非常に豊富にあって調べきれないが、自身が便利に感じた機能をまとめました。

サイトを再帰的にクローリングする

robots.txtに従わない。行儀の良いクローラーを作る時には使ってはならない。

3階層目までクローリング対象にする。 --level=infにすれば無限になる。大きなサイトを対象にすると長い時間終わらなくなるので、ある程度絞ること。

クローリングの待ち時間をランダムにする。-wもしくは--waitで指定して待ち時間を0.5倍から1.5倍にする。

クローリング間隔を1秒にする

ダウンロードしたファイルが外部参照できるようにリンクを書き換える

サーバ証明書の問い合わせを無効にする

指定したURLより親階層をクローリング対象にしない。これは必須

拡張子がついてないファイルに.htmlなどの拡張子をつける。保存したファイルを読みやすくなる。

パーセントエンコードした形のファイル名にする。日本語がURLに含まれている時の対策

正規表現でクロールの対象外にするURLを指定する

ユーザーエージェントの偽装

--no-verboseとも。出力結果を簡易表示する

10秒でタイムアウトする。指定しないと永遠に問い合わせを待ってしまうことがある。

SSLv2やSSLv3などのプロトコルを自動的に選択する

Slideshare Icon from here , Home Icon from icons8