クローラー開発、まとめリンク
クローラー開発
クローラーの開発が必要なので覚書をかねて、オープンソースのクローラーとクローラーフレームワークのリンクを集めました。Java,Perl,Ruby,Python,PHPの利用できそうなリソースです。
私は十分なリソースがあることと、言語習得の側面からJavaで開発する方針です。
覚書:
1.簡易的なものではなく、将来的に活用可能に。
2.既存のコードを使い、できるだけ効率的に。
3.・クローリングアルゴリズムの開発
←データ解析に力を注ぐために、いくつか設計したが実装は断念すべき。
4.クローラーは、URLの収集と保守ができればいい。
5.データ抽出・解析作業に、既存のパース・スクレイピングライブラリがどこまで活用できるか。
選択:
以下にリンクを示したApache Nutchほどのクローラーは作れないし必要もない。
ただ、クローリングアルゴリズムは自分にとって最適ではない。
オープンソースでプラグインによる拡張性も高い。解説も豊富で、出力データも希望通り。
その他のApacheのプロジェクトと連携していて魅力的。
Apache Nutchを勉強することにしました。
リンク
Java
Open Source Crawlers in Java, Java-Source.net
Javaのオープンソースなクローラーのリンク集。
Apache Nutch, The Apache Software Foundation, 2004-
Javaのクローラー(フレームワーク)
S2Robot, The Seasar Foundation, 2009-
Javaのクローラーフレームワーク
その他の言語
第22回 Coroを使ったやさしいクローラの作り方(1), mala, 技術評論社gihyo.jp, 2013年12月18日
Perlでのクローラーの書き方、CPANモジュール。クローラーの守るべき一般的な規則が解説されています。
Gungho, Daisuke Maki, 2007年12月24日-
Perlのクローラーフレームワーク
Anemone, Chris Kite, 2011年2月17日-
Rubyのクローラーフレームワーク
Scrapy
Pythonのクローラーフレームワーク
Goutte, fabpot
PHPのクローラーフレームワーク