NAME

Gungho.ja - 高性能Webクローラーフレームワーク

SYNOPSIS

use Gungho;
Gungho->run($config);

DESCRIPTION

Gunghoは高性能Webクローラーフレームワークです。高速なHTTP処理を行いつつ、機能拡張をしやすいようフレキシブルな構造を目指して開発されています。

現在Gunghoはβ版です。機能的／仕様的にも比較的安定しつつありますが、まだ内部的なAPI等は大幅な変更が加わる可能性がありますのでご注意ください。

Gunghoをインストールすると自動的に以下の機能が使えるようになります：

イベント型非同期エンジン: GunghoはPOE、Danga::Socket、IO::Async等をベースにした非同期エンジンを使いクロールを行います。あなたのニーズにあったエンジンを選んでください。
非同期DNS解決: HTTP通信が非同期で行われるならもちろんDNS通信も非同期で行えます。 GunghoはDNS解決をしている間もブロックせずに他の処理を進められます。
自動robots.txt処理: 全てのクローラーはrobots.txtを正しく処理し、禁止されているURLにはアクセスしないようにするべきです。Gunghoはこのrobots.txt処理という比較的面倒な処理を自動的に行います。memcachedとともに使用すれば分散環境でも使用可能です。
メタタグ内のロボットディレクティブ処理: ロボットディレクティブはHTMLのMETAタグ内に埋め込まれたロボット用の制御構文です。Gunghoではこのディレクティブを自動的にパースし、ユーザーが扱えるようにします。
スロットリング: クロール対象となっているサイトに過度の負荷をかけてサイトを落としては元も子もありません。スロットリングモジュールを使う事によってGunghoではリクエスト数を絞り込む事が可能です。
内部向けIP禁止: クロールしているサイトのDNSの設定が間違っていたり、意図的にそのようなURLを埋め込んであった場合リクエストが自分の内部ネットワークのIPアドレスに向いてしまい DoSを引き起こす可能性があります。Gunghoはこのセキュリティリスクを自動的に監視します。
キャッシュ: Catalystキャッシュのようなキャッシュを使いたい場合はCacheコンポーネントを使用するだけでプログラム内からキャッシュを扱えるようになります。
Web::Scraperサポート: Web::ScraperをGungho内から簡単に扱えるようにしています (この機能は現在まだ安定稼働していません）
リクエストログ: RequestLogプラグインを使用することによって自動的に取得されていくURLを記録して行く事ができます。

歴史

最初はまずRSSフィードを読み込むスクリプトが数個存在しました。しかしクロールするサイトが増える度に同じような処理を行う必要があり、同様にメンテナンスも難しくなってきました。この時点でクローラーのフレームワーク化が構想としてうかびあがりました。

その後Xangoというフレームワークを開発し、イベント型クローラーの骨組みを作りあげることができました。ただしこのフレームワークはPOEというイベントフレームワークを使用することにこだわってしまったため、拡張性の低いフレームワークとなってしまいました。

そして2007になって過去の教訓やCatalyst, Plagger, DBIx::Class等の事例を経て新たに手に入れた知識を素に開発されたのがGunghoです。Gunghoはイベント型クローラーの基本構造を崩さず、拡張性に主眼を置いた設計を目指しています。

Gunghoは現在日米数社のプロジェクトで採用されており、一日に数百万件のページを取得するコンポーネントとして活躍しています。

使用する際に注意する点

Gunghoは膨大な量のHTTP接続をすることを念頭に設計されています。Providerと Handlerの実装によってはDoS攻撃のような量のリクエストをサーバーに送信する事も容易です。

上記の理由から*必ず*発行するリクエスト数に注意してクローラーを動かしてください。Gungho::Component::ThrottleによるスロットリングyGungho::Component::RobotRules によるアクセス制御は必ず組み込むようにすると良いでしょう。

また、User Agent名は必ず開発されているクローラーの適切なものに変更するようお願いします。

構成

Gunghoは主に３つのコンポーネントで構成されています。Engineは全てのリクエストサイクルを統括し、サーバーへの接続、リクエストの送信等を行います。 Providerは取得すべきURLを指定し、Gungho::RequestをEngineに投げます。 HandlerはEngineが取得したレスポンスを処理します。

Gunghoの間違った使い方

Gunghoは膨大な数のURLを恒常的に取得するために設計されています。もし GunghoをひとつのURL、もしくはひとつのホストに対して扱うのであれば注意を要します。

上記のような環境でGunghoを動かす場合は十分なパフォーマンスが出せない可能性が高く、LWP::UserAgentのようなモジュールを使用したほうがパフォーマンスを出せる場合もあります。

もちろんLWP::UserAgentには存在しないGunghoの機能を使用するためにGunghoを使うのもよいかも知れませんが、チューニングが必要であることを認識しておいてください

GLOBAL CONFIGURATION OPTIONS

debug

---
debug: 1

デバッグフラグを有効にするとログの出力が全てデバッグレベルまでの出力となります。その他コンポーネント毎にデバッグ状態の挙動に変更するものもあります。

COMPONENTS

Gunghoの機能拡張を行うにはComponentを作成します。 ComponentはGunghoを走らせる段階で指定します：

Gungho->run({
  components => [
    'Throttle::Simple'
  ],
  throttle => {
    max_interval => ...,
  }
});

Componentを指定することによってGungho内部のクラス構造が書き換えられ、継承による機能拡張が行われます。

各コンポーネントの詳細についてはそれぞれのドキュメントを参照してください

Gungho::Component::Authentication::Basic
Gungho::Component::BlockPrivateIP
Gungho::Component::Cache
Gungho::Component::RobotRules
Gungho::Component::RobotsMETA
Gungho::Component::Scraper
Gungho::Component::Throttle::Domain
Gungho::Component::Throttle::Simple

Gunghoのインライン化

それほど複雑でないクローラーを実装する場合はGungho::ProviderやGungho::Handlerをわざわざ継承する必要はありません。単純にproviderとhandlerに関数を指定してください

Gungho->run({
  provider => sub { ... },
  handler  => sub { ... }
});

プラグイン

GunghoプラグインはGunghoの継承ツリーに影響を及ぼさずに機能拡張を行います。ただし、プラグインはイベント発生時のコールバックにより実装されているので、呼び出し可能なタイミングが前もって決まっています。

詳細についてはプラグインのドキュメントを参照してください。

Gungho::Plugin::RequestLog
Gungho::Plugin::Statistics

METHODS

component_base_class

Used for Class::C3::Componentised

CODE

コードはGoogle Codeで管理されています。レポジトリは以下URLに保管されています

http://gungho-crawler.googlecode.com/svn/trunk

AUTHOR

CONTRIBUTORS

Jeff Kim
Kazuho Oku
Keiichi Okabe

LICENSE

This program is free software; you can redistribute it and/or modify it under the same terms as Perl itself.

See http://www.perl.com/perl/misc/Artistic.html

To install Gungho, copy and paste the appropriate command in to your terminal.

cpanm

cpanm Gungho

CPAN shell

perl -MCPAN -e shell
install Gungho

For more information on module installation, please visit the detailed CPAN module installation guide.

	Global
`s`	Focus search bar
`?`	Bring up this help dialog

	GitHub
`g` `p`	Go to pull requests
`g` `i`	Go to GitHub issues (only if GitHub is preferred repository)

	POD
`g` `a`	Go to author
`g` `c`	Go to changes
`g` `i`	Go to issues
`g` `d`	Go to dist
`g` `r`	Go to repository/SCM
`g` `s`	Go to source
`g` `b`	Go to file browse

Search terms
module: (e.g. module:Plugin)
distribution: (e.g. distribution:Dancer auth)
author: (e.g. author:SONGMU Redis)
version: (e.g. version:1.00)