- Scrapy | A Fast and Powerful Scraping and Web Crawling Framework
- airbnb/airflow
- Celery - Distributed Task Queue — Celery 3.1.19 documentation
- What is gevent? — gevent 1.1rc2.dev0 documentation
- Tornado Web Server — Tornado 4.3 documentation
- Akka
- 採番器自前実装
Scrapy
- Spiders — Scrapy 1.0.3 documentation
- python scrapy get href using css selector - Stack Overflow
- Scrapy Cluster 1.0 Documentation — Scrapy Cluster 1.0 documentation
- Deploying Spiders — Scrapy 1.0.3 documentation
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
Scrapyは便利なのですが、ダウンロードしたタイミングでスクレイピングするアーキテクチャになっているのは、あまりよろしいと思えません。ダウンロードした生のHTMLは一度データベースに保存しておき、オフラインでスクレイピングを行うべきです。
以上を踏まえ実運用では、単純にHTMLをMongoDBに保存するだけのItem Pipelineと、ジョブキューサーバーにジョブを追加するだけのItem Pipelineを作成し、スクレイピングは別プロセスで行っています。スクレイピングには lxml を使っていますが、正直Rubyの Nokogiri のほうが直感的に書けると思います。別プロセスであれば、あまりPythonにこだわる必要はありません。