株式会社Gunosy の同僚でアプリ開発エンジニアの加藤 勝也さんからお誘いを受け、共同執筆した 「Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析まで」 が 翔泳社さんから2017年10月23日に発売することになりました。
Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析・運用まで
- 作者: 加藤勝也,横山裕季
- 出版社/メーカー: 翔泳社
- 発売日: 2017/10/23
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
もともとマーケティング情報や口コミ、競合サイト分析のためにクローラーの開発ニーズというのはあったと思うのですが、近年はデータ分析、自然言語処理、機械学習やディープラーニングの注目により、ソースデータの収集技術としても要望が高まってきているのではないかと思います。
データ分析や機械学習にはPandas, scikit-learn, TensorFlow, ChainerといったPythonのライブラリがよく使われているのを目にします。データ収集工程からPythonで開発をすることで、連携がスムーズになり、また、他の言語のエコシステムを習得するための学習コストも低減できるのではないかと思います。
Python関連の本、そして、Pythonによるクローラー開発についての技術書が多く出版されるようになりました。そんな中、本書では、クローラー・スクレイピングプログラムの開発方法だけではなく、クローラー全体をシステムとして開発するための要素技術を盛り込みました。
対象読者はクローラー・スクレイピングプログラムの開発経験のあまりないデータ分析エンジニアの方や、基本的なUNIXの知識とWebアプリケーション開発経験のあるプログラマーの方などを想定しています。
ぜひお手にとって頂ければ幸いです。
内容
大きく基本編と応用編に分かれています。
基本編では、クローラー開発におけるUNIXコマンドの利用方法や、クローラーの基本形が学べます。
応用編では、システム運用を前提にした設計要素、クロールデータの利用方法としてのフィードの作り方やWebAPIの作り方、管理画面の作り方、そして、実際のクローラーの例としてのサンプルを記載しています。
翔泳社さんのキャンペーンサイトから予約購入していただくと、Requestsでのリトライ実装についてと、BeautifulSoupで覚えておきたいスクレイピング方法を解説した特典PDFがついてきます。
あとがきに代えて
次の方々には大変お世話になりました。この場を借りてお礼を述べさせていただきます。ありがとうございました。 本書の執筆は各関係者の方々のご協力なくしてはなし得ませんでした。
- 共著者の加藤 勝也さんには共著のお誘いを頂き、また、各Chapterの執筆以外にも、執筆方法を教えていただいたり、連絡・スケジュール管理などの面で助けていただきました。
- 編集・校正では翔泳社の宮腰隆之様、プログラムの検証では村上俊一様に大変お世話になりました。
- そして、株式会社Gunosyの皆様には実際に業務の面でPythonによるクローラーの開発を経験させていただき、常日頃お世話になっております。
生まれて初めて本を執筆しました。 執筆にあたっては関係者の方々に色々とご迷惑をおかけし、その節はフォローいただき、まことにありがとうございました。 この本が、皆様にとって少しでもお役に立てれば幸いです。