こんにちはちゆりです。
今回はWebスクレイピング学習のお話です。
これまでにスクレイピングの記事をいくつか書いてきたのですが、反響も大きく
これからwebスクレイピングを学びたいのでおすすめの本を教えて下さい
初心者はどのように学んでいったら良いでしょうか??
というメッセージをTwitterでよく受けるので、今回はその方に向けてスクレイピングを学習する際におすすめしたい本を紹介しておきます。
これまでにいくつか書いてきた人気のスクレイピングの記事はこちら
pythonスクレイピング初心者におすすめの本
僕が実際に読んでみて分かりやすかった本を厳選して紹介しておきます。
素人スクレイピング時代からお世話になった本です。
Python2年生 スクレイピングのしくみ
「Python2年生 スクレイピングのしくみ 体験してわかる!会話でまなべる!」
こちらの本はカバーの見た目から初心者に優しそうな本ですよね。
僕もそれを期待し、初心者の頃に初めて購入したスクレイピング勉強用の本です。
プログラミングやってみたいです。プログラミング初心者です。って方...はい、歓迎です。
プログラミングに苦手意識がなければ初心者でも理解しやすい内容になっています。
スクレイピングをする上では、Webサイト構造の理解、HTMLの理解も必要です。
これらを把握するためにChromeのデベロッパーツールを活用するのですが、その使い方もわかりやすく教えてくれます。
ChromeのデベロッパーツールっていうのはWindowsの方は今「F12」キーをMacの方は「Command+Option+i」を押してみてください(スマホの方はスルーしてね).....出ましたか?そうです。それです。始めて見た方はちょっと焦りますよね。これを駆使しながらでないとWebスクレイピングはできません。ですが、こちらの本では丁寧に使い方を教えてくれるので安心してください。
「初心者におすすめってことはこの本を読んでも大したことはできないんじゃないの?」
そんなことはないです。大体のサイトからスクレイピングでデータ収集を行うことはできます。ちょっとしたWebアプリも作成できるようになります。
データ収集後の分析等はまた別のpython知識が必要ですので興味がある方はpython自体も学んでみると良いでしょう。
Pythonによるスクレイピング&機械学習 開発テクニック
「増補改訂Pythonによるスクレイピング&機械学習 開発テクニック」
機械学習...タイトルからちょっと難しそうですね。ですがそんなに
ゴリゴリの機械学習の本かと思いきや実はスクレイピングも充実しています。むしろスクレイピングの方が充実してるんじゃないだろうか...。
機械学習の本と言うよりはスクレイピングの本という感じです。機械学習はデータ収集してなんぼですからね。
こちらの本は初心者〜中級者向けになります。
スクレイピングを少しでもかじったことある方には理解しやすい本です。
ゴールはスクレイピングで収集したデータを用いた機械学習の構築なのですが、その前段階としてのWebスクレイピングの話が非常に濃くて充実しています。
スクレイピングも学べて、ついでに機械学習にも触れることができるというお得な本でした。
僕はこの本を読んでWebスクレイピングを使った競馬分析なんかも行えるようになりました。
初心者からもう1段階成長するためにぜひ、読んでおきたい1冊となっています。
ブラウザを自動操作しながらのスクレイピング方法も学べるので、通常のHTML解析だけではできなかったスクレイピング等も学べます。割とスクレイピングを行いたいサイトの構成が特殊だったりして少し凝った(応用した)スクレイピングの方法が必要になるときもありますが。この本で学んだことを活用すればどんなサイトにも対応できます。
Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド
「Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド」
こちらの本はスクレイピングを行うための環境構築の方法も丁寧に説明してくれています。スクレイピング初心者にも安心です。
スクレイピングを行う際の有名なモジュール、Beautiful Soup, pyquery, lxmlの違いや用途、使い方の説明は参考になりました。(僕はよくBeautiful Soupを駆使します...。)
こちらの本も難易度的には初心者〜中級者向けになります。
スクレイピングでデータを集めてゴール。...ではなくその後のデータ解析などを行いたい方はこちらの本で学んでみてはどうでしょうか。データベースの扱い方なども説明されているため、データサイエンティストとしての第一歩くらいは踏み出せるのではないかと思います。
スクレイピングで集めたデータを使ってなにかをしたい方には読んでもらいたいです。
僕は競馬のデータをスクレイピングで収集するのですが、スクレイピングでデータを集めて終わりではなく、その後の解析・分析をいろいろと試行錯誤しています。この本で学んだことが参考になっています。
次に、高度なスクレイピングを学びたい方向けの本も一応紹介しておきます。
初心者の方には難易度は高めですが、読めないこともないです。学べる知識のレベルは高いです。
PythonによるWebスクレイピング 第2版
「PythonによるWebスクレイピング 第2版」
プログラマー、エンジニアには有名なOREILLY(オライリー)の本です。
エンジニアになりたての頃は「とりあえずオライリーの書籍を読んでおけ」とよく言われるのですが...
いや、初心者には難しすぎる..。こんなの初心者が読んだら挫折しちゃうよ
ですが、得られる知識のレベルは高すぎる。ので読めるレベルに成長したらトライしてみましょう。
スクレイピングを使って、ある程度のことが出来るようになった。
技術の深い部分まで習得したいというときにこの書籍を活用してみましょう。
正直初心者には難しいです。
僕もまだ読めていない、理解できていない部分もあります。勉強中です。
pythonスクレイピング初心者におすすめの動画
本は本で良いのですが、動画の方が学びやすい。体感しやすいと感じる方も多いと思います。
動画学習流行ってますよね。僕はよくUdemy
で動画を購入しています。
スクレイピングを動画で学んでみたい方におすすめの動画をピックアップしました。
PythonによるWebスクレイピング〜入門編〜
【業務効率化への第一歩】
以下、本コースで扱う大枠の内容となっております。
- Webページに自動でログイン
- テキストデータを取得
- ランキング形式のサイトから一括で情報を取得
- 画像データを取得
- まとめた情報をCSVファイルに出力
- 検索サイトのクエリを把握
Pythonによるビジネスに役立つWebスクレイピング
(BeautifulSoup、Selenium、Requests)
このWebスクレイピングの講座では、次のトピックをカバー致します。
- AnacondaでのPython3の環境構築、Jupyter Notebookの使い方
- HTMLとCSSの基本
- newspaper3kによるニュース記事要約の取得と保存
:
- Selenium、Requestsによる画像ファイルのダウンロード・保存方法
- 実践プロジェクト
PythonによるWebスクレイピング 〜Webアプリケーション編〜
以下、本コースで扱う大枠の内容となっております。
- Dashによる可視化アプリケーションの作成
- BeautifulSoupを用いたデータの収集
- スクレイピングを組み合わせた可視化アプリケーションの作成
- DBを組み込んだ可視化アプリケーションの作成
- Herokuを用いてアプリケーションをWeb上に公開
- スクレイピングを定期実行させる仕組みを構築
Udemyの講師はその道のプロの方なので説得力もありますし、なんせ得意分野について講義をしてくれるので実際に作ってみて、使ってみて分かったノウハウなんかも教えてくれるのでより実践的なものを作りたい方にはおすすめです。
僕も基本新しい分野の技術や言語はUdemyで学んでいます。
ダウンロードしてどこでも何度でも見れるので愛用しています。
以上、pythonのスクレイピング初学者におすすめの本(動画)の紹介でした。
スクレイピングライフ楽しんでくださいね。
コメント