PythonによるWebスクレイピング

Ryan Mitchell

基本情報

ジャンル
ISBN/カタログNo
ISBN 13 : 9784873117614
ISBN 10 : 4873117615
フォーマット
発行年月
2016年03月
日本
共著・訳者・掲載人物など
:
追加情報
:
253p;24

内容詳細

「Webスクレイピング」とは、インターネットからデータを機械的に集め、必要な情報を抽出するプロセスのこと。検索エンジンだけでは限られた情報しか集められませんが、この技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手できます。小売業、金融業をはじめ多くの業界で情報収集に活用され、アカデミックでも広い分野で使われ注目されています。本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。Python3.x対応。

目次 : 第1部 スクレイパーを作る(最初のWebスクレイパー/ 高度なHTMLパーシング/ クローリングを開始する/ APIを使う/ データを格納する/ 文章を読む)/ 第2部 高度なスクレイピング(汚れたデータをクリーニング/ 自然言語の読み書き/ フォームとログインでクロール/ JavaScriptのスクレイピング/ 画像処理とテキスト認識/ スクレイピングの落とし穴を避ける/ Webサイトをスクレイパーでテストする/ リモートでスクレイピング/ Python入門/ インターネット入門/ Webスクレイピングの適法性と倫理)

【著者紹介】
ライアン・ミッチェル : ボストンを拠点とするLinkeDrive社のソフトウェアエンジニア。社内用APIおよびデータ分析ツールを開発している。オーリン工科大学卒業、現在はハーバード大学Extension Schoolの修士課程を履修中である。LinkeDrive社に入社する前に、Abine社でスクレイパーとボットの構築を担当していた。また、定期的にWebスクレイピングプロジェクトのコンサルティングを金融業界と小売業界向けに行っている

黒川利明 : 1972年、東京大学教養学部基礎科学科卒。東芝(株)、新世代コンピュータ技術開発機構、日本IBM、(株)CSK(現SCSK(株))、金沢工業大学を経て、2013年よりデザイン思考教育研究所主宰。情報規格調査会SC22 C#、CLI、スクリプト系言語SG主査として、C#、CLI、ECMAScriptなどのJIS作成、標準化に携わっている。現在、日本規格協会標準化アドバイザー、町田市介護予防サポータ、カルノ(株)データサイエンティスト、日本マネジメント総合研究所LLC客員研究員

嶋田健志 : 主にWebシステムの開発に携わるフリーランスのエンジニア(本データはこの書籍が刊行された当時に掲載されていたものです)

(「BOOK」データベースより)

ユーザーレビュー

総合評価

☆
☆
☆
☆
☆

0.0

★
★
★
★
★
 
0
★
★
★
★
☆
 
0
★
★
★
☆
☆
 
0
★
★
☆
☆
☆
 
0
★
☆
☆
☆
☆
 
0

読書メーターレビュー

こちらは読書メーターで書かれたレビューとなります。

powered by

  • ipusiron さん

    手を動かしながら読んだ。

  • 日々 さん

    6点 web ページからの情報取得についてかなり手広く解説している本。コードを写して即実装という内容ではないので、読者の試行錯誤は必要。

レビューをもっと見る

(外部サイト)に移動します

建築・理工 に関連する商品情報

おすすめの商品