Books

Apache Spark徹底入門 徹底入門

長谷川亮

Product Details

ISBN/Catalogue Number
ISBN 13 : 9784798182285
ISBN 10 : 4798182281
Format
Books
Publisher
Release Date
April/2024
Japan
Co-Writer, Translator, Featured Individuals/organizations
:

Content Description

Apache Sparkの仕組みとビッグデータ向けの大規模処理とML開発を徹底解説

本書は、ビッグデータを主な対象としたデータ分析フレームワークであるApache Spark、mlflow、delta lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データAIの実装者がApache Spark、MLflow およびdelta lakeを使いこなすための解説を行います。

本書では、単純なデータ分析と複雑なデータ分析を実行し、どのように機械学習アルゴリズムを採用していくか、解説していきます。Apache Sparkの導入から解説をはじめ、Spark SQLとデータフレーム、データセットを紹介していきます。そこから、Apache Sparkを利用した実践的な機械学習の方法を解説していきます。本書での学習を通じて、次のことが学習できます。

・Python、SQL、Scala、またはJavaの高レベルの構造化APIの学習
・Spark の操作とSQLエンジンの理解
・Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ
・JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続
・構造化ストリーミングを使用してバッチ データとストリーミング データの分析を実
・オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築
・MLlibを使用する機械学習パイプラインの開発、MLflowを使用するモデルの管理、本番化
・[日本語版オリジナルコンテンツ]pandas dataframe、spark dataframeに関する各種データフレームの使い分け
・[日本語版オリジナルコンテンツ]LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践
※本書は『Learning Spark: Lightning-Fast Data Anarytics 2nd Edition』の邦訳です。



【著者紹介】
JulesS.Damji : Databricks社のSenior Developer Advocateであり、MLflowのコントリビュータ。Sun Microsystems、Netscape、@Home、Loudcloud/Opsware、Verisign、ProQuest、Hortonworksなどの大手企業でソフトウェアエンジニアとして勤務し、大規模分散システムを構築。オレゴン州立大学、カリフォルニア州立大学、ジョンズ・ホプキンス大学でそれぞれコンピュータサイエンスの学士号と修士号、 Political Advocacyとコミュニケーションの修士号を取得

Brooke・Wenig : 顧客のために大規模な機械学習パイプラインを開発するデータサイエンティストのチームを率いるほか、分散機械学習のベストプラクティスに関するコースを指導。以前は、Databricksのプリンシパル・データサイエンス・コンサルタント。UCLAで分散機械学習を中心にコンピュータサイエンスの修士号を取得

Tathagata・Das : Databricks社のスタッフソフトウェアエンジニアであり、Apache Sparkのコミッター、Apache Spark Project Management Committee(PMC)のメンバー。Apache Sparkのオリジナル開発者の一人で、Spark Streaming(DStreams)のリード開発者であり、現在はStructured StreamingとDelta Lakeのコア開発者の一人。カリフォルニア大学バークレー校でコンピューターサイエンスの修士号を取得

DennyLee : DatabricksのStaff Developer Advocateで、Apache Sparkを0.6から使用しています。インターネットスケールのインフラ、データプラットフォーム、オンプレミスおよびクラウド環境の予測分析システムの開発で豊富な経験を持つ、実践的な分散システムおよびデータサイエンスのエンジニアです。また、オレゴン健康科学大学で生物医学情報学の修士号を取得し、企業ヘルスケア顧客向けに強力なデータソリューションを設計・実装した経験を持つ(本データはこの書籍が刊行された当時に掲載されていたものです)

(「BOOK」データベースより)

Customer Reviews

Comprehensive Evaluation

☆
☆
☆
☆
☆

0.0

★
★
★
★
★
 
0
★
★
★
★
☆
 
0
★
★
★
☆
☆
 
0
★
★
☆
☆
☆
 
0
★
☆
☆
☆
☆
 
0

Book Meter Reviews

こちらは読書メーターで書かれたレビューとなります。

powered by

  • kenryo

    仕事で触っており特にパフォーマンスについて知りたかったので購入。 Sparkの進化、内部がどのように構成、動作しているのか丁寧に記載されていて分かりやすかった。 日本語版限定コンテンツがあり、LLMのことなど書いてあったので勉強になった。

レビューをもっと見る

(外部サイト)に移動します

Recommend Items