データエンジニアリング関連のおすすめ書籍(随時更新)
by ぺんぎん on Zenn 2024年11月15日
"Apache Sparkの概要からベストプラクティス、パフォーマンス改善までを解説。Python(PySpark)とScalaのサンプルコード付きで、実務での活用や最適化方法を具体的に学べる。環境さえ整えれば、コーディング経験があれば手を動かしながら効率的に学習でき、ビッグデータ処理におけるSparkの活用法を深く理解するのに役立つ。"
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee, 長谷川 亮, 弥生 隆明, 北村 匡彦, 竹下 俊一郎, 小谷 尚太郎, 北岡 早紀, 市村 幸一郎, 永里 洋, 野上 将嗣
出版日: 2024/4/12
出版社: 翔泳社
ページ数: 464ページ
最終更新: 2024年11月15日
人気スコア: 98
Apache Spark, MLflow, Delta Lakeを包括的に学び、ビッグデータ処理と機械学習開発のスキルを習得できる中級者向け入門書です。本書では、単なる操作方法に留まらず、Sparkの内部構造から効率的な実装手法までを深く掘り下げます。Python、SQL、Scala、JavaのAPIを習得し、Sparkの操作、SQLエンジン、構成、デバッグ方法を理解。JSON、Parquet、CSV、Kafkaなど多様なデータソースへの接続、構造化ストリーミングによるリアルタイム分析、Delta Lakeを用いた信頼性の高いデータパイプライン構築、MLlibでの機械学習パイプライン開発、MLflowによるモデル管理・本番化まで、実践的なスキルを身につけられます。特に、日本語版オリジナルコンテンツとして、pandas DataFrameとの使い分けや、LLM・English SDK for Sparkといった最新AI技術の活用法まで解説されており、データAIの実装者がビッグデータとAIの最前線で活躍するための知識と技術を体系的に習得できます。
"Apache Sparkの概要からベストプラクティス、パフォーマンス改善までを解説。Python(PySpark)とScalaのサンプルコード付きで、実務での活用や最適化方法を具体的に学べる。環境さえ整えれば、コーディング経験があれば手を動かしながら効率的に学習でき、ビッグデータ処理におけるSparkの活用法を深く理解するのに役立つ。"