이번 주 학습 내용 개요
이번 주 주제는 Batch Processing(배치 처리) 이며,
주요 도구로 Apache Spark를 학습한다.
📌 다루는 내용
- Batch Processing이란 무엇인가?
- Spark란 무엇인가? 왜 필요한가?
- GCP VM(Linux)에 Spark 설치
- PySpark 사용 (Scala 아님)
- Spark DataFrame
- Spark SQL
- Join 처리 방식
- RDD (Resilient Distributed Dataset)
- Spark 내부 구조
- Docker로 Spark 실행
- 클라우드에 Spark 배포
- Data Warehouse와 연결
강의노트