[Spark] 변환과 액션
·
Data/Spark
스파크에서의 변환과 액션에 대해 정리한 글입니다. 1. 들어가며스파크의 동작 원리를 이해하기 위해 유튜브의 PySpark - Zero to Hero 시리즈와 여러 자료를 보면서 내용을 정리하고 있습니다. 이번 글에서는 스파크의 변환(Transformation)과 액션(Action)에 대해 다뤄보겠습니다. 내용 중 부정확하거나 애매한 부분이 있다면, 편하게 알려주세요! 2. 스파크 데이터 처리의 기초2.1. 변환과 불변성스파크의 데이터프레임은 내부적으로 RDD(Resilient Distributed Dataset) 위에서 동작하는데, RDD는 한 번 생성되면 수정할 수 없는(immutable) 데이터 구조입니다. 그렇다면, 스파크에서는 어떻게 데이터를 가공할 수 있을까요? 스파크는 기존 데이터를 수정하지 ..