[Data] DE #100일챌린지 - Day 0: 시작
·
Data
들어가며부트캠프를 수료한지 얼마되지 않아, 감사하게도 데이터 엔지니어로 일할 수 있는 기회를 얻게 되었습니다. 실무 환경에서 새로운 것을 배우며 성장하고 있지만, 시간이 지날수록 한 가지 생각이 커져갔습니다."데이터 엔지니어링, 더 알고, 더 잘하고 싶다." 그렇게 고민하던 중, 우연히 "#100일챌린지"라는 책을 읽게 되었습니다. 100일 동안 매일 AI와 함께 프로그래밍을 하며 성장한 과정을 기록한 책이었는데, 그 안에서 몇 가지 중요한 메시지를 얻었습니다.직접 만들어보고 부딪히는 경험은 실력 향상에 큰 도움이 된다.AI를 잘 활용하는 것이 중요하다.꾸준함도 재능이다.그래서 결심했습니다. 이 여운이 가시기 전에, 저도 한 번 매일 성장하는 경험을 해보기로요. 목표: "0에서 1까지 만들어보기"100일..
[Spark] 변환과 액션
·
Data/Spark
스파크에서의 변환과 액션에 대해 정리한 글입니다. 1. 들어가며스파크의 동작 원리를 이해하기 위해 유튜브의 PySpark - Zero to Hero 시리즈와 여러 자료를 보면서 내용을 정리하고 있습니다. 이번 글에서는 스파크의 변환(Transformation)과 액션(Action)에 대해 다뤄보겠습니다. 내용 중 부정확하거나 애매한 부분이 있다면, 편하게 알려주세요! 2. 스파크 데이터 처리의 기초2.1. 변환과 불변성스파크의 데이터프레임은 내부적으로 RDD(Resilient Distributed Dataset) 위에서 동작하는데, RDD는 한 번 생성되면 수정할 수 없는(immutable) 데이터 구조입니다. 그렇다면, 스파크에서는 어떻게 데이터를 가공할 수 있을까요? 스파크는 기존 데이터를 수정하지 ..