'DataEngineering' 태그의 글 목록

이번 포스트에서는 yfinance를 이용해서 주가 데이터를 직접 수집하는 방법을 다룹니다. 들어가며그동안 포트폴리오는 구글 스프레드시트로 관리해왔는데, 일부 종목은 가격 데이터가 누락되거나 업데이트가 늦어 전체 포트폴리오를 일관된 기준으로 관리하기 어렵다는 문제가 있었다. 이 문제를 해결하기 위해, 외부 도구에 의존하기보다는 주가 데이터를 직접 수집하고 관리하는 방식을 시도해보기로 했다. 이번 글에서는 "일단 가장 간단한 형태"로, 주가 데이터를 직접 수집하고 1/3/6/12개월 수익률을 계산하는 스크립트를 만들어본다. 주가 데이터 수집 방식 선택주가 데이터를 수집하는 방법은 다양하다. 가장 대표적인 방법은 증권사 API를 사용하는 것인데, 안정성과 정확성 면에서는 장점이 있다. 다만, 인증 절차, 초기..

스파크의 데이터프레임과 실행 계획에 대해 정리한 글입니다. 1. 들어가며스파크의 동작 원리를 이해하기 위해 유튜브의 PySpark - Zero to Hero 시리즈와 여러 자료를 보면서 내용을 정리하고 있습니다. 이번 글에서는 스파크의 데이터프레임(DataFrame)과 실행 계획에 대해 다뤄보겠습니다. 내용 중 부정확하거나 애매한 부분이 있다면, 편하게 알려주세요! 2. 데이터프레임이란?데이터프레임은 스파크에서 데이터를 다룰 때 가장 많이 사용하는 구조적 API(Structured API)입니다. 여기서 "구조적"이라는 말은 데이터가 스키마, 즉, 컬럼 이름과 데이터 타입이 명시된 정형 데이터 형태로 표현된다는 뜻입니다. 데이터프레임은 행(row)과 열(column)로 구성된 표 형태의 데이터 구조로, ..

스파크가 무엇인지를 정리한 글입니다. 1. 들어가며일을 하면서 PySpark를 사용하다 보니, 그때그때 필요한 기능만 쓰게 되어서, "이참에 전체적으로 한번 정리해봐야겠다"는 생각이 들었습니다. 그래서 유튜브의 PySpark - Zero to Hero 시리즈를 기반으로 스파크의 기본 개념과 동작 방식을 하나씩 정리해보려고 합니다. 이번 글에서는 스파크가 무엇인지, 어떻게 작동하는지를 간단히 살펴보겠습니다. 2. 스파크란 무엇인가?스파크는 한마디로, 엄청 큰 데이터를 여러 컴퓨터가 나눠서 빠르게 처리할 수 있도록 도와주는 오픈소스 프로그램입니다. 흔히 "빅데이터 처리 엔진"이라고 부르는데요. 여기서 엔진이란, 데이터를 읽고, 나누고 계산해서 원하는 결과를 만들어내는 "두뇌" 같은 존재라고 생각하면 됩니다...

티스토리툴바