[번역] AI 시대에 데이터 엔지니어가 살아남는 법 (1 / 3)

2025. 8. 26. 23:12·Data/Curation
AI 시대, 데이터 엔지니어의 역할은 어떻게 달라질까요?
오늘은 The Only AI Data Engineering Roadmap You Need in 2025라는 포스트의 초반부를 소개합니다.
글 전체가 아닌, 개인적으로 중요하다고 생각되는 부분만 옮겼습니다.
원문이 궁금하신 분들은 링크를 참고해주세요. 

 

AI와 함께 변화하는 데이터 엔지니어의 역할

예전에는 데이터 엔지니어의 주요 업무가 ETL 스크립트 작성, 데이터 웨어하우스 관리에 집중되어 있었지만, AI의 발전으로 인해서 이제는 많이 달라졌다. Windsurf 같은 도구는 자연어 프롬프트만 주면 DAG을 자동으로 만들어준다. Cursor는 팀 동료보다 더 정확하게 SQL을 자동 완성해준다. 데이터 품질 검사나 스키마 변경 감지도 AI 기반 알림과 패치가 처리할 수 있다. AI가 이런 일들은 대신 해주는 시대가 온 것이다. 그럼 이제, 데이터 엔지니어는 AI에 의해서 대체되는 걸까? 그렇지 않다.

 

데이터 엔지니어의 역할은 크게 네 가지 영역으로 나눌 수 있다.

 

  실행/구현 중심 (Tactical) 기획/설계 중심 (Strategic)
기술(Technical) boilerplate SQL 작성
DAG 설정 관리
데이터 수집 스크립트 작성
시스템 아키텍쳐 설계
데이터 모델 정의
적절한 도구 선정
소프트 스킬(Soft Skills) 여러 팀과 소통해서 이슈 해결하기
Ad-hoc 지원
이해 관계자들과 협업
데이터 시스템과 비즈니스 목표 일치시키기

 

여기서 AI는 주로 1사분면, Technical-Tactical한 영역을 대체하게 된다. AI가 아직 하지 못하는 건 "왜"와 "무엇을" 결정하는 전략적 사고다. 예를 들어, 어떤 지표를 우선순위로 삼아야 할지, 실시간 처리에서 지연(latency)과 정확도(accuracy) 중 어떤 걸 더 우선으로 둬야할지, 이런 판단들은 여전히 사람이 한다.

 

AI 시대, 데이터 엔지니어가 집중해야 할 4가지 스킬

1. 데이터 모델링은 새로운 코딩

AI가 이제 코드는 정말 잘 짠다. 예를 들어, Windsurf 같은 툴에 "고객 요금제 변경 이력을 SCD Type 2 방식으로 추적하는 DAG을 만들어줘."라고 프롬프트를 입력하면 Staging Layer*와 Audit Layer**까지 포함된 파이썬 DAG을 바로 만들어준다. 하지만 여기서 중요한 건 AI가 짠 코드의 정확성을 판단하고, 비즈니스 규칙에 맞게 수정할 수 있는 능력이다. 예를 들어, AI가 "고객 주소 변경 이력 전체"를 추적하는 파이프라인을 만들어줬는데, 실제 비즈니스 요구사항은 "활성화된 주소만 추적"하는 것이었다고 해보자. AI는 요청대로 코드를 만들었지만, 요청 자체가 잘못됐기 때문에 결과도 잘못된 것이다.

 

*Staging Layer: 원천 시스템에서 데이터를 받아와 가공하기 전 임시로 저장해두는 계층

**Audit Layer: 데이터의 변경 이력과 처리 과정을 추적하기 위해 따로 두는 계층

 

좋은 데이터 엔지니어: SCD Type 2 같은 데이터 모델링 기법을 이해하고 제대로 활용할 수 있다.
훌륭한 데이터 엔지니어: 언제 SCD 2를 적용해야 할지, 말지까지 판단할 수 있다.

 

결국, AI는 "무엇을 만들어줘."라는 지시는 잘 따르지만, 어떤 지시를 내려야 할지 결정하는 건 사람의 역할이다. 데이터 엔지니어의 핵심 역량은 이제 단순히 코드를 잘 짜는 것이 아니라, 정확한 데이터 모델을 정의하고, 비즈니스 맥락을 반영해 설계하는 능력이다.

 

2. 문법보다 시스템 아키텍쳐

Jinja 문법이나 Snowflake SQL 포맷팅에 집착하는 것보다 데이터 플랫폼 전체 구조를 설계하는 능력이 더 중요하다. 빠르게 성장하는 데이터 엔지니어들은 이런 특징을 가지고 있다.

  • 확장성 있는 데이터 플랫폼을 설계할 수 있다.
  • 배치 vs 실시간 처리의 트레이드오프를 알고 있다.
  • 다양한 툴과 시스템이 어떻게 연결되는지 설명할 수 있다.

특히 시스템적 사고가 가장 중요하다. 모든 connector를 직접 만들 필요는 없지만, 데이터 수집 → 저장 → 모델링 → 서빙이 어떻게 이어지고, 데이터 계약(data contract), 거버넌스 정책 등은 어떻게 연결되어 있는지를 반드시 이해해야 한다.

 

현재 팀의 데이터 파이프라인을 종이에 직접 그려보고, 아래 내용을 생각해보자.

  • Lineage, Testing, Observability, 권한 제어(Access Control), 스케쥴링(Scheduling)은 어떻게 동작하는가?
  • 이 흐름을 다른 사람에게 설명할 수 있는가?

만약 명확히 설명하기 어렵다면, 당장 "큰 그림을 보는 훈련"을 시작해야 한다.

 

3. 프롬프트 엔지니어링은 새로운 스크립팅

예전에는 데이터 엔지니어가 직접 파이썬 스크립트를 짜서 null 값을 검증하거나, 타임스탬프 드리프트(drift) 체크 같은 데이터 품질 테스트를 수행하곤 했다. 하지만 이제는 Cursor나 코드 인터프리터 기반의 에이전트들이 등장하면서, 간단한 프롬프트로 테스트 로직을 쉽게 만들수 있다. 예를 들어, "이벤트 타임스탬프가 ingestion time 5분 내인지 확인하는 dbt 테스트 코드를 작성해줘."라고 적기만 해도 바로 테스트 코드가 나온다.

 

하지만, 꼭 알아둬야 할 점은 프롬프트가 모호하면 결과로 나온 코드도 모호해진다는 점이다. 프롬프트 안에 의도, 명확한 조건, 예외 처리, 검증 기준이 명확히 담아 내는 프롬프트 엔지니어링 역량을 익혀야 한다. 구조화된 프롬프트를 작성하는 연습을 하자. 이 역량은 다른 엔지니어들과 차별화될 수 있는 핵심 역량이 된다.

 

4. 비즈니스 컨텍스트를 이해하기

데이터 엔지니어에게 있어 주니어와 시니어를 구분 짓는 핵심은 코드를 얼마나 잘 짜는가가 아니라, 비즈니스 맥락을 얼마나 잘 이해하는지다. AI는 지시한 내용을 토대로 구현은 빠르게 하지만, 비즈니스 로직을 스스로 이해하지는 못한다.

  • 영업 팀에 어떤 지표가 중요한지
  • 왜 마케팅 팀이 실시간 데이터를 원하는지
  • 회계 팀이 "활성 고객"을 어떻게 정의하는지

이런 맥락을 파악하지 못하면, 표면적으로는 잘 작동하는 파이프라인을 만들더라도 실제 비즈니스 목표에는 부합하지 않아 결국 무의미한 결과를 낼 수 있다.

 

5. 요즘 시대에 통하는 학습 전략: 기술 활용 + 개념 이해(Conceptual Pairing)

AI 도구가 만들어주는 코드를 그냥 가져다 쓰지만 말고, 그 도구를 더 깊이 이해하고 잘 활용하기 위해 꼭 알아야 할 개념을 함께 학습하는 것이 좋다. 예를 들어, 다음과 같이 연결지어서 학습해볼 수 있다.

 

AI 도구 관련 개념 활용 사례
Windsurf Slowly Changing Dimensions (SCD) 사용자 요금제 변경 이력 관리 (SCD Type 2)
Cursor Data Quality Frameworks dbt 테스트, Null 체크, 데이터 검증 SQL 생성
Phidata Event-Driven Pipelines 이벤트 페이로드 기반의 동적 DAG 오케스트레이션
AutoGen Multi-Agent Workflows 다단계 데이터 추출, QA, 요약 체인 구성

 

'Data > Curation' 카테고리의 다른 글

[번역] AI 시대에 데이터 엔지니어가 살아남는 법 (3 / 3)  (1) 2025.08.29
[번역] AI 시대에 데이터 엔지니어가 살아남는 법 (2 / 3)  (1) 2025.08.28
'Data/Curation' 카테고리의 다른 글
  • [번역] AI 시대에 데이터 엔지니어가 살아남는 법 (3 / 3)
  • [번역] AI 시대에 데이터 엔지니어가 살아남는 법 (2 / 3)
cloudndata
cloudndata
cloudndata 님의 블로그 입니다.
  • 전체
    오늘
    어제
    • 분류 전체보기 (16)
      • Cloud (0)
      • Data (4)
        • Databricks (1)
        • Curation (3)
        • Spark (3)
        • Project (0)
      • CS (0)
      • PS (4)
      • Reading (0)
  • 태그

    줌캠프
    알고리즘
    AI시대
    PySpark
    문제풀이
    데이터엔지니어미래
    DataEngineering
    DataEngineer
    데이터엔지니어링프로젝트
    DatabricksSQL
    Zoomcamp
    PS
    de
    데이터엔지니어
    데엔
    코딩테스트
    Data Engineering Zoomcamp
    100일챌린지
    무료부트캠프
    ETL파이프라인
    leetcode
    데이터브릭스에서SQL
    dezoomcamp
    코테준비
    ProblemSolving
    AI미래
    데이터엔지니어링
    스파크
    데이터브릭스
    Spark
  • 인기 글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
cloudndata
[번역] AI 시대에 데이터 엔지니어가 살아남는 법 (1 / 3)
상단으로

티스토리툴바