데이터 엔지니어링을 시작하려는 모두에게
자신있게 추천하는 첫 스텝 :
실리콘밸리에서 날아온
데이터 엔지니어링 스타터 키트 with Python
데이터 팀의 핵심 인력, 데이터 엔지니어!
데이터 엔지니어는 조직에서 어떤 역할을 하고, 어떤 역량을 가진 사람일까요?
만약 내가 데이터 엔지니어가 되려면, 어디부터 시작해야 하는걸까요?
이런 막연한 질문에 대해 기술적 해답을 찾아가는 7주 온라인 스터디입니다.
온라인 세션 1분 미리보기 🔎
매주 진행되는 온라인 세션에서 미션 소개, 라이브 코딩, 자유 Q&A 진행합니다.
🗓 SCHEDULE 일정
- 스터디 일정: 2023.01.07.(토) ~ 02.25.(토), 7주간
- 온라인 세션: 매주 토요일 오전 10시(KST)
- 슬랙을 활용한 상시 피드백, 코드리뷰, 리더와의 집중 멘토링 세션이 준비되어 있습니다.
(스터디 시작 1주일 전에 안내 메일이 발송됩니다.)
-
ZOOM
웹캠 기반 실시간 Q&A
-
Slack
실시간 채팅 및 Q&A
-
GitHub
미션 제출 및 코드리뷰
-
School
프로그래머스 스쿨
회사의 성장과 함께
자연스럽게 필요해지는 데이터 팀
많은 기업이 서비스를 운영하며 쌓인 데이터를 유용하게 활용하고 싶어 합니다.
특히, 핵심 인력의 지식이나 경험을 통해서 쉽게 답을 내리기 어려우면
이제 ‘데이터 기반의 의사결정'이 필요하다는 사실을 절감하게 되죠.
데이터 엔지니어가 없는
데이터 팀의 문제
데이터 기반의 의사결정을 하기 위해서 데이터 관련 전문가가 필요한데요.
이때 기업 내부에 데이터 관련 전문가가 없다면, 우선 분석가 채용에 힘을 쓰게 됩니다.
지금까지 적재해둔 데이터가 있으니 분석가를 채용해 분석만 하면 인사이트가 나올 것이라 생각하기 때문이죠.
그러나 분석가들이 정말 비즈니스에 도움이 되는 가설을 세우고, 유의미한 결과를 도출하기 위해선
그들이 접근하기 용이하고 신뢰할 수 있는 데이터가 필요합니다.
분석가들이 엔지니어링을 배우면, 신뢰할 수 있는 데이터가 나올까요?
혹은 내부 개발자 중 SQL을 잘하는 사람이 나선다면, 이 문제가 해결될까요?
신뢰할 수 있는 데이터는
누구의 손에서 나올까요
데이터 엔지니어가 없다면, 성공적인 분석을 위한 ‘신뢰할 수 있는 데이터’ 도 존재하지 않습니다.
- 팀원들이 원하는 데이터를 간단한 SQL 문으로 뽑을 수 있도록 데이터를 구조화하고,
- 복잡하게 얽혀있는 데이터도 직관적으로 이해할 수 있도록 만드는 것
피부에 바로 느껴지지 않지만 결국 조직에서 큰 주춧돌과 같은 역할을 하는 사람이, 바로 데이터 엔지니어입니다.
이 스터디에서는,
데이터 팀이 필요한 모든 조직에서 ‘엔지니어'가 해야 할 명확할 역할을 제시합니다.
또한, 역할을 잘 수행하기 위한 기본 지식과 기술을 경험이 많은 리더로부터 집중 코칭을 받습니다.
🤵 LEADER 스터디 리더

리더 맥스(한기용)
- 현. Grepp USA (그렙) / CTO
- 전. 데이터 관련 컨설팅 (SK Telecom, ChartMetric, TeamBlind, SkipScooter, Airvet 등)
- 전. Udemy(유데미) / Senior Director of Data and Principal Data Architect
- 전. Yahoo!(야후) / Director of Engineering
AI가 크게 발전하면서 AI의 근간이 되는 데이터의 중요성이 점점 대두되고 있습니다. 하지만 데이터를 어떻게 수집하고 정제해야 하는지에 대한 설명이나 그 중요성에 대한 인식은 한참 떨어집니다. 데이터 조직의 시작은 데이터 인프라를 만드는 것에서 시작합니다. 이 강좌에서는 데이터 엔지니어가 하는 일을 배우는 것으로 데이터 인프라를 만든다는 것이 무엇인지 설명합니다.
리더 맥스는 삼성전자, 야후(Yahoo!), 유데미(Udemy) 등 큰 규모의 팀을 여러 차례 거치며 개발자에서 데이터 엔지니어의 길을 걷게 되었습니다. 검색 엔진을 만들며 데이터에 대한 고민을 자연스럽게 하게 되었고, 엔지니어가 된 그 히스토리 자체가 여러분에게 유익한 강의 자료가 될 것입니다.
맥스와 함께 기술에 대한 이해와 더불어 데이터 엔지니어의 역할, 그리고 데이터 팀이라는 조직에 대한 이해까지 폭넓게 갖추는 시간이 되시길 바랍니다.
🤷 TARGET 참여대상자
공통 필수 준비 사항
이 과정은 Python, SQL에 대한 기본 지식이 반드시 필요합니다.
파이썬의 경우 문법 때문에 헤매지 않으셔야 하고, SQL은 join문 활용에 문제가 없어야 합니다.
-
데이터 엔지니어링에 대한 관심이 생긴 개발자
데이터 엔지니어링은 프로그래밍 역량이 기본적으로 필요한 분야입니다. 따라서 실무 개발자의 커리어 확장에 있어 고려해보기 좋은 방향 중 하나죠.
데이터 역량에 대한 중요성은 세상 곳곳에서 대두되고 있지만, 어떤 시작이 적절할지 고민이라면 이 과정을 첫 시작으로 추천합니다.
-
사내 데이터 인프라 필요성을 느끼는 개발자
데이터는 쌓이고 회사에서 이를 활용할 방안에 대한 니즈는 많아지는데, 데이터 관련 전문가가 사내에 없다면 왠지 자연스럽게 개발자들에게 요구사항이 떨어지곤 합니다.
이런 상황 속에서 혼자 구글링으로는 답이 안 나겠구나, 싶은 분들에게 추천합니다.
⚙️ 7주간 이렇게 배워요
-
🔎
1주차는, 실습보다는 데이터 조직에 대한 이해와 설명이 주가 됩니다.
이를 통해 데이터 엔지니어는 어떤 역할을 하는지 알아보고 질의응답을 통해 그간 데이터 엔지니어링에 대해 막연하게 생각하던 것들을 정리해봅니다.
-
🧑🏻💻
2주차 ~ 5주차까지 매주 실습을 통해 데이터 엔지니어가 되기 위한 기본 지식을 쌓습니다.
이 과정에서 GitHub을 활용하고 코드 리뷰도 진행하며 체득할 수 있게 도와드립니다.
-
📊
6주 차에는, 간단한 대시보드를 만들어보며 데이터를 시각화해봅니다.
데이터 엔지니어가 할 수 있는 전 과정을 경험하면서 데이터 엔티니어의 역할에 대해 다시 한번 정리해봅니다.
6주간 매주 토요일 오전 10시에 리더와의 집중 코칭 세션이 있습니다!
이 시간에는 주 차별로 다룰 내용, 미션 소개, 라이브 코딩, 자유 Q&A를 진행합니다.
모든 세션은 녹화되어 제공되지만, 가급적 라이브로 참여해 커뮤니케이션하는 것을 권장합니다.
*스터디가 마무리될 무렵 필요하신분들은 리더와 1:1 티타임을 진행할 수 있습니다. 커리어 및 개인적인 고민을 리더와 함께 나눠보세요!
📈 커리큘럼
매주 데이터 엔지니어링과 관련해 어떤 내용을 배울지, 그 내용을 통해 나의 어떤 질문과 고민을 해소할 수 있는지 확인해보세요.
회사 제출용 과정 소개서가 필요하다면? 전체 커리큘럼 다운받기
🗓 1주차
데이터 팀과 데이터 웨어하우스 소개
회사에서 데이터 조직이 하는 일이 무엇인지 여러 각도에서 살펴보고, 어떤 구성원들이 존재하는지 알아봅니다. 데이터 조직에서 데이터 엔지니어가 하는 역할과 필요한 스킬 셋에 대해 자세히 알아보고 실제 테크 기업 데이터 엔지니어의 하루를 살펴봅니다.
1주차에는 이런 고민을 해소합니다.
- 🔎 스타트업은 언제부터 데이터에 신경써야 할까요?
- 🔎 데이터 애널리스트와 사이언티스트의 역할 차이는 무엇인가요?
- 🔎 데이터 엔지니어가 하는 일은 백엔드 데이터베이스 관리자가 하는 일과 어떻게 다른가요?
- 🔎 데이터가 얼마 없는 상황에서도 데이터 웨어하우스가 필요할까요?
- 🔎 데이터 웨어하우스로 사용할 수 있는 데이터베이스로는 무엇이 있나요?
다룰 내용
- ✅ 데이터 팀의 구성과 역할에 대한 이해
- ✅ 데이터 팀에서 데이터 엔지니어의 역할은
- ✅ 데이터 웨어하우스 소개
- 🧑🏻💻 [과제] Python을 활용한 Redshift access
주요 키워드 : 데이터 팀의 역할, 데이터 팀의 구성원(데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트)과 역할, ETL (Extract, Transform, Load)/데이터 잡/데이터 파이프라인, 데이터 잡 스케줄러, Airflow, 데이터 웨어하우스 (Redshift, Snowflake, BigQuery)
[1주차 세션] 2023.01.07.(토) 오전 10시~
🗓 2주차
데이터 엔지니어링을 위한 SQL
데이터 엔지니어에게 가장 중요한 스킬 셋은 바로 SQL! 통상적으로 개발자가 쓰는 SQL과 비교해 데이터 엔지니어링에서 쓰는 SQL은 무엇이 다른지 알아봅니다. 예제 데이터를 토대로 복잡한 SQL을 사용하는 방법을 학습해봅니다.
2주차에는 이런 고민을 해소합니다.
- 🔎 데이터 엔지니어로 일하려면 SQL을 어느 정도 수준까지 알아야 하나요?
- 🔎 데이터 애널리스트나 사이언티스트들이 사용하는 SQL도 복잡한 수준인가요?
- 🔎 SQL로 할 수 있는 업무의 범위가 얼마나 넓은가요? 결국 코딩을 해야만 가능한 것들이 대부분 아닌가요?
다룰 내용
- ✅ SQL 소개
- ✅ 고급 SQL
- 🧑🏻💻 [과제] 조금 더 복잡도가 높은 실제 현업 데이터를 토대로 앞서 실습했던 metrics들을 계산해보기
주요 키워드 : 기초 SQL과 데이터 엔지니어링을 위한 고급 SQL, JOIN, LEFT JOIN, OUTER JOIN, SQL Aggregate functions, UNION, EXCEPT, SQL UDF, Cohort, Redshift
[2주차 세션] 2023.01.14.(토) 오전 10시~
🗓 3주차
ETL(Extract, Transform and Load) 작성하기
파이썬으로 간단한 ETL을 작성해 보고, Airflow가 어떻게 도움이 되는지 알아봅니다. 앞서 작성한 간단한 ETL을 Airflow로 변환해 봅니다.
3주차에는 이런 고민을 해소합니다.
- 🔎 ETL이 구체적으로 무엇인가요?
- 🔎 Airflow와 같은 프레임워크를 사용하면 뭐가 편해지나요?
- 🔎 Airflow 대신, FiveTran이나 StitchData와 같은 SaaS를 사용하는 것에 차이가 있나요?
다룰 내용
- ✅ ETL 개념 및 ETL 작성
- ✅ Airflow 소개
주요 키워드 : ETL, 데이터 파이프라인, 데이터 잡, 스케줄러, Python, SQL, Airflow, Redshift, Airflow DAG/Task/Operator
[3주차 세션] 2023.01.28.(토) 오전 10시~
🗓 4주차
Airflow 심화학습 #1
좀 더 복잡한 데이터를 다뤄보며 Airflow의 여러 기능에 대해 배워봅니다. 써머리 테이블을 직접 만들어 보면서 raw data가 어떻게 이해하기 쉬운 형태로 추상화되는지 확인해봅니다.
4주차에는 이런 고민을 해소합니다.
- 🔎 SQL의 트랜잭션이 무엇이고 왜 필요한가요?
- 🔎 DAG가 하나 끝나면 다른 DAG를 트리거하는게 가능한가요?
- 🔎 SQL만 사용해서 DAG를 만들 수도 있나요?
다룰 내용
- ✅ Airflow 코드에서 SQL 트랜잭션 사용해보기
- ✅ Airflow 기반 ETL 작성 : OpenWeather API 기반 DAG
- ✅ Redshift에서 Primary key uniqueness를 보장하기
주요 키워드 : Airflow 파라미터 설명, Airflow의 태스크/DAG 실행순서 정의, Airflow troubleshooting
[4주차 세션] 2023.02.04.(토) 오전 10시~
🗓 5주차
Airflow 심화학습 #2
Airflow를 사용하는 가장 중요한 이유 중의 하나인 Backfill에 대해 배워봅니다. 다음으로 Summary table을 만드는 DAG를 구현해 봅니다.
5주차에는 이런 고민을 해소합니다.
- 🔎 데이터 엔지니어로 일할 때 가장 중요한 backfill이란 무엇이며 Airflow에서 어떻게 구현되나요?
- 🔎 Airflow에서 간단한 이미 로딩된 테이블들을 바탕으로 새로운 테이블을 어떻게 만들 수 있나요? (Summary table)
다룰 내용
- ✅ Airflow Backfill 과정 이해하기
- ✅ Airflow 기반 ETL 작성 : Summary table 만들기
주요 키워드 : Backfill, Summary table
[5주차 세션] 2023.02.11.(토) 오전 10시~
🗓 6주차
Airflow Production 운영하기
Airflow를 실제로 운영한다는 가정하에 필요한 다양한 주제들을 다뤄보고 과정을 마무리합니다.
6주차에는 이런 고민을 해소합니다.
- 🔎 Airflow를 프로덕션 환경에서 운영하려면 어떤 부분들을 알아야 하고 준비해야하나요?
다룰 내용
- ✅ Airflow를 프로덕션 환경에서 운영할 때 알아야할 점
- ✅ 기타 Airflow 관련 팁들
주요 키워드 : Backfill, Airflow production
[6주차 세션] 2023.02.18.(토) 오전 10시~
🗓 7주차
커리어톡
데이터 엔지니어의 커리어에 대한 이야기를 나눕니다.
7주차에는 이런 고민을 해소합니다.
- 🔎 데이터 엔지니어로써 다음 스텝은 무엇인가요?
다룰 내용
- ✅ 데이터 엔지니어 커리어 로드맵
주요 키워드 : 데이터 엔지니어 커리어
[7주차 세션] 2023.02.25.(토) 오전 10시~
😘 현직 전문가가 이 스터디를 추천해요!
리더가 아닌 다른 현직 전문가도 이 스터디 내용과 진행 방식을 신뢰하고 있어요.
💳 스터디 참여비
7주, 데이터 엔지니어링 스타터 키트
2023.01.07.(토) ~ 02.25.(토)
스터디 리더 맥스
7주간 이어지는 풍부한 코드리뷰와 미션을 놓치지 마세요.
온라인 카드결제(할부), 무통장 입금 모두 가능합니다.