프로그래머스 12

[프로그래머스] 데이터 엔지니어 study - 8주차

1.Database Normalizaion DB를 조직적이고 일관된 방법으로 디자인 → 데이터 정합성 유지, 수정/적재/삭제 용이 사용되는 개념 → Primary key, Composite key, Foregin key 1NF(First Normal Form) 2NF(Second Normal Form) 일단 1NF 만족 Primary Key 중심으로 의존결과 알 수 있어야함 부분적인 의존도 x → 모든 부가 속성들은 Primary Key를 가지고 찾을 수 있어야함 3NF(Third Normal Form) 2NF 만족 전이적 부분 종속성 없어야함 Slowly Changing Dimensionsl DW, DL에서 모든 테이블의 히스토리를 유지하는 것이 중요함 보통은 두개의 timestamp 필드 create..

[프로그래머스] 데이터 엔지니어 study - 7주차

1.Spark 기초 hadoop이 1세대라면 스파크 2세대 빅데이터 처리 기술 YARN등을 분산환경으로 사용 Scala로 작성됨 등장 버클리 대학 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 Databricks 스타트업 창업 Spark 3.0 구성 Spark Core: pandas의 데이터 프레임과 같음 Spark SQL Spark ML: scikit learn의 분산 버전 Spark Streaming Spark GraphX 자체 서버 엔진을 들고있는게 아니라 하둡(YARN), Kubernetes 와 같은 resource 매니저 위에서 돌아감 Spark vs MapReduce Spark 기본적으로 메모리 기반 → 메모리 부족시 디스크 사용 하둡(YARN) 이외에도 다른 분산 컴퓨팅 환경 지..

[프로그래머스] 데이터 엔지니어 study - 4주차

0.질문 reviewAB test모델 테스트시 처음에는 작게 시작, 1% 사용자에 대해별문제 없으면 5%, 10% 점차적으로 늘려감시리즈D 정도받고, 팀안정화 시 50:50 정도 가능하지 않나Airflow 알아야 할 부분시간이 지날수록 DAG가 점점 많아지기 때문에 정해진 시간에 시행되는 cronjob으로는 한계가 있음Backfill특정 DAG가 끝나면 다음 DAG, DAG들간의 dependency가 생김시간순으로 트리거 가능(세가지 방법)데이터 리니지 파악가능(어떤 데이터로부터 어떤 데이터가 생겨났는지), 데이터 과잉시 디스커버리 이슈, 데이터 카탈로그를 통해서 검색, 데이터 리니지 정보와 카탈로그 연동시 데이터 파악 쉽게 가능, 데이터 허브데이터 엔지니어 연봉이 높은이유수요가 큼학습이 많이 필요서포트..

[프로그래머스] 데이터 엔지니어 study - 3주차

0.커리어를 시작하는 관점에서 커리어는 정글짐 - 방향성 다양 40전에 다양한 경험 전문성 - 학습할 자신감, 변화 두려워 하지 않는 마음 1.결과를 내는데 집중하기 성취하는 경험하기 어떤 결과를 낼 것인지 생각 일을 왜하고 어떻게 끝내야 성공으로 끝나는지 나에게 일 준 사람 입장에서 생각하고 문제 정의 중요하지 않는 일은 대충하기 2.성장을 저해하는 요소 나이 혹은 남과의 비교 나에 대한 고정관년 과거의 상처 3.인격적인 성숙 긍정적인 태도 불만 1개, 감사 1개 주기적으로 회고 실수를 인정하는 여유, 모를때 모른다 4.시작과 꾸준함의 중요성 - 복리가 있는 일 시작이 반 꾸준히 매일 운동, 학습(호기심), 네트워킹(사람 만나기), 책읽기(글쓰기) 5.네트워크의 중요성 사람들 만날때 호기심 갖기 첫 인..

[프로그래머스] 데이터 엔지니어 study - 2주차

0. 기억할 부분 현업에서 깨끗한 데이터는 존재 X 항상 의심하고, 실제 레코드 몇개 살펴보기(노가다) 데이터 품질을 체크하는 버릇 기르기 - unit test 형태로 간단하게 만들기 중복된 레코드 확인 최근 데이터 여부 확인(freshness) Primary key uniqueness 지켜지는지 확인 값이 비어있는 컬럼 확인 어느 시점이 되면 데이터 테이블이 무수히 많아짐 회사성장과 관련 메타데이터 관리 이 시점부터는 데이터 Discovery 문제 발생 무슨 테이블에 내가 원하는 정보가 있는지 누구한테 물어봐야 하는지 문제해결: 검색 서비스 이용, DataHub, Amundsen 1. SQL 기본 1-1. 배경 1970년대 IBM에서 개발, Structured Query Langage 2000년대 ha..

[프로그래머스] 데이터 엔지니어 study - 1주차

일시: 23.01.07(토) 10:00 ~ 한기용 선생님(Max)의 data와 관련된 다양한 경험을 말씀해주심. 커리어 측면에서 여러가지 해보는게 중요 강의에서 설명해주시는 부분은 polyvore, udemy에서 경험기반 그 외 다양한 회사에서 airflow사용, 무엇이고 어떻게 사용하는지 과정 1주차: 데이터팀의 역할, Redshift 2주차: SQL 3주차 ~ 6주차: ETL, Airfolw - SQL,Pyton 커리어를 바라보는 관점 많이 들어오는 질문(3가지) 무엇이 뜨는지 미래대비 무엇을 준비 커리어 고착 무엇을 해야하는지 공통적인 theme → 불안감이 있어 선행 학습을 하려고 함 1.변화를 두려워 하지 말고, 2.필요한 부분을 찾아 자신감을 가지고 학습하는 태도 커리어 성장은 up&down이..

[프로그래머스] SQL 고득점 Kit - String, Date

프로그래머스에 있는 SQL 고득점 Kit MySql 문제풀이 입니다. 코딩 테스트 연습겸 풀고있는 문제 풀이 공유합니다. 혹시 더 좋은 풀이 있으신 분은 공유해주시면 감사하겠습니다~~ https://programmers.co.kr/ 이름에 el이 들어가는 동물 찾기 SELECT ANIMAL_ID, NAME FROM ANIMAL_INS WHERE ANIMAL_TYPE = "Dog" and NAME like '%el%' ORDER BY NAME; 중성화 여부 파악하기 SELECT ANIMAL_ID, NAME, IF(SEX_UPON_INTAKE LIKE '%NE%' OR SEX_UPON_INTAKE LIKE '%SPA%', 'O', 'X') AS '중성화' FROM ANIMAL_INS; DATETIME에서 D..

프로그래밍/SQL 2022.11.27

[프로그래머스] SQL 고득점 Kit - JOIN

프로그래머스에 있는 SQL 고득점 Kit MySql 문제풀이 입니다. 코딩 테스트 연습겸 풀고있는 문제 풀이 공유합니다. 혹시 더 좋은 풀이 있으신 분은 공유해주시면 감사하겠습니다~~ https://programmers.co.kr/ 보호소에서 중성화한 동물 SELECT a.ANIMAL_ID, a.ANIMAL_TYPE, a.NAME FROM ANIMAL_INS a LEFT JOIN ANIMAL_OUTS b ON a.ANIMAL_ID = b.ANIMAL_ID WHERE a.SEX_UPON_INTAKE != b.SEX_UPON_OUTCOME;

프로그래밍/SQL 2022.11.27

[프로그래머스] SQL 고득점 Kit - IS NULL

프로그래머스에 있는 SQL 고득점 Kit MySql 문제풀이 입니다. 코딩 테스트 연습겸 풀고있는 문제 풀이 공유합니다. 혹시 더 좋은 풀이 있으신 분은 공유해주시면 감사하겠습니다~~ https://programmers.co.kr/ 이름이 없는 동물의 아이디 SELECT ANIMAL_ID FROM ANIMAL_INS WHERE NAME IS NULL; 이름이 있는 동물의 아이디 SELECT ANIMAL_ID FROM ANIMAL_INS WHERE NAME IS NOT NULL; NULL 처리하기 SELECT ANIMAL_TYPE, IFNULL(NAME, 'No name') AS NAME, SEX_UPON_INTAKE FROM ANIMAL_INS;

프로그래밍/SQL 2022.11.27

[프로그래머스] SQL 고득점 Kit - GROUP BY

프로그래머스에 있는 SQL 고득점 Kit MySql 문제풀이 입니다. 코딩 테스트 연습겸 풀고있는 문제 풀이 공유합니다. 혹시 더 좋은 풀이 있으신 분은 공유해주시면 감사하겠습니다~~ https://programmers.co.kr/ 고양이와 개는 몇 마리 있을까 SELECT ANIMAL_TYPE, COUNT(ANIMAL_TYPE) AS 'count' FROM ANIMAL_INS GROUP BY ANIMAL_TYPE ORDER BY ANIMAL_TYPE; 동명 동물 수 찾기 SELECT NAME, COUNT(NAME) AS 'count' FROM ANIMAL_INS WHERE NAME IS NOT NULL GROUP BY NAME HAVING COUNT(NAME) > 1 ORDER BY NAME; 입양 시..

프로그래밍/SQL 2022.11.27