분류 전체보기 96

[iTerm2] 화면 분할

맥 OS에서 서버를 접속하거나 데이터 경로 확인, 메모리 CPU 사용량 확인할 때 iTerm2 터미널을 이용한다. 처음에 화면 분할 기능 모르고 답답해 했던 기억이 있어 정리해둔다. 1. 좌우 분할 (Shell > Split Vertically with Current Profile) - command + d 2. 상하 분할 (Shell > Split Horizontally with Current Profile) - command + shift + d 3. 현재 탭 모든 분할 화면 동시 입력 - command + alt + i - (해제) shift + command + alt + i 4. 화면 이동 - command + alt(option) + 화살표

IT/mac os 2023.02.01

[PySpark] 백분위수(percentile), 사분위수(quantile)

약 1억 5천만건 데이터에서 특정한 값 기준으로 상위 n개의 데이터를 뽑아내는데 orderBy 후 limit(n)을 이용해 추출했다. 근데 너무 오래걸리더라... 값을 기준으로 정렬하는 연산방식이 spark에서 비효율적이라고 어디서 본거 같은데... 그래서 분위수 값을 구해 cut-off 방식으로 데이터를 추출했는데 시간이 더 적게 걸리더라. 우선, 예시를 들기 위해 다음과 같이 PySpark 세팅과 데이터 프레임을 구성했다. 그리고 visit(string 형식)의 값에 대해 분위수 값을 구하려고 한다. from pyspark.sql import SparkSession spark = SparkSession.builder.master("local[1]").appName("regexp_replace").ge..

[영어표현] "알다"의 여러가지 표현

1.know: 사실, 정보를 알고 있는 상태. I know the way there. I don't know why there are so many people there. Everyone doesn't know what is important tings. 2.understand: 이해하다지만 알다로도 많이 쓰임. I understand how you feel. I uderstand why you did that but I don't agree with your decision. I don't understand it. 3.find out: 몰랐던 사실, 정보를 알게되다. 그 과정, 변화를 이야기함. I found out about that just yesterday. - just yesterday: 어..

기타/영어공부 2023.01.24

[Linux] htop 시스템 모니터링

서버 상태 확인 htop : 리눅스에서 실시간 리소스 사용 모니터링 top 으로 리소스 사용량 모니터링 가능하지만 디테일하게 볼땐 htop 명령어 사용 CPU, 메모리 사용량 실시간으로 확인 설치방법 sudo apt-get install htop brew install htop CPU & MEMORY 시스템 CPU/코어 별 사용량 확인 가능 Mem: 시스템 전체 메모리 사용량 초록: 사용중인 메모리 페이지 파랑: 버퍼 페이지 노랑: 캐쉬 페이지 Load average(평균부하율): 1, 5, 15분 간격으로 부하율 나옴 싱글코어일때 부하율이 1.0이면 사용률 100% 1.0이 넘으면 CPU 할당을 위해 프로세스 기다려야함 프로세스 정보 PID: 프로세스 ID USER: 프로세스 소유자 PRI: 프로세스 ..

IT/Linux 2023.01.18

[프로그래머스] 데이터 엔지니어 study - 2주차

0. 기억할 부분 현업에서 깨끗한 데이터는 존재 X 항상 의심하고, 실제 레코드 몇개 살펴보기(노가다) 데이터 품질을 체크하는 버릇 기르기 - unit test 형태로 간단하게 만들기 중복된 레코드 확인 최근 데이터 여부 확인(freshness) Primary key uniqueness 지켜지는지 확인 값이 비어있는 컬럼 확인 어느 시점이 되면 데이터 테이블이 무수히 많아짐 회사성장과 관련 메타데이터 관리 이 시점부터는 데이터 Discovery 문제 발생 무슨 테이블에 내가 원하는 정보가 있는지 누구한테 물어봐야 하는지 문제해결: 검색 서비스 이용, DataHub, Amundsen 1. SQL 기본 1-1. 배경 1970년대 IBM에서 개발, Structured Query Langage 2000년대 ha..

[PySpark] regexp_replace 함수

PySpark 데이터 프레임에 있는 string value들을 다른값으로 바꾸거나 처리하는데 SQL string functions인 regexp_replace(), translate() 및 overlay()등을 사용할 수 있다. 그 중에서 PySpark SQL 함수인 regexp_replace() 사용하면 string column을 another string/substring column으로 생성할 수 있다. 예시를 보여주기 위해 우선, 데이터 프레임을 생성한다. 각각 고유식별 번호, 성별 + 지역, 출생일 이다. from pyspark.sql import SparkSession spark = SparkSession.builder.master("local[1]").appName("regexp_replac..

ETL vs ELT 차이 및 장, 단점

1.ETL(Extract - Transform - Load) Extract(추출): Data source로부터 데이터 추출 Transform(변형): 데이터를 원하는 format으로 변형 Load(적재): DW(데이터 웨어하우스)로 데이터 적재 ETL(Extract - Transform - Load)은 데이터 엔지니어의 기본업무로 데이터 soure로부터 raw 데이터를 추출(Extract)하고 처리 서버에서 원하는 format으로 변형(Transform)하는 과정을 거쳐 DW(데이터 웨어하우스)에 적재(Load)하는 데이터 통합 방법이다. ETL 과정이 필요한 이유는 OLAP(Online Analytical Processing) 데이터 웨어하우스에서는 관계형 SQL 기반의 데이터 구조만 지원하기때문에 r..

[프로그래머스] 데이터 엔지니어 study - 1주차

일시: 23.01.07(토) 10:00 ~ 한기용 선생님(Max)의 data와 관련된 다양한 경험을 말씀해주심. 커리어 측면에서 여러가지 해보는게 중요 강의에서 설명해주시는 부분은 polyvore, udemy에서 경험기반 그 외 다양한 회사에서 airflow사용, 무엇이고 어떻게 사용하는지 과정 1주차: 데이터팀의 역할, Redshift 2주차: SQL 3주차 ~ 6주차: ETL, Airfolw - SQL,Pyton 커리어를 바라보는 관점 많이 들어오는 질문(3가지) 무엇이 뜨는지 미래대비 무엇을 준비 커리어 고착 무엇을 해야하는지 공통적인 theme → 불안감이 있어 선행 학습을 하려고 함 1.변화를 두려워 하지 말고, 2.필요한 부분을 찾아 자신감을 가지고 학습하는 태도 커리어 성장은 up&down이..

[Linux] DNS 서버, 도메인(domain), 리눅스 /etc/hosts 파일?

1.DNS(Domain Name System) 서버 도메인 이름 시스템(DNS)은 네임 스페이스를 나타내는 분산된 DB(Database). 모든 client가 모든 이름을 조회 하는 데 필요한 정보를 포함함. 즉, 웹사이트의 IP 주소 와 도메인 주소를 이어주는 시스템으로 이런 시스템의 역할을 하는 서버를 DNS 서버라 함. *도메인(domain): 우리가 자주 방문하는 사이트 IP 주소 어떻게 다 외우냐, 문자 형태로 만든 도메인 주소로 편리하게 접속하자. http://125.209.222.141/ http://naver.com/ 네이버 네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요 www.naver.com 우리가 네이버 창을 검색해서 들어가는 과정을 보면 1.주소창에 http://nave..

IT/Linux 2023.01.04

[딥러닝] Long-Short Term Memory models(LSTM)

LSTM 알고리즘 기존의 RNN이 출력과 먼 위치에 있는 정보를 기억할 수 없다(Long-Term Dependency)는 단점을 보완하여 장/단기 기억을 가능하게 설계한 신경망의 구조 neural network이 하나의 layer로 구성된 것과 다르게, 3개의 layer가 서로 정보를 주고 받으며 학습 ex) forget gate(과거 정보 유지), input gate(현재 정보 활용), output gate(계산 정보 출력) 장점 오래전 혹은 최근의 정보를 기억할 수 있음 RNN에서 역전파시 기울기 소실(gradient vanishing) 문제 해결 단점 학습해야 할 파라미터 수가 많으므로 연산속도가 느림 - Reference https://ratsgo.github.io/natural%20languag..