전체 글 96

[CS224n] 1.단어의 의미를 나타내는 방식과 word2vec

1.단어의 의미를 나타내는 여러가지 방법들 'How do we represent the meaning of word?' 어떻게 단어의 의미를 표현할 수 있을까? 언어학자들이 생각하는 일반적인 단어의 표현방식은 '표시적 의미론'(denotational semantics)을 따르는데 signifier(symbol) signified(idea or thing) 즉, 사전처럼 단어와 해당 단어를 의마하는 바를 매칭 시키는것과 같다. 전통적 방식의 자연어 처리 솔루션으로 wordnet을 고려할 수 있다. 1-1.WordNet & one - hot vector *NLTK(Natural Language Toolkit) 패키지는 교육용 자연어 처리 파이썬 패키지로 다양한 기능을 포함함. WordNet은 동의어와 상위어..

Data Science/NLP 2023.10.31

[python] zip() 내장함수 활용예제

zip은 파이썬의 내장 함수 중 하나로, 여러 개의 iterable(반복 가능한 객체)을 받아서 해당 iterable들에서 동일한 위치에 있는 요소들을 묶어 새로운 iterable을 생성합니다. 각 입력 iterable의 길이가 다를 경우, zip은 가장 짧은 iterable의 길이에 맞춰 짝을 지어줍니다. zip(iterable1, iterable2, ...) 여기서 iterable1, iterable2, ...은 두 개 이상의 iterable 객체를 나타내며, zip 함수는 이러한 iterable들을 조합하여 새로운 iterable을 생성합니다. 예제 1: 두 리스트 묶기 names = ['Alice', 'Bob', 'Charlie'] scores = [90, 85, 88] zipped = zip(n..

[python] list를 정렬하는 sort, sorted 함수 차이?

Python에서 sort와 sorted 함수는 둘 다 리스트를 정렬하는 데 사용되는 함수입니다. 그러나 이 두 함수 간에 중요한 차이점이 있습니다. sort 함수: sort 함수는 리스트를 제자리에서(in-place) 정렬합니다. 즉, 원래의 리스트를 변경하고 새로운 리스트를 생성하지 않습니다. sort 함수는 아무것도 반환하지 않습니다. 정렬된 결과는 원래 리스트에 적용됩니다. my_list = [3, 1, 2] my_list.sort() print(my_list) # 출력: [1, 2, 3] sorted 함수: sorted 함수는 원래 리스트를 변경하지 않고 새로운 정렬된 리스트를 반환합니다. 정렬된 결과를 다른 변수에 할당하여 사용할 수 있습니다. my_list = [3, 1, 2] sorted_l..

문자열 다루기 - strip 함수, split 함수 차이

strip 함수 주어진 문자열의 양 끝에서 특정 문자나 공백을 제거 문자열을 수정하지 않고 새로운 문자열을 반환 괄호 안에 특정 값을 넣을 경우에는 해당하는 문자열을 제거 strip 함수에는 rstrip, lstrip, strip으로 총 3가지 rstrip은 오른쪽에 있는 것만(공백 or 특정 문자) 제거하고, lstrip은 왼쪽에 있는 것만 제거하고, strip은 양쪽 다 제거한다. text = "^ Hello, World! ^" stripped_text = text.strip('^') lstripped_text = text.lstrip('^') rstripped_text = text.rstrip('^') print(text) print(stripped_text) print(lstripped_text)..

break, continue, pass, exit 사용법

for 문, while 문 등 흐름 구문을 제어할 때 쓰는 녀석들이다. break 반복문 중단, 다중 반복문인 경우에는 가장 가까운 반복문 하나만 빠져나옴 for i in range(5): if i == 3: break print(i) 0 1 2 continue 현재 반복문 중단, 다음 반복문 진행 for i in range(5): if i == 2: continue print(i) 0 1 3 4 pass pass문은 아무작업도 하지 않고 코드 블록 무시 주로 나중에 구현할 함수나 클래스 정의시 사용 def some_function(): pass for i in range(1, 11): if i % 2 == 0: # 짝수인 경우, 아무런 명령문도 수행하지 않는다. pass else: print(f'{i}..

온프레미스(On-premise)와 클라우드(Cloud) 비교하기

1.온프레미스? 클라우드? 기본적으로 두 시스템은 구성은 모두 IT 리소스 및 서비스를 제공하는데 필요한 주요방법이다. 예를들어, 게임, 웹 애플리케이션, 쇼핑몰, 실시간 채팅 서비스를 구성할때 위의 온프레미스와 클라우드 방법론을 적용할 수 있다. 온프레미스(On-premise)는 원격환경에서 서버를 운영하는 클라우드와는 대비되는 개념으로 기업이 서버를 자체적으로 보유하고 직접 설치 및 운영하는 방식을 의미한다. 서비스를 운영하는데 IT 자원이 필요하다. 온프레미스와 클라우드 시스템의 가장 큰 차이점은 서비스를 제공함에 있어 사용하는 자원을 누가 관리하느냐이다. 온프레미스의 경우 서비스를 공급하는 서비스 제공자가 직접적으로 IT 자원을 관리하는 주체가 되고, 클라우드 시스템의 경우 서비스를 공급하는 제공..

IT/용어 2023.09.26

이력서 작성 및 이직 TIP

1.이력서 - 영화의 예고편과 같다(김나이, 커리어 엑설레이트) Accuracy: 정확하게 쓰기, 남이 한걸 내가했다고 부풀리지 x Briefly: 짧고 간결하게, 한장에서 한장반 Connecting to dots: 직무와 경험을 연결하기 Detail: 가능하면 숫자 및 성과로 표현, 표현 못하면 왜 했으며 타겟이 누구였는지 Easy: 보는 사람이 쉽게 이해하도록 위의 이력서 과정은 포트폴리오도 마찬가지로 작성 2.회사를 보는기준 - 벤처 투자자들이 보는 관점으로 바라봐라 시장의 성장성 대표와 팀 회사 밖에서의 변화를 봐야함 왜 쟤네가 잘하고 우리랑 다른지 회사의 비즈니스 모델과 재무제표 볼줄 알아야함

기타/참고자료 2023.09.25

Parquet vs ORC 데이터 파일 형식 비교하기.

데이터 엔지니어링 분야에서 일하거나 빅 데이터를 다루는 분석가, 과학자라면 데이터를 처리할 때(저장, 호출 등) 스토리지 및 처리에 적합한 파일 형식을 선택해야 한다. 적절한 데이터 파일 형식을 선택함에 따라 대용량 데이터를 효율적으로 저장하고 처리할 수 있는데 그 중 인기 있는 두 가지 파일 형식인 Apache Parquet(아파치 파케이)와 ORC(Optimized Row Columnar)에 대해 설명한다. 1.Apache Parquet(아파치 파케이)란? Apache Parquet은 하둡(hadoop) 에코시스템의 모든 프로젝트에서 사용할 수 있는 컬럼 스토리지 파일 형식이다. 효율성과 성능을 위해 설계되었으며 특히 대규모 데이터셋에서 복잡한 쿼리를 실행하는 데 적합하다. Parquet 파일을 쓸 ..

Hadoop의 Mapreduce(맵리듀스) vs Spark(스파크)?

하둡 Hdfs 상에 데이터를 저장하고 PySpark로 분석하면서 정확한 시스템 용어나 개념에 대해서 정리해야지 말만하다가 이제라도 공부하고 정리하려고 한다. 다는 모르더라도 기본적인 것은 알고쓰자! 1.하둡(Hdoop)이란 - HDFS, MapReduce? 하둡은 대규모 데이터를 저장하고 처리하는데 사용되는 오픈소스 분산 컴퓨팅 프레임 웤이다. 아파치 소프트웨어 재단에서 개발하고 관리하며, 대용량(large-scalable) 데이터를 여러 대의 컴퓨터 클러스터에서 처리할 수 있도록 설계되어 있다. 여기서 우리가 알고 가야할 핵심적인 개념을 뽑자면 hdfs와 mapreduce이다. Hadoop 분산 파일 시스템(Hadoop Distributed File System, HDFS) HDFS는 대용량 데이터를 ..