nlp 3

[NLP] Unigram, N-gram 언어 모델이란??

현재 다양한 언어 모델이 개발되고 발전되어 왔는데, 처음에는 단순한 구조에서 출발해 점차 복잡한 모델로 확장하게 됐다. 그 중에서 가장 간단한 Unigram, Ngram 모델을 살펴보려고 한다. 1.개념: N-gram 모델은 텍스트에서 나타나는 연속된 N개(Unigram은 1개)의 아이템(일반적으로 단어)에 대한 확률 분포를 모델링하는 통계적 언어 모델입니다. 이 모델은 특정 시퀀스에서 다음 아이템이 나타날 확률을 추정하여 문장의 일관성을 평가하고, 자연어 처리 등 다양한 응용 분야에서 활용됩니다. 1-1.Uni-gram 모델 가장 단순한 언어 모델로 Unimodel을 수식으로 표현하면 다음과 같다. $$P_{uni}(w_{1},w_{2}, ... , w_{n}) = P(w_{1})P(w_{2})...P..

카테고리 없음 2023.11.15

[CS224n] 1.단어의 의미를 나타내는 방식과 word2vec

1.단어의 의미를 나타내는 여러가지 방법들 'How do we represent the meaning of word?' 어떻게 단어의 의미를 표현할 수 있을까? 언어학자들이 생각하는 일반적인 단어의 표현방식은 '표시적 의미론'(denotational semantics)을 따르는데 signifier(symbol) signified(idea or thing) 즉, 사전처럼 단어와 해당 단어를 의마하는 바를 매칭 시키는것과 같다. 전통적 방식의 자연어 처리 솔루션으로 wordnet을 고려할 수 있다. 1-1.WordNet & one - hot vector *NLTK(Natural Language Toolkit) 패키지는 교육용 자연어 처리 파이썬 패키지로 다양한 기능을 포함함. WordNet은 동의어와 상위어..

Data Science/NLP 2023.10.31