현재 다양한 언어 모델이 개발되고 발전되어 왔는데, 처음에는 단순한 구조에서 출발해 점차 복잡한 모델로 확장하게 됐다. 그 중에서 가장 간단한 Unigram, Ngram 모델을 살펴보려고 한다. 1.개념: N-gram 모델은 텍스트에서 나타나는 연속된 N개(Unigram은 1개)의 아이템(일반적으로 단어)에 대한 확률 분포를 모델링하는 통계적 언어 모델입니다. 이 모델은 특정 시퀀스에서 다음 아이템이 나타날 확률을 추정하여 문장의 일관성을 평가하고, 자연어 처리 등 다양한 응용 분야에서 활용됩니다. 1-1.Uni-gram 모델 가장 단순한 언어 모델로 Unimodel을 수식으로 표현하면 다음과 같다. $$P_{uni}(w_{1},w_{2}, ... , w_{n}) = P(w_{1})P(w_{2})...P..