자연어? 기계 학습? 확률적 토픽 모델 기법 중 하나인 LDA원리와 정의
자연어란? 자연어 혹은 자연 언어는 영어로는 natural자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념이다. 자연 언어는 인공 언어와 대치되는 개념이다. 모든 인간의 언어활동에 보편적인 특징을 지니고 있다. 내가 궁금했던 것은 잠재 디리클레 할당이었는데, 자연어 처리에서 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 대한 확률적 토픽 모델 기법 중 하나이다. 미리 알고 있는 주제별 단어 수 분포를 바탕으로, 주어진 문서에서 발견된 단어 수 분포를 분석함으로써 해당 문서가 어떤 주제들을 함께 다루고 있을지를 예측할 수 있다. 그럼 이게 토픽모델링이랑..
1
2021. 5. 29. 03:43