티스토리 뷰

728x90
반응형

자연어란?

자연어 혹은 자연 언어는 영어로는 natural자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념이다. 자연 언어는 인공 언어와 대치되는 개념이다. 모든 인간의 언어활동에 보편적인 특징을 지니고 있다. 내가 궁금했던 것은 잠재 디리클레 할당이었는데, 자연어 처리에서 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 대한 확률적 토픽 모델 기법 중 하나이다. 미리 알고 있는 주제별 단어 수 분포를 바탕으로, 주어진 문서에서 발견된 단어 수 분포를 분석함으로써 해당 문서가 어떤 주제들을 함께 다루고 있을지를 예측할 수 있다. 그럼 이게 토픽모델링이랑 비슷한건가...? 토픽 모델링은 문서의 집합에서 토픽을 찾아내는 프로세스를 말한다. 이는 검색 엔진, 고객 민원 시스템 등과 같이 문서의 주제를 알아내는 일이 중요한 곳에서 사용됩니다. 잠재 디리클레 할당은 영어로 Latent Dirichlet Allocation이고 줄여서 LDA라 한다. 토픽 모델링의 대표적인 알고리즘이라고 하는데...? LDA, 즉 잠재 디리클레 할당에서 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정한다. 데이터가 주어지면, LDA는 문서가 생성되던 과정을 역추적한다. 데이비드 블라이 영어로는 David M. Blei와 앤드류 응Andrew Y. Ng, 마이클 어윈 조던 Michael I. Jordan은 기존 pLSI가 문서 수준에서 확률 모형이 없었던 점을 보완하여 2003년 잠재 디리클레 할당인 Latent Dirichlet Allocation을 제시하였다. 이후 2009년 병렬 잠재 디리클레 할당인 Parallel Latent Dirichlet Allocation, 즉 PLDA를 Yi Wang 이 MPI와 맵리듀스 MapReduce를 이용하여 병렬분산처리가 가능하도록 구현하였다. 2010년에는 온라인 변분 베이즈 알고리즘 영어로는 online varational Bayes algorithm을 매튜 호프만, 영어로는 Matthew Hoffman, 프랜시스 바흐 Francis R. Bach, 데이비드 블라이 David M. Blei가 연구하고 생각하여, 잠재 디리클레 할당의 온라인 기계 학습 방법을 제시하였다.

728x90
반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함
반응형
250x250