LDA CTM 개념 공통점 차이점 활용방법 예시 등등
LDA(Latent Dirichlet Allocation)와 CTM(Correlated Topic Model)은 모두 문서에 잠재된 ‘토픽(topic)’ 구조를 찾기 위해 고안된 통계적 모델이지만, 두 모델 간에는 다음과 같은 핵심 차이가 있습니다.
찬찬히 알아봅시다
우선 전반적인 소개입니다.
1. LDA (Latent Dirichlet Allocation)란?
LDA는 문서에서 여러 개의 독립적인 주제(topic)를 추출하는 확률 모델입니다. LDA의 기본 가정은 각 문서가 여러 주제의 혼합물이고, 각 주제는 단어의 확률 분포라는 것입니다.
* 수학적 배경: LDA는 각 문서의 주제 분포를 디리클레 분포로 모델링합니다.
* 전제 조건: LDA는 모든 주제들이 서로 독립적이라고 가정합니다.
* 적용 사례: 주제들이 서로 관련이 없는 경우(LDA는 상관관계를 고려하지 않기 때문에 독립적인 주제 탐색에 적합).
* 예시: 뉴스 기사 데이터에서 정치, 스포츠, 경제 등의 주제를 분리할 때 사용.
2. CTM (Correlated Topic Modeling)란?
CTM은 LDA의 확장된 버전으로, 주제 간 상관관계를 고려하는 모델입니다. CTM은 문서들이 특정 주제의 조합으로 구성되지만, 주제들이 서로 상관관계가 있을 수 있다고 가정합니다.
* 수학적 배경: CTM은 디리클레 분포 대신 로지스틱 정규 분포(Logistic Normal Distribution)를 사용합니다.
* 전제 조건: CTM은 주제들이 서로 상관관계를 가질 수 있다고 가정합니다.
* 적용 사례: 주제들이 서로 연관되어 있는 경우에 더 적합합니다.
* 예시: 건강 데이터에서 ‘운동’과 ‘다이어트’ 주제는 서로 관련이 있을 가능성이 큽니다. 이런 경우 CTM이 더 효과적입니다.
두 모델간의 공통점이다.
비지도 학습 방법: 문서에서 주제를 추출할 때 레이블이 없는 데이터를 사용합니다.
문서와 단어의 확률적 분포를 기반으로 토픽 추출: 문서가 여러 주제에 걸쳐 분포하고, 각 주제가 여러 단어의 분포로 표현된다고 가정합니다.
단어의 빈도수 기반으로 주제를 추론합니다.
차이점입니다.
|
구분 |
LDA (Latent Dirichlet Allocation) |
CTM (Correlated Topic Modeling) |
|
토픽 간 관계 |
독립적 (토픽 간 상관관계 없음) |
상관관계 고려 (토픽 간 상관관계 존재 가능) |
|
수학적 기반 |
디리클레 분포 (Dirichlet Distribution) |
로지스틱 정규 분포 (Logistic Normal Distribution) |
|
모델링 방식 |
단순 확률적 토픽 모델 |
주제 간 상관성을 반영하는 확률적 토픽 모델 |
|
적용 사례 |
독립적인 주제를 찾을 때 적합 |
주제들이 서로 연관된 경우에 더 적합 |
|
복잡도 |
상대적으로 간단함 |
더 복잡하고 계산 비용이 높음 |
차이점 상세 설명
LDA (Latent Dirichlet Allocation)
* 토픽 간 독립성 가정: LDA는 각 토픽이 서로 독립적이라고 가정합니다. 즉, 한 문서에서 특정 토픽의 비중이 높다고 해서 다른 토픽의 비중이 영향을 받지 않습니다.
* Dirichlet 분포 사용: 문서 내의 토픽 분포와 각 토픽 내의 단어 분포를 Dirichlet 분포로 모델링합니다.
* 한계점: 현실 세계에서는 토픽 간에 상관관계가 있는 경우가 많습니다. 예를 들어, "정치"와 "경제"는 관련이 있을 수 있지만 LDA는 이를 고려하지 않습니다.
CTM (Correlated Topic Model)
* 토픽 간 상관관계를 반영: CTM은 토픽 간에 상관관계가 존재한다고 가정합니다. 즉, 한 문서에서 "정치" 토픽이 높으면 "경제" 토픽도 높을 가능성이 있다고 모델링합니다.
* Logistic Normal 분포 사용: Dirichlet 분포 대신 Logistic Normal 분포를 사용하여 토픽 간의 상관관계를 표현합니다.
* 복잡도 증가: CTM은 더 복잡한 수학적 구조를 사용하기 때문에 계산 비용이 LDA보다 높습니다.
사용 사례 비교
|
사용 사례 |
LDA 활용 시 |
CTM 활용 시 |
|
뉴스 데이터 분석 |
서로 다른 카테고리의 독립적인 뉴스 주제를 탐색할 때 |
정치-경제, 스포츠-연예처럼 주제들이 관련되어 있을 때 |
|
고객 리뷰 분석 |
독립적인 제품/서비스 특징을 추출할 때 |
서로 관련된 리뷰 주제를 찾고자 할 때 |
|
소셜 미디어 분석 |
각 해시태그나 주제가 독립적일 때 |
특정 주제들이 상호 연관되어 확산되는 경향을 분석할 때 |
|
학문적 논문 분석 |
독립적인 연구 분야를 구분하고자 할 때 |
다양한 분야 간 상호 연관성을 분석하고자 할 때 |
어떤 상황에서 어떤 모델을 사용할까?
|
분석 목적 |
LDA 사용 추천 |
CTM 사용 추천 |
|
독립적인 주제를 찾고 싶을 때 |
✅ |
❌ |
|
주제 간 연관성을 고려하고 싶을 때 |
❌ |
✅ |
|
계산 속도가 중요할 때 |
✅ |
❌ |
|
분석 데이터가 복잡하고 상호 연관될 때 |
❌ |
✅ |
정리
* LDA는 토픽 간 독립을 가정하여 간단한 구조로 빠르고 쉽게 적용할 수 있는 대표적인 토픽 모델입니다.
* CTM은 토픽 간 상관관계를 모형화함으로써 더 풍부한 해석이 가능하지만, 추론 과정이 복잡하고 계산량이 늘어납니다.
* 두 모델 중 어느 것을 사용할지는 연구 목적(토픽 간 상관관계 파악 필요성), 데이터 특성, 계산 자원 등을 종합적으로 고려하여 결정하면 됩니다.