LDA CTM 개념 공통점 차이점 활용방법 예시 등등

LDA(Latent Dirichlet Allocation)와 CTM(Correlated Topic Model)은 모두 문서에 잠재된 ‘토픽(topic)’ 구조를 찾기 위해 고안된 통계적 모델이지만, 두 모델 간에는 다음과 같은 핵심 차이가 있습니다.

찬찬히 알아봅시다

우선 전반적인 소개입니다.

1. LDA (Latent Dirichlet Allocation)란?

LDA는 문서에서 여러 개의 독립적인 주제(topic)를 추출하는 확률 모델입니다. LDA의 기본 가정은 각 문서가 여러 주제의 혼합물이고, 각 주제는 단어의 확률 분포라는 것입니다.

* 수학적 배경: LDA는 각 문서의 주제 분포를 디리클레 분포로 모델링합니다.

* 전제 조건: LDA는 모든 주제들이 서로 독립적이라고 가정합니다.

* 적용 사례: 주제들이 서로 관련이 없는 경우(LDA는 상관관계를 고려하지 않기 때문에 독립적인 주제 탐색에 적합).

* 예시: 뉴스 기사 데이터에서 정치, 스포츠, 경제 등의 주제를 분리할 때 사용.

2. CTM (Correlated Topic Modeling)란?

CTM은 LDA의 확장된 버전으로, 주제 간 상관관계를 고려하는 모델입니다. CTM은 문서들이 특정 주제의 조합으로 구성되지만, 주제들이 서로 상관관계가 있을 수 있다고 가정합니다.

* 수학적 배경: CTM은 디리클레 분포 대신 로지스틱 정규 분포(Logistic Normal Distribution)를 사용합니다.

* 전제 조건: CTM은 주제들이 서로 상관관계를 가질 수 있다고 가정합니다.

* 적용 사례: 주제들이 서로 연관되어 있는 경우에 더 적합합니다.

* 예시: 건강 데이터에서 ‘운동’과 ‘다이어트’ 주제는 서로 관련이 있을 가능성이 큽니다. 이런 경우 CTM이 더 효과적입니다.

두 모델간의 공통점이다.

  • 비지도 학습 방법: 문서에서 주제를 추출할 때 레이블이 없는 데이터를 사용합니다.

  • 문서와 단어의 확률적 분포를 기반으로 토픽 추출: 문서가 여러 주제에 걸쳐 분포하고, 각 주제가 여러 단어의 분포로 표현된다고 가정합니다.

  • 단어의 빈도수 기반으로 주제를 추론합니다.

차이점입니다.

구분

LDA (Latent Dirichlet Allocation)

CTM (Correlated Topic Modeling)

토픽 간 관계

독립적 (토픽 간 상관관계 없음)

상관관계 고려 (토픽 간 상관관계 존재 가능)

수학적 기반

디리클레 분포 (Dirichlet Distribution)

로지스틱 정규 분포 (Logistic Normal Distribution)

모델링 방식

단순 확률적 토픽 모델

주제 간 상관성을 반영하는 확률적 토픽 모델

적용 사례

독립적인 주제를 찾을 때 적합

주제들이 서로 연관된 경우에 더 적합

복잡도

상대적으로 간단함

더 복잡하고 계산 비용이 높음

차이점 상세 설명

LDA (Latent Dirichlet Allocation)

* 토픽 간 독립성 가정: LDA는 각 토픽이 서로 독립적이라고 가정합니다. 즉, 한 문서에서 특정 토픽의 비중이 높다고 해서 다른 토픽의 비중이 영향을 받지 않습니다.

* Dirichlet 분포 사용: 문서 내의 토픽 분포와 각 토픽 내의 단어 분포를 Dirichlet 분포로 모델링합니다.

* 한계점: 현실 세계에서는 토픽 간에 상관관계가 있는 경우가 많습니다. 예를 들어, "정치"와 "경제"는 관련이 있을 수 있지만 LDA는 이를 고려하지 않습니다.

CTM (Correlated Topic Model)

* 토픽 간 상관관계를 반영: CTM은 토픽 간에 상관관계가 존재한다고 가정합니다. 즉, 한 문서에서 "정치" 토픽이 높으면 "경제" 토픽도 높을 가능성이 있다고 모델링합니다.

* Logistic Normal 분포 사용: Dirichlet 분포 대신 Logistic Normal 분포를 사용하여 토픽 간의 상관관계를 표현합니다.

* 복잡도 증가: CTM은 더 복잡한 수학적 구조를 사용하기 때문에 계산 비용이 LDA보다 높습니다.

사용 사례 비교

사용 사례

LDA 활용 시

CTM 활용 시

뉴스 데이터 분석

서로 다른 카테고리의 독립적인 뉴스 주제를 탐색할 때

정치-경제, 스포츠-연예처럼 주제들이 관련되어 있을 때

고객 리뷰 분석

독립적인 제품/서비스 특징을 추출할 때

서로 관련된 리뷰 주제를 찾고자 할 때

소셜 미디어 분석

각 해시태그나 주제가 독립적일 때

특정 주제들이 상호 연관되어 확산되는 경향을 분석할 때

학문적 논문 분석

독립적인 연구 분야를 구분하고자 할 때

다양한 분야 간 상호 연관성을 분석하고자 할 때

어떤 상황에서 어떤 모델을 사용할까?

분석 목적

LDA 사용 추천

CTM 사용 추천

독립적인 주제를 찾고 싶을 때

주제 간 연관성을 고려하고 싶을 때

계산 속도가 중요할 때

분석 데이터가 복잡하고 상호 연관될 때

정리

* LDA는 토픽 간 독립을 가정하여 간단한 구조로 빠르고 쉽게 적용할 수 있는 대표적인 토픽 모델입니다.

* CTM은 토픽 간 상관관계를 모형화함으로써 더 풍부한 해석이 가능하지만, 추론 과정이 복잡하고 계산량이 늘어납니다.

* 두 모델 중 어느 것을 사용할지는 연구 목적(토픽 간 상관관계 파악 필요성), 데이터 특성, 계산 자원 등을 종합적으로 고려하여 결정하면 됩니다.

네이버 블로그 원문 보기