본문 바로가기

지식창고

다양한 Text 분석 기술- 토픽 모델링 분석 도구들

 

 

 

다양한 Text 분석 기술- 토픽 모델링 분석 도구들

 

주요 토픽모델링 기법 비교

1. LDA (Latent Dirichlet Allocation)

  • 방식: 확률적 모델로, 문서를 토픽의 혼합으로 표현하고 단어를 토픽 내 분포로 모델링합니다.
  • 장점: 전통적 방식으로 해석이 용이하며, 주제 간 명확성 제공[1][5].
  • 단점: BoW(Bag-of-Words) 기반으로 문맥 무시, 토픽 수와 하이퍼파라미터 조정 필요[1][4].

2. Top2Vec

  • 방식: 문서와 단어를 동일한 벡터 공간에 임베딩한 후 군집화로 토픽 추출[1][2].
  • 장점: 전처리 불필요, 토픽 수 자동 결정, 세부 주제 분산 효과적[1][3].
  • 단점: LDA 대비 토픽 해석력 약간 낮을 수 있음[1].

3. BERTopic

  • 방식: BERT 임베딩 기반으로 문맥 반영 후 군집화 및 토픽 생성[1][5].
  • 장점: 문맥 보존, 비주류 주제 발굴 우수, F1 점수 등 성능 우세(예: LDA 0.011 vs BERTopic 0.244)[5][6].
  • 단점: 계산 비용 높음, 토픽 수가 과도하게 세분화될 수 있음[1][5].

4. HDP (Hierarchical Dirichlet Process)

  • 방식: LDA 변형으로 토픽 수를 자동 결정[4].
  • 장점: 미세한 주제 키워드 추출에 강점[4].
  • 단점: 도메인 전문성 요구, LDA 대비 계산 복잡도 높음[4].

5. KeyBERT

  • 방식: BERT 임베딩과 키워드 추출 결합[6].
  • 특징: 간단한 문서 요약에 적합하나, 토픽 모델링보다는 키워드 추출에 특화됨[6].

 

요약 비교표

모델 핵심 특징 장점 단점
LDA 확률적 생성 모델 해석 용이, 안정적 문맥 무시, 파라미터 조정 필요
Top2Vec 임베딩 + 군집화 전처리 불필요, 자동 토픽 수 해석력 약간 낮음
BERTopic BERT + 군집화 문맥 보존, 고성능 계산 비용 높음
HDP LDA + 계층적 모델 토픽 수 자동 결정 복잡도 높음

 

 

최신 동향:

BERTopic과 같은 임베딩 기반 모델이 문맥 이해와 성능 면에서 우세하지만, 도메인에 따라 LDA나 Top2Vec도 유용하게 사용됩니다[1][5][6].

 

 

인용:
[1] [PDF] LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구 https://accesson.kr/kslis/assets/pdf/38798/journal-58-1-5.pdf
[2] [PDF] BERTopic, Top2Vec, LDA 기반 토픽모델링의 성능 평가를 중심으로 https://www.manuscriptlink.com/society/kips/conference/ask2024/file/downloadSoConfManuscript/abs/KIPS_C2024A0120
[3] LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구 - 국외 문헌 ... https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003053203
[4] 국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 ... https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002296830
[5] LDA 및 BERTopic 기반 해외건설시장 뉴스 기사 토픽모델링 성능평가 https://kscejournal.or.kr/jksce/XmlViewer/Ksce.2023.43.6.0811
[6] [CS224n #3] Topic Modeling - LSA/LDA/ BERTopic - velog https://velog.io/@delee12/CS224n-3-Topic-modeling-LSA-LDA-KeyBERT
[7] [논문]국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO201708733756400&dbt=NART
[8] 21-06 BERT 기반 복합 토픽 모델(Combined Topic Models, CTM) https://wikidocs.net/161310