카테고리 없음

합성데이터 관련 기술 종류와 현황 250711

오이시이 2025. 7. 11. 12:48
반응형


합성데이터 관련 기술 종류와 현황 250711

합성 데이터는 실제 데이터의 통계적 특성을 유지하면서
인공적인 생성된 데이터를 의미
- 데이터부족 , 개인정보보호 규제 강화, AI모델의 편항성 문제를 해결

주로 합성 데이터 생성으로 적대적 신경망 (GAN) 변분 오토인코더(VAE),  디퓨전 (Diffusion Models)  등이 있음

[합성데이터 생성 기술]
1)  생성적 적대 신경망(GANs),
2)  변분 오토인코더(VAEs),
3) 디퓨전 모델(Diffusion Models)



----​


1)  생성적 적대 신경망 (Generative Adversarial Networks, GANs)

ㅁ 개념
GAN은 **생성자(Generator)**와 **판별자(Discriminator)**라는 두 개의 신경망이 서로 경쟁하며 학습하는 구조입니다. 생성자는 실제 데이터와 유사한 가짜 데이터를 만들고, 판별자는 실제 데이터와 생성자가 만든 가짜 데이터를 구별합니다.
이 과정에서 생성자는 판별자를 속이기 위해 점점 더 정교한 데이터를 생성하게 되고, 판별자는 더 정확하게 가짜 데이터를 판별하도록 발전하며 결과적으로 실제와 매우 흡사한 고품질의 합성 데이터를 생성할 수 있게 됩니다.

ㅁ 문제점 및 개선 방향
  GAN은 고품질의 이미지 생성 등에서 뛰어난 성능을 보였지만, 몇 가지 고질적인 문제점을 안고 있습니다.

  1.1) 학습 불안정성 (Training Instability): 생성자와 판별자의 학습 균형이 무너지면 학습이 제대로 이루어지지 않는 문제가 발생합니다. 예를 들어 판별자의 성능이 너무 뛰어나면 생성자가 학습할 기회를 잃고, 반대의 경우엔 저품질의 데이터만 생성하게 됩니다.

  -> * 개선: 이 문제를 해결하기 위해 손실 함수를 개선하거나(WGAN), 학습 과정을 규제하는 다양한 기법(SNGAN)들이 제안되었습니다. 최근에는 두 신경망의 균형을 맞추기 위한 정교한 아키텍처 설계 및 하이퍼파라미터 튜닝 연구가 활발히 진행되고 있습니다.


1.2)* 모드 붕괴 (Mode Collapse): 생성자가 판별자를 속이기 쉬운 특정 종류의 데이터만 집중적으로 생성하고, 실제 데이터의 다양한 분포를 학습하지 못하는 현상입니다. 이는 생성된 데이터의 다양성을 현저히 떨어뜨립니다.

   * 개선: 데이터의 다양성을 확보하기 위해 여러 개의 생성자를 사용하거나(Multi-agent GAN), 잠재 공간(latent space)에 제약을 가하는 방식(InfoGAN) 등이 연구되었습니다. 또한, 생성 데이터와 실제 데이터 분포 간의 거리를 최소화하는 새로운 목적 함수를 도입하는 연구도 활발합니다.

1.3) * 개인정보보호 및 데이터 유용성 상충: 민감한 정보를 포함하는 의료 데이터 등의 경우, 원본 데이터와 너무 유사한 합성 데이터를 생성하면 개인정보가 유출될 위험이 있습니다. 반대로 개인정보보호를 위해 데이터의 특성을 과도하게 변형하면 데이터의 유용성이 떨어지는 문제가 발생합니다.

   * 개선: 차분 프라이버시(Differential Privacy)와 같은 기술을 GAN에 접목하여(DP-GAN), 데이터의 유용성을 일정 수준 유지하면서 개인정보보호를 강화하는 연구가 진행되고 있습니다. 이는 데이터 생성 과정에 통계적 노이즈를 주입하여 특정 개인을 식별하기 어렵게 만드는 방식입니다.

----

2. 변분 오토인코더 (Variational Autoencoders, VAEs)

개념
VAE는 **인코더(Encoder)**와 **디코더(Decoder)**로 구성된 생성 모델입니다. 인코더는 입력 데이터를 저차원의 잠재 공간(latent space)으로 압축하고, 디코더는 이 잠재 공간의 벡터로부터 원본 데이터와 유사한 새로운 데이터를 생성합니다.
VAE는 잠재 공간이 잘 정의된 확률 분포(주로 가우시안 분포)를 따르도록 학습하여, 이 분포로부터 샘플링을 통해 새롭고 다양한 데이터를 생성할 수 있습니다.


ㅁ 문제점 및 개선 방향
VAE는 안정적인 학습이 가능하다는 장점이 있지만, 다음과 같은 한계점을 가지고 있습니다.

2.1) * 흐릿한 결과물 (Blurry Outputs): VAE는 생성된 데이터의 픽셀 값에 대한 확률 분포를 학습하기 때문에, 결과적으로 평균적인 형태의 이미지를 생성하려는 경향이 있어 GAN에 비해 상대적으로 흐릿한 결과물을 만드는 경우가 많습니다.

    -> * 개선: 이 문제를 해결하기 위해 디코더의 구조를 개선하거나, GAN의 판별자를 VAE에 결합하여(VAE-GAN) 생성된 이미지의 품질을 높이는 연구가 진행되었습니다. 또한, 디퓨전 모델과 VAE를 결합하여 VAE가 학습한 잠재 공간을 디퓨전 모델이 정교화하는 방식도 제안되었습니다.


2.2) * 잠재 공간의 불균형 학습: 학습 데이터가 불균형할 경우, 소수 클래스(minority class)에 대한 정보를 충분히 학습하지 못해 해당 클래스의 데이터를 정확하게 생성하지 못하는 문제가 있습니다.

  -> * 개선: 불균형 데이터셋 문제를 해결하기 위해, 데이터 증강 기법과 VAE를 결합하거나, 소수 클래스 데이터의 잠재 공간 표현을 강화하는 학습 방법을 적용하는 연구가 이루어지고 있습니다. 예를 들어, 유사한 특성을 가진 데이터들이 잠재 공간에서도 가깝게 위치하도록 유도하는 기법이 있습니다.


----

3. 디퓨전 모델 (Diffusion Models)

개념
디퓨전 모델은 원본 데이터에 점진적으로 노이즈를 추가하여 완전히 무작위적인 데이터로 만드는 **순방향 프로세스(Forward Process)**와, 이 노이즈로부터 점차적으로 원본 데이터를 복원하는 **역방향 프로세스(Reverse Process)**를 학습하는 모델입니다.
  학습이 완료된 후에는 무작위 노이즈로부터 시작하여 역방향 프로세스를 통해 매우 사실적이고 고품질의 합성 데이터를 생성할 수 있습니다.


ㅁ 문제점 및 개선 방향
디퓨전 모델은 현재 가장 뛰어난 성능을 보이는 생성 모델 중 하나이지만, 여전히 개선의 여지가 있습니다.
3.1  * 느린 생성 속도: 데이터를 생성하기 위해 수많은 단계의 노이즈 제거 과정을 거쳐야 하므로, GAN이나 VAE에 비해 생성 속도가 매우 느리다는 단점이 있습니다.

   -> * 개선: 생성 단계를 줄이기 위해 새로운 샘플링 전략을 개발하거나(DDIM), 모델의 아키텍처를 최적화하여 연산 효율을 높이는 연구가 활발하게 진행되고 있습니다. 또한, 한 번에 여러 단계의 노이즈를 제거하도록 모델을 학습시키는 방법도 연구되고 있습니다.

3.2 * 모델 자가 중독 장애 (Model Autophagy Disorder, MAD): 이전 세대의 생성 모델이 만든 합성 데이터를 다음 세대 모델의 학습 데이터로 사용할 경우, 점차 생성 데이터의 품질과 다양성이 저하되는 현상이 발생할 수 있습니다.

->  * 개선: 이 문제를 해결하기 위해 'Self-Improving Diffusion Models with Synthetic data (SIMS)'와 같은 새로운 학습 방법론이 제안되었습니다. 이는 합성 데이터를 부정적인 예시(negative guidance)로 활용하여, 모델이 실제 데이터 분포에 더 가깝게 학습하도록 유도하는 방식입니다. 이를 통해 모델 붕괴를 방지하고 생성 데이터의 품질을 향상시킬 수 있습니다.


최신 동향 및 전망
최근 합성 데이터 생성 기술은 대규모 언어 모델(LLM)과 결합하여 텍스트뿐만 아니라 표, 코드 등 구조화된 데이터 생성으로까지 그 영역을 확장하고 있습니다.

또한, 디지털 트윈, 자율주행, 헬스케어 등 특정 도메인에 특화된 고품질 합성 데이터를 생성하는 기술에 대한 수요가 증가하고 있으며, 이에 따라 각 산업의 특성을 반영한 맞춤형 솔루션 개발이 활발해질 것으로 전망됩니다. 앞으로 합성 데이터 기술은 AI 모델의 성능 향상과 데이터 활용의 지평을 넓히는 핵심적인 역할을 수행할 것입니다.



반응형