전체 글 185

프라이버시 모델 K-익명성, L-다양성, t-근접성에 관련된 개념, 정보보호 취약점과 공격 대응법

프라이버시 모델 K-익명성, L-다양성, t-근접성에 관련된 개념, 정보보호 취약점과 공격 대응법 K-익명성, L-다양성, t-근접성의 개념, 정보보호 취약점·공격 방법, 그리고 대응 방안을 요약한 것입니다. 구분개념주요 취약점/공격 방법대응 방안K-익명성한 개인의 데이터가 적어도 k-1명과 구분되지 않게끔 데이터를 일반화·마스킹[1][2].- 동질성 공격: 그룹 내 민감값이 동일하거나 거의 같으면 예측 가능[3][4].- 민감값 다양성 확보- 동질 그룹 최소화- 데이터 셋 분할·일반화 - 배경지식 공격: 공격자가 외부지식을 이용해 특정값 추론[3][4].- L-다양성, t-근접성 적용[5][6]L-다양성각 동질 그룹(등가 클래스) 내에 민감 정보가 최소 l개 이상 존재하게 하여 속성 유출 방지[..

지식창고 2025.07.30

분석데이터세트 - PersonalReddit 와 SynthPAI Dataset

개인정보 및 비식별화 연구를 위한 테스트 데이터 세트를 찾고 있다.연구바료와 람께 정리합니다.분석데이터세트 - PersonalReddit 와 SynthPAI Dataset🧠 1. SynthPAI Dataset (Yukhymenko et al., 2024)논문 제목: A Synthetic Dataset for Personal Attribute Inference 🔍 2. PersonalReddit Dataset (Staab et al., 2024)논문 제목: Beyond Memorization: Violating Privacy Via Inference with Large Language Models목적: LLM이 기억이 아닌 추론을 통해 개인 정보를 유추할 수 있는지를 평가🧾 3. A Syntheti..

지식창고 2025.07.30

Synthetic Data Applications in Finance- 금융 분야의 합성 데이터 응용

아래는 arXiv 논문(https://arxiv.org/html/2401.00081v2 “Synthetic Data Applications in Finance”)의 주요 텍스트 내용을 한글로 번역한 것입니다.금융 분야의 합성 데이터 응용1. 서론합성 데이터란 말 그대로 실제 세계에서 발생한 이벤트가 아닌 인위적으로 생성된 데이터입니다. 합성 데이터는 주로 1) 실제 데이터를 변형하거나, 2) 실제 과정을 시뮬레이션하여 생성됩니다. 본 논문에서는 이미지, 텍스트 생성 모델로 잘 알려진 DALL-E, GPT-4처럼, 합성 데이터에 대한 다양한 문헌이 존재함을 밝히며, 우리는 특히 금융 분야에서 사용되는 테이블형 및 시계열 합성 데이터에 초점을 맞춥니다. 이 데이터들은 마케팅, 트레이딩, 자금세탁방지 등 ..

카테고리 없음 2025.07.29

마르코프 모델(Markov Model)과 RDDL(Resource Domain Definition Language)

마르코프 모델(Markov Model)과 RDDL(Resource Domain Definition Language) 마르코프 모델(Markov Model)이란?마르코프 모델은 어떤 시스템의 미래 상태가 현재 상태에만 의존하고, 과거 상태는 고려하지 않는 확률 모델입니다. 이를 **'마르코프 성질(Markov Property)'**이라고 하며, 이 성질을 바탕으로 시간에 따라 변화하는 여러 시스템(예: 날씨, 주식 가격 등)에서 상태의 전이 확률을 정의합니다.핵심 구성 요소상태(State): 시스템이 가질 수 있는 모든 상황.전이 확률(Transition Probability): 어떤 상태에서 다른 상태로 이동할 확률. 전이 확률의 총합은 1입니다.전이 행렬(Transition Matrix): 상태 간 확..

지식창고 2025.07.29

LLM을 이용한 비식별화 방법론 종합 가이드

LLM을 이용한 비식별화 방법론 종합 가이드1. 개요LLM(Large Language Model)을 활용한 비식별화는 개인정보를 보호하면서 데이터의 유용성을 유지하는 핵심 기술입니다. 특히 LLM 서비스에서 발생할 수 있는 개인정보 유출 위험을 방지하고, 입력/출력 데이터의 민감 정보를 자동으로 탐지하여 마스킹하는 것이 중요합니다.2. LLM 비식별화의 주요 위험 요소2.1 LLM 관련 개인정보 유출 위험훈련 데이터 재노출: LLM이 학습한 개인정보가 대화 중 의도치 않게 노출프롬프트 인젝션: 악의적 사용자가 개인정보 추출을 위한 특수한 프롬프트 사용메모리 유출: 이전 대화의 개인정보가 다른 사용자에게 노출추론 공격: LLM의 응답을 통해 개인정보를 간접적으로 추론2.2 PII(Personally Ide..

지식창고 2025.07.29

합성.생성 데이터의 '모델 붕괴'(Model Collapse) 방지 전략

합성.생성 데이터의 '모델 붕괴'(Model Collapse) 방지 전략 모델 붕괴는 생성형 AI가 반복적으로 자신이 만든 합성 데이터를 훈련에 사용하면서 성능이 점차 저하되고, 데이터의 다양성과 품질이 손상되는 현상입니다. 이로 인해 실제 환경과의 괴리가 심해지고, 예측력과 신뢰성이 급격히 저하될 수 있습니다. 1. 모델 붕괴 방지 주요 메커니즘 및 피드백 전략실제(리얼) 데이터의 지속적 축적: 합성 데이터만 반복적으로 사용할 때 붕괴가 발생하는 경향이 강합니다. 실제 데이터와 합성 데이터를 누적적으로(삭제 없이) 함께 사용하면 붕괴를 방지할 수 있습니다12.합성 데이터 품질 검증(Verification): 사람이든 별도 모델이든, 합성 데이터의 품질을 사전에 검증(검열)해 불량 데이터를 걸러내는 피..

지식창고 2025.07.29

생성형 모델의 모델 붕괴(mode collapse) 현상을 막기 위한 피드백 메커니즘

생성형 모델의 모델 붕괴(mode collapse) 현상을 막기 위한 피드백 메커니즘모델 붕괴(mode collapse) 현상을 막기 위한 피드백 메커니즘은 GAN(Generative Adversarial Network) 등 합성 데이터 생성 모델에서 하나 혹은 소수의 데이터 유형만 반복적으로 생성되는 문제를 해소하기 위해 도입되는 기법입니다. 아래에 개념, 특징, 작동원리, 그리고 대표적인 구현 방법을 체계적으로 정리합니다. 🧠 생성 모델 붕괴의 주요 원인자기증폭적 학습 (Self-Amplifying Training)모델이 이전에 생성한 데이터(즉, synthetic data)를 다시 학습에 사용하면, 오차와 편향이 반복적으로 증폭됨특히 웹상에 AI가 생성한 콘텐츠가 많아질수록, 모델은 "자기 자신..

지식창고 2025.07.29

개인정보 비식별화 체계 와 프라이버시 모델 k-익명성(k-anonymity), l-다양성(l-diversity), t-근접성(t-closeness)

개인정보 비식별화 체계 와 프라이버시 모델 k-익명성(k-anonymity), l-다양성(l-diversity), t-근접성(t-closeness) 개인정보 비식별화에서 프라이버시 모델 k-익명성(k-anonymity), l-다양성(l-diversity), t-근접성(t-closeness) 모델의 체계적 논리 구조와 필요성·유용성에 관한 연구를 아래와 같이 정리했습니다. 최근 실질 연구 논문 정보를 기반으로 논문의 주요 정보도 함께 제공합니다.1. 비식별화 체계 - 프라이버시 모델(1) k-익명성개념:- 공개 데이터에서 특정 개인이 직접적으로 식별되지 않도록, 주어진 ‘식별 정보(준식별자)’ 조합이 데이터 내 최소 k명 이상 동일하게 되도록 처리하는 것으로,- 데이터 공개 시 각 레코드가 최소 k-..

지식창고 2025.07.29

개인정보보호- 정보손실 방지를 위한 프라이버시 보호 모델 최적화 연구

개인정보보호- 정보손실 방지를 위한 프라이버시 보호 모델 최적화 연구 l-다양성(ℓ-diversity), t-근접성(t-closeness) 등 프라이버시 보호 모델 최적화 와 더불어 프라이버시 모델의 한계(유용성 저하, 정보손실 등) 개선에 대한 주제를 정리해 봅니다.최근 연구에서는 l-다양성(ℓ-diversity), t-근접성(t-closeness) 등 프라이버시 보호 모델의 한계(유용성 저하, 정보손실 등)를 극복하고, 데이터 활용성과 프라이버시 보호 간의 균형을 최적화하기 위한 다양한 방법이 제안되고 있습니다. 주요 연구 개선점과 최적화 전략은 아래와 같습니다.1. 클러스터링 및 분할 알고리즘 개선향상된 클러스터링: 기존 k-익명성, ℓ-다양성, t-근접성 모델은 단순 분할이나 기존 클러스터링만 사..

지식창고 2025.07.28

비식별.익명성 평가 - k-익명성, l-다양성, t-근접성 평가 프로그램

비식별.익명성 평가 - k-익명성, l-다양성, t-근접성 평가 프로그램데이터의 프라이버시 모델 적정성을 평가하기 위해서는 데이터의 성격에 맞게 k-익명성, l-다양성, t-근접성이 충족됐는지 각 단계마다 검증하는 프로그램을 설계해야 합니다.다음과 같이 각 모델의 평가 논리와 이에 맞는 파이썬 프로그램 구조를 정리 합니다.1. k-익명성(K-anonymity) 평가 프로그램목적: 준식별자 조합별로 각 그룹에 데이터가 k개 이상 존재하는지 확인def check_k_anonymity(df, quasi_identifiers, k): # 데이터프레임(df), 준식별자 목록, k값 입력 group_sizes = df.groupby(quasi_identifiers).size() # 각 그룹 개수 출..

지식창고 2025.07.26
반응형