지식창고

(익명화.비식별화) K-익명성, l-다양성, t-근접성의 개념 과 적정성 평가 방법

오이시이 2025. 7. 26. 12:32
반응형

 

(익명화.비식별화) K-익명성, l-다양성, t-근접성의 개념 과 적정성 평가 방법

 

온라인 및 인터넷 기반 금융 산업이 발전하고 모바일 기반 서비스가 확산됨에 따라, 개인정보와 위치정보 등 민감정보를 활용한 개인화 서비스가 증가하고 있습니다. 그러나 이로 인해 개인정보 도용, 피싱 등의 정보보호 침해 사고에 노출될 위험도 함께 커지고 있습니다. 이에 대응하기 위해, 관련 법률과 제도적 장치가 마련되어 개인정보 보호를 강화하고 있으며, 동시에 데이터를 효율적으로 활용할 수 있도록 비식별화 가이드라인도 제공되고 있습니다.

개인정보의 비식별과 익명화를 통한 안전한 활용을 위해 익명화. 비식별화를 평가하는 K-익명성, l-다양성, t-근접성의 개념 을 알아 봅니다.

ㅁ K-익명성, l-다양성, t-근접성의 개념

1. K-익명성(K-Anonymity)

  • 개념: 데이터 내에서 각 준식별자 조합이 k개 이상 동일한 레코드로 묶이도록 처리하여, 외부의 다른 데이터와 결합하여도 특정 개인이 식별될 확률을 1/k 이하로 낮추는 프라이버시 모델입니다.
  • 의의: 각 데이터 레코드가 최소 k명 이상의 그룹에 속하게 되어, 재식별 위험을 1/k 이하로 감소시키는 안전장치입니다.

  • 구성요소:
    -  준식별자 (Quasi-Identifier, QI):
    단독으로는 개인을 식별할 수 없지만, 다른 정보와 결합하면 식별 가능한 속성입니다. (예: 우편번호, 나이, 성별)
    - 동질 집합 (Equivalence Class): 동일한 준식별자 값을 갖는 레코드들의 집합입니다.
    - k값: 동질 집합이 가져야 할 최소 레코드의 수.

  • 한계: 그룹 내 민감정보가 모두 동일할 경우(동질성 공격), 실제 보호가 미흡할 수 있으므로 후속 모델이 개발되었습니다.

  • 적정성 평가 방법:
    • 데이터에서 준식별자(예: 나이, 성별, 지역 등)별로 그룹화하여 각 그룹의 크기가 k 이상인지 확인합니다.
    • 모든 그룹이 기준 k값 이상이면 적정 평가를 받음123.
    • 동일한 속성값을 가진 레코드 그룹, 즉 '동질 집합(Equivalence Class)'을 형성하여 개인 식별을 어렵게 만듭니다.
    • 하지만 이 동질 집합 내의 민감 정보가 모두 동일하다면 프라이버시가 침해될 수 있습니다. (예: 동질 집합에 속한 5명(k=5)의 병명이 모두 '위암'인 경우)

 

2. l-다양성(l-Diversity)

  • 개념: K-익명성만으로는 동질성 공격(동일 그룹 내 민감값이 전부 같음)이나 배경지식 공격에 취약하기 때문에, 각 k-동질 집합(=equivalence class)에 l개 이상의 ‘서로 다른’ 민감 정보를 포함시키는 모델입니다.
  • K-익명성 보완하여, 같은 준식별자 조합(즉, 그룹 또는 동질집합)마다 l개 이상 서로 다른 민감속성 값이 포함되도록 요구하는 추가 안전 장치입니다.
  • 의의: 그룹 내 민감정보의 다양성을 보장해, 그룹에 속해 있다는 사실만으로는 민감정보를 확정적으로 알 수 없게 보호합니다.

  • 구성요소:
    - K-익명성의 모든 구성요소를 포함합니다.
    - 민감 속성 (Sensitive Attribute): 보호하고자 하는 주요 정보입니다. (예: 질병명, 소득)
    - l값: 각 동질 집합 내에서 민감 속성이 가져야 할 최소한의 다양한 값의 개수.
  • 적정성 평가 방법:
    • 각 동질 집합(준식별자가 같은 집합) 내에 민감정보(예: 질병, 소득 등)가 l종류 이상인지 검사합니다.
    • 모든 그룹이 l 이상의 다양성을 가지면 평가를 통과합니다143.
    • 동질 집합 내 민감 정보의 다양성을 확보하여, 준식별자가 같더라도 민감 정보가 무엇인지 쉽게 추론할 수 없도록 합니다. '동질성 공격(Homogeneity Attack)'과 같은 K-익명성의 약점을 방어할 수 있습니다

 

3. t-근접성(t-Closeness)

  • 개념: l-다양성을 만족해도, 특정 값에 민감정보가 쏠리거나 유사한 경우(쏠림, 유사성 공격)에 취약합니다. 각 동질 집합의 민감정보 분포가 전체 데이터의 민감정보 분포와 t 이하의 거리(일반적으로 EMD, Earth Mover's Distance)를 보이도록 제한하는 모델입니다.
    (l-다양성 역시 값의 빈도 쏠림(예: 5종류 중 한 값이 95% 차지)이나 값방향(유사정보) 문제로 한계가 있습니다. )
  • 의의: 여기서 분포 간 차이는 일반적으로 Earth Mover’s Distance(EMD) 등 지표로 계량해 판단합니다. 이로써 한 그룹 내 민감정보 분포가 전체 데이터와 크게 다르지 않아 예측 가능성이 현저히 줄어듭니다.

  • 구성요소:
    - l-다양성의 모든 구성요소를 포함합니다.
    - 분포 거리 측정: 동질 집합의 분포와 전체 데이터 분포 간의 거리를 측정하는 방법이 필요합니다.
       (예: EMD - Earth Mover's Distance)

    - t값: 두 분포 간의 허용 가능한 최대 거리(차이). t값이 작을수록 프라이버시 보호 수준이 높아집니다.

  • 적정성 평가 방법:
    • 전체 데이터의 민감정보 분포와 각 동질 집합의 민감정보 분포를 비교해 EMD 등으로 계산한 분포의 차이가 t 이하이면 적정 평가를 받습니다135.
    • 민감 정보의 다양성뿐만 아니라 분포까지 고려합니다. 이를 통해 동질 집합 내 민감 정보의 분포가 편향되어 발생하는 '배경지식 공격(Background Knowledge Attack)'을 막을 수 있습니다.
    • 예를 들어, 특정 동질 집합에 암 환자가 1명, 감기 환자가 9명 포함(l=2 충족)되어 있더라도, 공격자가 해당 지역에 암 발병률이 매우 낮다는 배경지식을 안다면 특정 개인의 정보를 유추하기 쉬워집니다.
    • t-근접성은 이러한 정보 쏠림 현상을 방지합니다.

 

K-익명성, l-다양성, t-근접성 비교

     
모델명 주된 보호 논리 보완 대상(위협)
K-익명성 k개 이상의 동일 그룹화로 재식별 방지 단순 재식별
l-다양성 각 그룹 내 l개 이상 서로 다른 민감값 보장 동질성 공격 방지
(Homogeneity Attack)
t-근접성 그룹 내 민감값 분포와 전체 분포 간 차이 제한 정보쏠림·유사성 공격 방지
배경지식 공격 방지
(Background Knowledge Attack)

 

이처럼, K-익명성 → l-다양성 → t-근접성의 순차적 모델은 개인정보 데이터의 안전한 활용을 위한 평가 기준으로서, 각각 한계점을 보완하면서 데이터의 프라이버시와 활용가능성 간 균형을 도모하는 데 널리 이용되고 있습니다.

실무에서는 데이터의 특성과 활용 목적에 따라 이들 모델을 단독 또는 복합적으로 적용하며, 법적·제도적 가이드라인에서도 이와 같은 모델의 준수를 통한 비식별 조치의 적정성 평가가 강하게 요구되고 있습니다.

 

개인정보 비식별화

 

 

익명화.비식별화 평가 관련 파이썬 검증 샘플 코드

import pandas as pd
import numpy as np

def check_k_anonymity(df, quasi_identifiers, k):
    group_sizes = df.groupby(quasi_identifiers).size()
    return all(group_sizes >= k), group_sizes

def check_l_diversity(df, quasi_identifiers, sensitive_column, l):
    l_diverse = df.groupby(quasi_identifiers)[sensitive_column].nunique()
    return all(l_diverse >= l), l_diverse

def emd(p, q):
    # Earth Mover's Distance
    p, q = np.array(p), np.array(q)
    return np.abs(p - q).sum() / 2

def check_t_closeness(df, quasi_identifiers, sensitive_column, t):
    overall_dist = df[sensitive_column].value_counts(normalize=True).sort_index()
    t_close_result = []
    for _, group in df.groupby(quasi_identifiers):
        group_dist = group[sensitive_column].value_counts(normalize=True).reindex(overall_dist.index).fillna(0)
        if emd(group_dist, overall_dist) > t:
            t_close_result.append(False)
        else:
            t_close_result.append(True)
    return all(t_close_result), t_close_result

# 예시 데이터
df = pd.DataFrame({
    "age": ["30대", "30대", "30대"],
    "area": ["서울", "서울", "서울"],
    "sex": ["남", "남", "남"],
    "disease": ["감기", "독감", "천식"]
})

print(check_k_anonymity(df, ["age", "area", "sex"], k=3))
print(check_l_diversity(df, ["age", "area", "sex"], "disease", l=2))
print(check_t_closeness(df, ["age", "area", "sex"], "disease", t=0.4))
  • 위 코드는 실제 데이터 분석에 활용 가능합니다.

KCI 논문 참고(대표 사례)

  • “상관관계 지표를 이용한 익명 데이터의 유용성 측정”
    K-익명성, l-다양성, t-근접성이 적용된 테이블에 대해 유용성과 프라이버시 보장 정도를 실험적으로 비교·분석한 논문입니다. 다양한 보호수준(각 모델별 k, l, t값)에 따라 데이터 유용성과 프라이버시 보호관의 균형에 대한 실증적 논의가 제시됨6.
  • “데이터 특성 분석 기반 프라이버시 모델 추천 시스템”
    K-익명성, l-다양성, t-근접성 등 다양한 모델을 데이터 특성에 따라 자동 추천하는 시스템을 개발한 논문. 각 모델 적용 효과를 시뮬레이션하여, t-근접성이 쏠림 위험을 효과적으로 완화하는 것을 분석‧입증함789.

참고 요약

  • 세 모델은 각각 프라이버시 보호의 기준을 달리하며, 실제 현장에서는 K-익명성을 기본으로 적용하고 데이터 성격 및 위험에 따라 l-다양성, t-근접성을 추가 적용합니다2310.
  • 평가는 정성적(모델 적용의 타당성, 기술 적용의 적절성)과 정량적(k, l, t 측정) 방식이 병행됩니다.
  • 실무 적용 시 별도의 평가단 구성 및 외부 전문가 검토 절차가 필수임을 유의해야 합니다

본 답변은 KCI 등재 논문과 현장 가이드라인에 기반해 정리하였으며, 실무 적용 시 별도의 평가단 구성 및 외부 전문가 검토 절차가 필수임을 유의해야 합니다678.

K-익명성 평가 방법과 문제점

K-익명성(K-anonymity)은 준식별자 조합별로 최소 k명의 동일 레코드로 그룹화하여 외부 결합 공격 시 재식별 위험을 수치적으로 낮추는 대표적인 데이터 비식별화 모델입니다.

적정성 평가는 일반적으로 다음과 같은 절차로 이루어집니다:

  • 데이터 내 준식별자 조합별 그룹 크기가 k 이상인지 확인
  • 정보 손실(utility loss) 등 부작용 평가
  • 재식별 위험(예: 외부 데이터 결합 가능성 등) 점검

주요 문제점 및 한계

K-익명성의 주요 문제점 및 한계 설명

1. 동질성(Uniformity) 공격

  • K-익명성은 준식별자 조합별로 그룹을 만든 뒤 그룹 크기만 k 이상이면 충족합니다.
  • 그러나 그룹 내 민감정보가 동일하면 K-익명성만으로 정보 보호가 불충분[1][2].
  • 한 그룹 내 민감정보(예: 질병명, 소득 등)가 모두 동일하면, 그룹 중 어디에 속해 있는지 알기만 해도 해당 민감정보를 곧바로 알 수 있습니다.
  • 이런 이유로 K-익명성만으로는 같은 그룹 내 값의 다양성이 보장되지 않아, 정보 보호에 불충분하다는 약점이 있습니다.

2. 백그라운드 지식 공격

  • 공격자가 공개된 데이터 외에 추가적인 외부 정보(배경지식) ― 예를 들어 연령대, 성별, 거주 지역 등 ―를 활용하면, 여러 그룹 중 특정인을 포함할 법한 후보 그룹을 쉽게 좁힐 수 있습니다.
  • 결과적으로, K-익명성을 만족해도 재식별 위험은 남게 됩니다.

3. 다차원 데이터(고차원성)에서 정보손실 급증

  • k값을 올릴수록 데이터 유용성이 크게 저하됩니다.
  • 데이터의 특성(속성)이 많아질수록, K-익명성을 만족하려면 더 광범위하게 정보를 일반화하거나 삭제해야 합니다.
  • k값을 높일수록(더 강하게 보호할수록) 더 많은 정보가 손실되어, 데이터의 실제 활용 가치(유용성)가 크게 떨어지는 문제가 있습니다.

4. 민감속성 보호 미흡

  • 그룹 내 민감값 집중 시 노출 위험
  • 그룹 내 민감속성(예: 특정 질병명, 특별한 재무내역 등)이 소수 값이나 한 가지 값에 집중될 경우, 설령 K-익명성을 달성했더라도 개인정보 노출의 위험성이 여전히 존재합니다.
  • 데이터가 외부 데이터와 결합되지 않아도, 그룹 자체의 분포가 편중되어 있으면 정보 유출 가능성이 올라갑니다.

5. 위치정보 등 특수 환경에서의 개인정보 보호 한계

  • 위치정보 서비스나 실시간 데이터처럼 연속적·정밀한 정보의 경우, 단순 그룹화로는 충분히 익명성을 보장하지 못하며, 사용자의 이동경로나 생활반경 등의 추가 정보로 재식별이 어려워지지 않습니다.
  • 따라서 이런 특수 데이터는 K-익명성 이외의 추가적·복합적 보호 기법이 필요합니다.

이처럼 K-익명성은 프라이버시 보호의 대표적인 출발점이지만, 실제 응용에서는 이와 같은 한계점과 공격 가능성을 고려하여 l-다양성, t-근접성 등 추가적인 프라이버시 모델을 적용하거나, 데이터 특성에 맞는 보완책이 필요합니다.


K-익명성 문제점 개선 논문 및 연구

구분 주요내용 및 개선 아이디어 대표 논문 및 발표지
동질성·쏠림 및 유사성 공격 보완 l-다양성, t-근접성 등 확장형 모델 도입t-근접성은 분포 전체 차이 고려, l-다양성은 내부 다양성 보장 Latanya Sweeney, "k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY"[1]“K-Anonymity Privacy Protection Algorithm for Multi-Dimensional Data…” (Sensors, 2023)[6]
차등화, 속성중심 강화 (p,α)-센싱티브 k-익명성 등: 민감속성별 보호수준을 별도 조정 Na Man et al., “A Privacy Protection Model Based On K-Anonymity”[7]
클러스터링 기반 효율 개선 KNN/군집화 기반 변형, 실효성과 정보손실 간 균형 Kanade et al., “Evaluating the Effectiveness of Clustering-Based K-Anonymity…” (IJISAE, 2023)[8]
메타휴리스틱·최적화 기법 군집, 최적화 기반 자동 그룹화로 정보손실 최소화 De Pascale et al., “Real-world K-Anonymity applications: The KGen approach…” (Sciencedirect, 2023)[9]Y Liang, “Optimization-based k-anonymity algorithms” (Sciencedirect, 2020)[10]
차등 개인정보보호(ε-differential-privacy) 결합 (k,ε)-anonymity: K-익명성과 확률적 차등 프라이버시 결합 Holohan et al., “(k,ε)-Anonymity” (arXiv, 2017)[3]
유용성/성능 동시 평가 다양한 k-익명화 알고리즘 비교 및 유용성 평가 El Emam et al., “Protecting Privacy Using k-Anonymity” (PMC, 2008)[11]Bannister et al., “A Systematic Comparison and Evaluation of k-Anonymization…” (ACM)[12]
한국 연구 논문 s-uniformity: 민감도 고려 및 분포 균질 적용위치정보 서비스에서 L-diversity 지원 cloaking 기법 등 서강대학교 석사논문, “데이터의 민감도를 고려한 균일 분포 보장 익명화 기법”(2009)[13]한국과학기술정보연구원, “[PDF] 위치기반 서비스에서 K-anonymity 및 L-diversity를 지원하는 cloaking 기법”[5]

연구들의 주요 개선점 요약

  • 민감정보 다양성과 분포까지 보장(l-다양성, t-근접성, s-uniformity, (p,α)-k-익명성 등)
  • 알고리즘적 최적화(클러스터링, 메타휴리스틱, 최적화기법 적용)
  • 차등 프라이버시·기계학습 기반 결합
  • 상황별(동적/정적, 위치기반 등) 데이터 특화형 기법 제안

특히 센서, 위치, 의료, 대규모 정형/비정형 데이터 등 다양한 환경에서 K-익명성 현장 적용과 한계, 개선안을 다룬 KCI(국내)·국제 논문도 지속적으로 증가하고 있습니다.

참고: 대표 논문 요약

  1. Sweeney, L. (2002) “k-ANONYMITY: A Model for Protecting Privacy” — K-익명성 한계 및 보완 방향 최초 제시[1].
  2. Kanade et al. (2023) “Clustering-Based K-Anonymity…” — 클러스터링 기반 K-익명성 효과 비교 및 정보 손실 분석[8].
  3. Holohan et al. (2017) “(k,ε)-Anonymity” — K-익명성 한계(고차원 정보손실 등)와 차등프라이버시의 결합 방안 제안[3].
  4. Na Man et al. “A Privacy Protection Model Based On K-Anonymity” — 민감속성별 보호수준 조정(p,α)-k-익명성 제안[7].
  5. 국내: 서강대 박석(2009) — 민감도 기반 s-uniformity 익명화 기법[13].
  6. 한국과학기술정보연구원 — 위치기반에서 K/L 복합 익명화(cloaking) 기법[5].

결론:
K-익명성의 현실 적용과 평가에는 ‘동질성·유사성·정보손실·민감속성 쏠림 등’ 다양한 한계가 존재하며, 다양한 국내외 논문에서 l-다양성, t-근접성, 차등 프라이버시, 메타휴리스틱/클러스터링 등과의 융합, 특화 환경 적용, 민감속성 중심 보호전략 등 다양한 개선책이 활발히 제안되고 있습니다.
실제 데이터 보호시 상황·데이터 특성별로 해당 기법과 연구사례를 참고한 복합적 모델 적용과 전문가 평가가 바람직합니다[9][1][3][8][6][13][5][7].

[1] https://epic.org/wp-content/uploads/privacy/reidentification/Sweeney_Article.pdf
[2] https://www.datasunrise.com/knowledge-center/k-anonymity/
[3] https://arxiv.org/pdf/1710.01615.pdf
[4] https://www.sciencedirect.com/science/article/pii/S0167404821003126
[5] https://koreascience.kr/article/JAKO200815536390239.pdf
[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC9919945/
[7] https://www.atlantis-press.com/article/25892798.pdf
[8] https://ijisae.org/index.php/IJISAE/article/view/3437
[9] https://www.sciencedirect.com/science/article/pii/S0306437923000297
[10] https://www.sciencedirect.com/science/article/abs/pii/S0167404820300377
[11] https://pmc.ncbi.nlm.nih.gov/articles/PMC2528029/
[12] https://dl.acm.org/doi/10.5555/2870614.2870620
[13] https://dcollection.sogang.ac.kr/dcollection/srch/srchDetail/000000044911
[14] https://www.mdpi.com/1424-8220/23/3/1554
[15] https://www.k2view.com/blog/what-is-k-anonymity
[16] https://www.worldscientific.com/doi/abs/10.1142/s0218488502001648
[17] https://www.sciencedirect.com/topics/computer-science/k-anonymity
[18] http://arxiv.org/pdf/2407.02290.pdf
[19] https://pmc.ncbi.nlm.nih.gov/articles/PMC2744718/
[20] https://pubmed.ncbi.nlm.nih.gov/19567795/

  1. https://12bme.tistory.com/163
  2. https://www.privacy.go.kr/cmm/fms/FileDown.do?atchFileId=FILE_000000000827068&fileSn=0
  3. https://taehidev.tistory.com/75
  4. https://it-license.tistory.com/106
  5. https://kbig.kr/sites/default/files/pds/%EA%B0%9C%EC%9D%B8%EC%A0%95%EB%B3%B4%EB%B9%84%EC%8B%9D%EB%B3%84%ED%99%94_201706.pdf
  6. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003023538
  7. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002998509
  8. https://www.kci.go.kr/kciportal/landing/article.kci?arti_id=ART002998509
  9. https://journal.kci.go.kr/jksci/archive/articlePdf?artiId=ART002998509
  10. https://enterprise.kt.com/bt/dxstory/928.do
  11. https://seogwipo.go.kr/help/policy/security.htm?act=download&seq=86859397&no=2
  12. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11525811
  13. https://www.cisp.or.kr/wp-content/uploads/2020/04/%EB%B6%99%EC%9E%841-%EA%B0%9C%EC%9D%B8%EC%A0%95%EB%B3%B4-%EB%B9%84%EC%8B%9D%EB%B3%84-%EC%9E%90%EB%A3%8C-%EC%83%9D%EC%84%B1%EC%9C%A0%ED%86%B5%EC%9D%98-%ED%98%84%EC%9E%A5-%EC%8B%A4%EC%A6%9D-%EC%A0%81%EC%9A%A9-%EA%B3%BC%EC%A0%9C-%EC%B5%9C%EC%A2%85%EB%B3%B4%EA%B3%A0%EC%84%9C.pdf
  14. https://s2cherryy.tistory.com/119
  15. https://koreascience.kr/article/JAKO202328433315520.do
  16. https://seing.tistory.com/197
  17. https://wesometech.github.io/blog/ARX/
  18. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002427193
  19. https://s-space.snu.ac.kr/bitstream/10371/176539/1/000000166013.pdf
  20. https://scholar.kyobobook.co.kr/article/detail/4010026181359
반응형