지식창고

비식별화(가명)조치 평가 방법 및 개념

오이시이 2025. 7. 26. 17:13
반응형

 

온라인/인터넷 및 모바일 환경에서 개인정보와 위치정보 등 민감정보의 비식별(가명) 활용을 평가하는 과정에서 “정성적 평가”와 “정량적 평가”를 모두 실시하는 것이 실무와 가이드라인, 그리고 국내외 연구에서 강조되고 있습니다.

 

1. 비식별화(가명)조치  평가 방법 및 개념 설명

1-1. 정성적 평가

  • 데이터 이해 및 비식별 기법 적용의 적정성
    평가단이 데이터 목적과 특성, 적용한 비식별 기법이 법적 및 기술적으로 적정한지 판단(예: 식별자 완전 삭제 여부, 준식별자·민감정보 분류의 적절성, 현 프라이버시 모델 적정성, 사용한 기술 및 도구의 신뢰성 등).
  • 식별자 삭제 여부
    데이터 내 식별 정보(성명, 주민번호 등) 완전 삭제 상태 점검.
  • 준식별자 및 민감정보 분류 적정성
    나이, 지역 등은 준식별자, 질병이나 소득 등은 민감정보로 명확히 분류했는지 확인.
  • 프라이버시 모델 적정성
    데이터 성격에 따라 k-익명성, l-다양성, t-근접성 등 적정 모델이 올바르게 적용됐는지 검토.
  • 기술/제품 적정성
    사용한 비식별화 프로그램 또는 도구가 신뢰할 만한지 검토, 데이터 환경(RDBMS, Excel, 사용자 제작 도구 등)도 평가.

 

1-2. 정량적 평가

  • k, l, t 값의 측정
    계량적으로 K-익명성, l-다양성, t-근접성 지표를 산출: 각 동질집합별 그룹 크기(최소 k), 그룹 내 민감값 종류(l), 민감값 분포 거리(t).
  • 비식별화 프로그램의 신뢰성/다양성
    동일 혹은 이종(다른) 프로그램 사용 가능, 프로그램별 측정 결과 비교도 신뢰성의 일부.
  • 데이터 환경별 측정
    데이터가 저장된 환경에 따라, RDBMS·Excel·별도 스크립트·프로그램 등에서 직접 측정(자동화 및 증빙 가능).

 

1-3. 최종평가(종합판정)

  • 정성적·정량적 평가 결합
    양 평가를 바탕으로 데이터 민감성/위험 대비 k(또는 l, t) 값의 적절성, 그리고 실제 활용 가능성을 종합 판정.

 

2. 국내외 주요 연구 논문 및 연구주제, 결과

아래는 KCI(국내 학술지 인용색인) 등재 논문으로, 정량·정성평가, 프라이버시 모델, 위험 관리, 비식별화 성능 등 다양한 관점을 아우르는 대표 논문 및 연구 성과입니다.

 

No 논문명 연구주제 및 내용 등재지
1 “위험 평가 모델 기반의 정량적 사이버 보안 평가 체계” 정량지표와 AHP 등의 계량화 기법으로 위험(데이터 민감성, 위협 등) 평가 체계 구축 및 실효성 입증 KCI1
2 “연구성과평가 지침 리뷰 및 국내 적용 제안” 정성평가의 우선 필요성, 정량지표 단독 사용의 한계 및 보조적 역할 강조 KCI2
3 “K-익명성, l-다양성, t-근접성 기반 적정성 평가” k, l, t 값 측정의 실제 적용 및 쏠림·유사성 공격 보완 지표(정량평가) 도입 JKSCI3
4 “개인정보 비식별조치를 위한 데이터 상황 기반의 위험도 측정” 데이터·환경 맥락을 고려한 객관적 리스크 지표 제안, 비식별 수준 차별화 필요성 입증 KCI4
5 “오토인코더를 이용한 데이터 비식별화” 딥러닝 등 이종 기법 도입시 정보 손실 최소화와 정량 평가 가능성 실험 KCI5
6 “데이터 특성 기반 프라이버시 모델 추천 시스템” 데이터 쏠림 특징, 적정 프라이버시 모델 자동 추천 및 실효성 비교 DBpia6
7 “비식별 처리 방법 및 정책 현실 비교” 다양한 정책·절차(정성·정량 평가 병행)의 국내외 적용 사례·한계 제시 KCI7
8 “Neural Style Transfer를 이용한 얼굴 비식별화” 비식별 처리 성능 평가, 신경망 기반 정량적/정성적 인식률 실험 KCI89
9 “차분 프라이버시 기반 비식별화 기술 개발” 데이터(데이터+질의) 위험 척도, 재식별 가능성 평가 및 지표화 KISTI10
10 “빅데이터 환경에서 개인정보 비식별화에 대한 위험성 및 대응” 비식별 조치 및 재식별 위험, 적정성 평가 모델 비교 및 실무 적용 논의 KISTI11
11 “데이터 비식별화 정책에 대한 규범적 비판” 비식별 데이터 결합의 법적 쟁점, 적정성 평가 기준 필요성 분석 KCI12
12 “비식별 조치 적정성 평가 - 개인정보 포털” 공식 가이드라인에서 정성/정량 검토 항목, 평가단 평가, 프로그램 활용 등 구체적 설명 개인정보 포털13
 
 

아래는 2023년 이후 발표된 데이터 비식별화에 대한 정성적·정량적 평가 관련 최신 연구 논문과 각 논문의 연구 배경, 목적, 기여 방법의 요약입니다.

1. “Exploring the tradeoff between data privacy and utility with a clinical dataset” (2024)1

  • 연구 배경 및 목적
    임상 데이터 활용이 활발해지면서, 데이터 프라이버시를 위한 비식별화(De-identification)가 데이터의 활용성(utility)에 어떤 영향을 주는지 정량적·정성적으로 평가할 필요성이 커졌습니다.
  • 연구 방법 및 기여
    • 다수의 비식별화 시나리오(ARX 오픈소스 도구 활용)를 임상 데이터(응급실 체류시간 분석)에 적용, 각각의 재식별 위험 감소와 데이터 분석 유효성 결과를 비교‧정량 평가함.
    • 다양한 비식별화 방법이 도입되며, 개인정보 보호와 데이터 활용성의 균형점(trade-off)을 실무적 데이터 분석 과정에서 구체적으로 탐구함.
    • 결론적으로, 높은 프라이버시와 유용성의 균형점 탐색은 “데이터 목적과 사용자 관점”이 중요함을 실증.

2. “A Data Utility-Driven Benchmark for De-identification Methods” (2023)2

  • 연구 배경 및 목적
    데이터 비식별화 기법은 다양하지만, 방법별 선택이 데이터 유용성과 프라이버시 보장에 어떻게 영향을 미치는지 체계적으로 비교할 기준이 부재했습니다.
  • 연구 방법 및 기여
    • 비식별화 방법(익명화, 일반화, k-익명성, 마스킹 등)의 정량적 효과와 데이터 유용성 희생 정도를 자동으로 평가·비교하는 벤치마킹 프레임워크를 제안.
    • 각각의 비식별화 설정 조합을 자동으로 탐색, 프라이버시 요건과 데이터 유용성(정성·정량지표)을 모두 고려한 최적 해법 도출 지원.
    • 실제 기업 환경에서 프라이버시-유용성 균형에 관한 의사결정을 현장적으로 지원.

3. “Comparison of personal information de-identification: EU, US, Japan, Korea” (2023)3

  • 연구 배경 및 목적
    비식별화의 정성적·정량적 평가 기준이 국가마다 다르기 때문에, 국제적으로 수용 가능한 평가 모델 확립이 중요해졌습니다.
  • 연구 방법 및 기여
    • 유럽, 미국, 일본, 한국 4개국의 최신 비식별화 기준/방법(정성·정량 평가 포함)을 실제 규제‧정책 비교 관점에서 분석.
    • 각국 사례별 k-익명성, l-다양성, t-근접성 적용 특징과 한계를 도출하여 정책적 개선 방향을 제시.

4. “Qualitative data anonymisation: theoretical and practical perspectives” (2023)4

  • 연구 배경 및 목적
    정성적 데이터(예: 인터뷰, 서술형 응답 등)에 대한 비식별화 평가와 실무적 적용 절차에 대한 가이드라인 부재를 해결하고자 함.
  • 연구 방법 및 기여
    • 정성적 데이터 내 직접·간접 식별자 분석법, 데이터 최소화, 파일 처리 절차, 모든 비식별화 단계별 실무 지침을 종합 정리.
    • 이론적 배경·법적 근거(유럽 GDPR 등)와 실제 실무 사례를 체계적으로 제시, 정량·정성 평가 방법을 모두 안내.

5. “De-Identification When Making Data Sets Findable and Accessible for Reuse” (2023)5

  • 연구 배경 및 목적
    사회과학, 행동과학 분야에서 데이터의 공개 및 재사용 시, 정성적 비식별화 평가와 함께 데이터 유용성(가용성) 보장 지침이 필요.
  • 연구 방법 및 기여
    • 실제 사례 기반의 정성·정량적 비식별화 처리 절차 예시 제시(직접 식별자 제거, 준식별자 단순화 등).
    • 데이터 활용성과 프라이버시 보호 수준을 균형 있게 평가하는 운영 프레임을 제안함.

6. “Open-Science Guidance for Qualitative Research” (2023)6

  • 연구 배경 및 목적
    질적 연구 데이터의 오픈사이언스·공개 공유 확대에 따라, 심층적 정성적 비식별화 평가 프레임워크의 필요성이 대두됨.
  • 연구 방법 및 기여
    • 단계별 평가 프로토콜(직접·간접 식별자 정의, 데이터 변환, 멤버체크 및 신뢰성 확보 절차 등) 제시.
    • 신뢰성·전달성·객관성(credibility, transferability, confirmability) 등 질적 연구 신뢰도 기준을 정성-정량 평가지표로 적용함.

7. “Engaging the challenges of sharing qualitative research data” (2023)7

  • 연구 배경 및 목적
    질적 데이터 공유 시 프라이버시 보호와 데이터 이해 당사자와의 신뢰간 균형점을 모색.
  • 연구 방법 및 기여
    • 데이터 비식별화 실행 시 직면하는 다양한 이슈(정성적 요소 포함)를 실제 경험 기반으로 정리.
    • 평가 시점, 절차, 당사자 참여 등 정성적 요소를 강조하며, 유연하고 효과적인 공유 전략을 제시.

8. “Conducting and Writing Quantitative and Qualitative Research” (2023)8

  • 연구 배경 및 목적
    비식별화 과정에서 정량·정성 평가가 논문 질과 연구 윤리에 미치는 영향 분석.
  • 연구 방법 및 기여
    • 정량(지표, 수치)과 정성(현장 맥락, 절차)의 병행적 활용법을 실질적으로 정리.
    • 데이터 유형별 평가 기준과 기준의 조화에 대해 실무적으로 안내.

9. “Evaluating GPT models for clinical note de-identification” (2025)9

  • 연구 배경 및 목적
    최근 대규모 언어모델(GPT) 기반 자동 비식별화 과정의 정성적·정량적 평가 법 적용.
  • 연구 방법 및 기여
    • 임상 노트 비식별화에 GPT-3.5, GPT-4 적용, 수작업과 자동화 결과(정량·정성) 비교.
    • 최신 AI 활용 프라이버시 보호 시스템의 한계와 우수성 구체 분석.

10. “Diverse Community Data for Benchmarking Data Privacy Algorithms” (2024)10

  • 연구 배경 및 목적
    비식별화 알고리즘의 평가 환경(데이터 다양성, 공정성 등)에 따라 정성·정량 평가 결과가 달라지는 문제를 탐구.
  • 연구 방법 및 기여
    • 다양한 커뮤니티·속성(정성적 요소 반영) 데이터셋으로 알고리즘(정량지표) 평가 체계 마련.
    • 편향·공정성 등 문제까지 평가 범주를 확장함.

 

요약:

2023년 이후 비식별화 정성·정량 평가 연구들은 k-익명성 등 정량 모델의 개량, 정성적 평가지표(윤리, 신뢰도, 맥락 등) 개발, 다양한 융합 평가 방법론, 그리고 데이터 활용성-개인정보 보호 균형점 탐색을 중심으로 발전하고 있습니다. 실제 데이터 특성·사용 목적에 따라 분야별 맞춤형 평가체계와, 알고리즘적 자동화와 현장 전문가 검토의 조화가 핵심 임을 제시하고 있습니다.

  1. https://pmc.ncbi.nlm.nih.gov/articles/PMC11137882/
  2. https://lirias.kuleuven.be/retrieve/680741
  3. https://www.sciencedirect.com/science/article/abs/pii/S0740624X23000059
  4. https://forscenter.ch/wp-content/uploads/2023/03/qualitative-data-anonymisation_final.pdf
  5. https://journals.sagepub.com/doi/10.1177/25152459251336130
  6. https://journals.sagepub.com/doi/10.1177/25152459231205832
  7. https://pubmed.ncbi.nlm.nih.gov/37831745/
  8. https://jkms.org/DOIx.php?id=10.3346%2Fjkms.2023.38.e291
  9. https://www.nature.com/articles/s41598-025-86890-3
  10. https://openreview.net/forum?id=1ODvxEwsGk
  11. https://www.qualitative-research.net/index.php/fqs/article/download/3965/4979?inline=1
  12. https://journals.plos.org/digitalhealth/article?id=10.1371%2Fjournal.pdig.0000027
  13. https://www.cs.purdue.edu/homes/ninghui/papers/t_closeness_icde07.pdf
  14. https://arxiv.org/html/2411.09863v1
  15. http://www.tdp.cat/issues21/tdp.a460a22.pdf
  16. https://wentaoguo.com/publications/de-id-interviews/How%20Researchers%20De-Identify%20Data%20in%20Practice.pdf
  17. https://ics.uci.edu/~projects/295d/presentations/295d-tcloseness
  18. https://www.harvardonline.harvard.edu/blog/anonymity-de-identification-accuracy-data
  19. https://utrechtuniversity.github.io/dataprivacyhandbook/k-l-t-anonymity.html
  20. https://www.mdpi.com/1424-8220/23/3/1554
 

3. 요약 및 시사점

  • 정성평가는 데이터 특성과 처리과정의 적절성, 프라이버시 모델(적용 논리, 법적·환경적 적합성 등)에 대한 전문가적·질적 검토가 포함됩니다.
  • 정량평가는 k, l, t 등 실질적 수치(지표)로 비식별화 수준을 계량적으로 검증—동일·이종 프로그램(자동화도구, Excel, SQL 등)으로 객관적 측정·검증이 가능하며, 신뢰성 확보를 위해 다양한 프로그램 및 방법론 병행도 권장됩니다.
  • 평가단에서 최종적으로 데이터 민감도, 활용 환경, 비식별화 효과(실질적 보호 수준) 등을 종합해 적정성(legitimacy) 유무와 k, l, t 값이 실무적으로도 의미있는지 판단하게 됩니다.

 

이 모든 평가는 “안전성과 활용성의 균형”을 추구하며, 다양한 학술연구가 정성적 평가의 필요성, 정량적 모델/지표의 한계와 보완, 실무에서의 프로토콜 및 정책 마련(평가단 구성, 평가 절차 정비 등) 필요성을 지속적으로 강조하고 있습니다.

 

 
소스 확인
  1. https://www.kci.go.kr/kciportal/landing/article.kci?arti_id=ART002518593
  2. https://journal.kci.go.kr/kosim/archive/articlePdf?artiId=ART002062162
  3. https://journal.kci.go.kr/jksci/archive/articlePdf?artiId=ART002998509
  4. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002618316
  5. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002604654
  6. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11525811
  7. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002280182
  8. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002908877
  9. https://m.riss.kr/search/detail/DetailView.do?p_mat_type=1a0202e37d52c72d&control_no=d91198dd5d34e66e6aae8a972f9116fb
  10. https://scienceon.kisti.re.kr/commons/util/orgDocDown.do?url=%2Ftr_img%2F2021012%2Frttrko000000347702.pdf&ex=pdf&filename=%EC%B0%A8%EB%B6%84%ED%94%84%EB%9D%BC%EC%9D%B4%EB%B2%84%EC%8B%9C%EA%B8%B0%EB%B0%98%EB%B9%84%EC%8B%9D%EB%B3%84%ED%99%94%EA%B8%B0%EC%88%A0%EA%B0%9C%EB%B0%9C%EC%82%AC%EC%97%85&cn=TRKO202100007338
  11. https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=NPAP12621811
  12. https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002308702
  13. https://www.privacy.go.kr/cmm/fms/FileDown.do?atchFileId=FILE_000000000827068&fileSn=0
  14. https://journal.kci.go.kr/jksci/archive/articlePdf?artiId=ART002851459
  15. https://jkcb.tistory.com/246
  16. https://spri.kr/wp-content/uploads/dlm_uploads/2016/07/20160727_020834.pdf
  17. https://s-space.snu.ac.kr/bitstream/10371/176539/1/000000166013.pdf
  18. https://www.kci.go.kr/kciportal/landing/article.kci?arti_id=ART002189805
  19. https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=TRKO202100007094
  20. https://www.riss.kr/search/detail/ssoSkipDetailView.do?p_mat_type=1a0202e37d52c72d&control_no=148605ebcdcf5091b36097776a77e665
반응형