전체 글 219

개인정보보호- 정보손실 방지를 위한 프라이버시 보호 모델 최적화 연구

개인정보보호- 정보손실 방지를 위한 프라이버시 보호 모델 최적화 연구 l-다양성(ℓ-diversity), t-근접성(t-closeness) 등 프라이버시 보호 모델 최적화 와 더불어 프라이버시 모델의 한계(유용성 저하, 정보손실 등) 개선에 대한 주제를 정리해 봅니다.최근 연구에서는 l-다양성(ℓ-diversity), t-근접성(t-closeness) 등 프라이버시 보호 모델의 한계(유용성 저하, 정보손실 등)를 극복하고, 데이터 활용성과 프라이버시 보호 간의 균형을 최적화하기 위한 다양한 방법이 제안되고 있습니다. 주요 연구 개선점과 최적화 전략은 아래와 같습니다.1. 클러스터링 및 분할 알고리즘 개선향상된 클러스터링: 기존 k-익명성, ℓ-다양성, t-근접성 모델은 단순 분할이나 기존 클러스터링만 사..

지식창고 2025.07.28

비식별화 - 그래디언트 클리핑 과 Gaussian/Laplace 노이즈를 주입

비식별화 - 그래디언트 클리핑 과 Gaussian/Laplace 노이즈를 주입"그래디언트 클리핑 과 Gaussian/Laplace 노이즈를 주입"- 차등 프라이버시(Differential Privacy, DP)를 적용한 딥러닝 학습에서 핵심적인 프라이버시 보호 기술개념 설명그래디언트 클리핑(Gradient Clipping):딥러닝 모델 학습 시 각 데이터(혹은 배치)별로 계산된 그래디언트(파라미터의 변화량)의 노름(norm, 크기)이 미리 정한 임계값(clip threshold)을 초과하면, 임계값 이하로 잘라내는(클리핑) 과정입니다.즉, 민감 데이터가 있어도 그에 의한 그래디언트 폭주(gradient explosion)나 지나친 영향력이 출력에 반영되지 않도록 합니다. ( 그래디언트 벡터의 노름(nor..

지식창고 2025.07.27

비식별.익명성 평가 - k-익명성, l-다양성, t-근접성 평가 프로그램

비식별.익명성 평가 - k-익명성, l-다양성, t-근접성 평가 프로그램데이터의 프라이버시 모델 적정성을 평가하기 위해서는 데이터의 성격에 맞게 k-익명성, l-다양성, t-근접성이 충족됐는지 각 단계마다 검증하는 프로그램을 설계해야 합니다.다음과 같이 각 모델의 평가 논리와 이에 맞는 파이썬 프로그램 구조를 정리 합니다.1. k-익명성(K-anonymity) 평가 프로그램목적: 준식별자 조합별로 각 그룹에 데이터가 k개 이상 존재하는지 확인def check_k_anonymity(df, quasi_identifiers, k): # 데이터프레임(df), 준식별자 목록, k값 입력 group_sizes = df.groupby(quasi_identifiers).size() # 각 그룹 개수 출..

지식창고 2025.07.26

비식별화(가명)조치 평가 방법 및 개념

온라인/인터넷 및 모바일 환경에서 개인정보와 위치정보 등 민감정보의 비식별(가명) 활용을 평가하는 과정에서 “정성적 평가”와 “정량적 평가”를 모두 실시하는 것이 실무와 가이드라인, 그리고 국내외 연구에서 강조되고 있습니다. 1. 비식별화(가명)조치 평가 방법 및 개념 설명1-1. 정성적 평가데이터 이해 및 비식별 기법 적용의 적정성평가단이 데이터 목적과 특성, 적용한 비식별 기법이 법적 및 기술적으로 적정한지 판단(예: 식별자 완전 삭제 여부, 준식별자·민감정보 분류의 적절성, 현 프라이버시 모델 적정성, 사용한 기술 및 도구의 신뢰성 등).식별자 삭제 여부데이터 내 식별 정보(성명, 주민번호 등) 완전 삭제 상태 점검.준식별자 및 민감정보 분류 적정성나이, 지역 등은 준식별자, 질병이나 소득 등은 ..

지식창고 2025.07.26

(익명화.비식별화) K-익명성, l-다양성, t-근접성의 개념 과 적정성 평가 방법

(익명화.비식별화) K-익명성, l-다양성, t-근접성의 개념 과 적정성 평가 방법 온라인 및 인터넷 기반 금융 산업이 발전하고 모바일 기반 서비스가 확산됨에 따라, 개인정보와 위치정보 등 민감정보를 활용한 개인화 서비스가 증가하고 있습니다. 그러나 이로 인해 개인정보 도용, 피싱 등의 정보보호 침해 사고에 노출될 위험도 함께 커지고 있습니다. 이에 대응하기 위해, 관련 법률과 제도적 장치가 마련되어 개인정보 보호를 강화하고 있으며, 동시에 데이터를 효율적으로 활용할 수 있도록 비식별화 가이드라인도 제공되고 있습니다.개인정보의 비식별과 익명화를 통한 안전한 활용을 위해 익명화. 비식별화를 평가하는 K-익명성, l-다양성, t-근접성의 개념 을 알아 봅니다.ㅁ K-익명성, l-다양성, t-근접성의 개념1...

지식창고 2025.07.26

가명.익명처리 개인정보 비식별화 K-익명성 과 검증

가명.익명처리 개인정보 비식별화 K-익명성 과 검증 K-익명성(K-Anonymity) 과 개인정보 보호** k-익명성(K-anonymity)은 데이터 집합에서 특정 개인을 식별할 수 없도록 하기 위한 프라이버시 보호 모델입니다.즉, 나이·성별·지역 등 준식별자 조합이 동일한 레코드가 적어도 k개 이상 존재하도록 데이터를 처리해, 외부 데이터와 결합하더라도 특정 개인을 알아내기 어렵게 만듭니다정의:K-익명성은 데이터 집합에서 각 기록(레코드)이 최소한 k-1명의 다른 개인과 동일한 준식별자(예: 나이, 성별, 지역 등) 값을 가져, 개별적으로 식별될 수 없도록 하는 개인정보 보호 모델입니다. 즉, 공개된 데이터에서도 동일한 준식별자를 가진 그룹이 최소 k명이 되어, 특정인을 식별할 수 없게 만듭니다.목적:..

지식창고 2025.07.26

(연구) 외생적 촉진자로서의 디지털 기술에 대한 통합 모형

(연구) 외생적 촉진자로서의 디지털 기술에 대한 통합 모형외생적 촉진자로서의 디지털 기술에 대한 통합 모형을 특성-메커니즘-역할 프레임워크로 정리해드리겠습니다.외생적 촉진자로서의 디지털 기술에 대한 통합 모형을 특성-메커니즘-역할 프레임워크로 체계화했습니다.이 모형의 핵심 특징은 다음과 같습니다:1. 다층적 구조: 각 기술(블록체인, NFT, AI)의 고유한 특성을 반영하면서도 공통된 외생적 촉진자 역할을 통합적으로 설명합니다.2. 동적 상호작용: 특성-메커니즘-역할이 순환적으로 상호작용하며 기업가적 생태계를 진화시키는 과정을 보여줍니다.3. 단계별 진화: 기술 도입기부터 성숙기까지 각 단계에서 외생적 촉진자의 역할이 어떻게 변화하는지 명시합니다.4. 측정 가능성: 기술적, 경제적, 사회적 지표를 통해 ..

지식창고 2025.07.25

(연구)LLM을 이용한 비식별화 기술 연구 동향 및 방법론

LLM을 이용한 비식별화 기술 연구 동향 및 방법론1. 연구 개요대규모 언어모델(LLM)을 활용한 비식별화 기술은 개인정보 보호와 데이터 활용의 균형을 맞추기 위한 중요한 연구 분야로 부상하고 있습니다. 특히 의료 데이터, 개인 문서, 온라인 텍스트에서 개인식별정보(PII)를 효과적으로 제거하면서도 데이터의 유용성을 보존하는 것이 핵심 과제입니다.2. 주요 연구 논문 및 특성2.1 Large Language Models are Advanced Anonymizers (2024)저자: Robin Staab et al.핵심 기여:LLM의 강력한 추론 능력을 활용한 적대적 비식별화 프레임워크 개발기존 상용 비식별화 도구 대비 우수한 성능 입증13개 LLM을 대상으로 한 포괄적인 실험 평가특징: 적대적 학습 방식..

지식창고 2025.07.24

LANGUAGE MODELS ARE ADVANCED ANONYMIZERS 관련 논문과 연구 과제, 연구 방법 및 결과

LANGUAGE MODELS ARE ADVANCED ANONYMIZERS 관련 논문과 연구 과제, 연구 발법 및 결과를 정리해줘"LANGUAGE MODELS ARE ADVANCED ANONYMIZERS" 논문(저자: Robin Staab 외, ETH Zurich)은 대규모 언어 모델(LLM)이 가진 강력한 추론 능력을 활용해 기존 익명화 기법 대비 뛰어난 개인 정보 보호 및 텍스트 유용성을 제공하는 새로운 익명화 프레임워크를 제안합니다[1][2][3].연구 목적과 배경최근 LLM이 온라인 텍스트에서 개인 정보를 거의 인간 수준으로 추론해내는 능력이 입증됨에 따라 기존 익명화 도구들은 규제 요건과 적대적 위협에 효과적으로 대응하지 못함[1][2].이에 LLM의 추론 역량을 적대적(in adversarial..

지식창고 2025.07.23

Automatic de-identification of textual documents in the electronic health recor

Automatic de-identification of textual documentsin the electronic health record: a review of recentresearch관련 2023년 이후 논문들의 주제 변화와 논문 연구 목적과 연구 방법의 변화를 정리하고 향후 필요한 연구 과제를 선정해줘# 2023년 이후 EHR 텍스트 자동 비식별화 연구 동향 및 과제## 1. 최근 논문의 주제 변화- **AI 및 LLM 기반 기술 도입** 2023년 이후 전통적인 규칙 기반 및 기계학습 방법을 넘어서, 대형언어모델(LLM)과 딥러닝 기술(예: GPT-4, Transformer 기반 모델)을 활용한 텍스트 자동 비식별화 연구가 활발해졌습니다[1][2][3][4].- **다국어 및 비영어권 ..

지식창고 2025.07.22
반응형