전체 글 186

비식별.익명성 평가 - k-익명성, l-다양성, t-근접성 평가 프로그램

비식별.익명성 평가 - k-익명성, l-다양성, t-근접성 평가 프로그램데이터의 프라이버시 모델 적정성을 평가하기 위해서는 데이터의 성격에 맞게 k-익명성, l-다양성, t-근접성이 충족됐는지 각 단계마다 검증하는 프로그램을 설계해야 합니다.다음과 같이 각 모델의 평가 논리와 이에 맞는 파이썬 프로그램 구조를 정리 합니다.1. k-익명성(K-anonymity) 평가 프로그램목적: 준식별자 조합별로 각 그룹에 데이터가 k개 이상 존재하는지 확인def check_k_anonymity(df, quasi_identifiers, k): # 데이터프레임(df), 준식별자 목록, k값 입력 group_sizes = df.groupby(quasi_identifiers).size() # 각 그룹 개수 출..

지식창고 2025.07.26

비식별화(가명)조치 평가 방법 및 개념

온라인/인터넷 및 모바일 환경에서 개인정보와 위치정보 등 민감정보의 비식별(가명) 활용을 평가하는 과정에서 “정성적 평가”와 “정량적 평가”를 모두 실시하는 것이 실무와 가이드라인, 그리고 국내외 연구에서 강조되고 있습니다. 1. 비식별화(가명)조치 평가 방법 및 개념 설명1-1. 정성적 평가데이터 이해 및 비식별 기법 적용의 적정성평가단이 데이터 목적과 특성, 적용한 비식별 기법이 법적 및 기술적으로 적정한지 판단(예: 식별자 완전 삭제 여부, 준식별자·민감정보 분류의 적절성, 현 프라이버시 모델 적정성, 사용한 기술 및 도구의 신뢰성 등).식별자 삭제 여부데이터 내 식별 정보(성명, 주민번호 등) 완전 삭제 상태 점검.준식별자 및 민감정보 분류 적정성나이, 지역 등은 준식별자, 질병이나 소득 등은 ..

지식창고 2025.07.26

(익명화.비식별화) K-익명성, l-다양성, t-근접성의 개념 과 적정성 평가 방법

(익명화.비식별화) K-익명성, l-다양성, t-근접성의 개념 과 적정성 평가 방법 온라인 및 인터넷 기반 금융 산업이 발전하고 모바일 기반 서비스가 확산됨에 따라, 개인정보와 위치정보 등 민감정보를 활용한 개인화 서비스가 증가하고 있습니다. 그러나 이로 인해 개인정보 도용, 피싱 등의 정보보호 침해 사고에 노출될 위험도 함께 커지고 있습니다. 이에 대응하기 위해, 관련 법률과 제도적 장치가 마련되어 개인정보 보호를 강화하고 있으며, 동시에 데이터를 효율적으로 활용할 수 있도록 비식별화 가이드라인도 제공되고 있습니다.개인정보의 비식별과 익명화를 통한 안전한 활용을 위해 익명화. 비식별화를 평가하는 K-익명성, l-다양성, t-근접성의 개념 을 알아 봅니다.ㅁ K-익명성, l-다양성, t-근접성의 개념1...

지식창고 2025.07.26

가명.익명처리 개인정보 비식별화 K-익명성 과 검증

가명.익명처리 개인정보 비식별화 K-익명성 과 검증 K-익명성(K-Anonymity) 과 개인정보 보호** k-익명성(K-anonymity)은 데이터 집합에서 특정 개인을 식별할 수 없도록 하기 위한 프라이버시 보호 모델입니다.즉, 나이·성별·지역 등 준식별자 조합이 동일한 레코드가 적어도 k개 이상 존재하도록 데이터를 처리해, 외부 데이터와 결합하더라도 특정 개인을 알아내기 어렵게 만듭니다정의:K-익명성은 데이터 집합에서 각 기록(레코드)이 최소한 k-1명의 다른 개인과 동일한 준식별자(예: 나이, 성별, 지역 등) 값을 가져, 개별적으로 식별될 수 없도록 하는 개인정보 보호 모델입니다. 즉, 공개된 데이터에서도 동일한 준식별자를 가진 그룹이 최소 k명이 되어, 특정인을 식별할 수 없게 만듭니다.목적:..

지식창고 2025.07.26

(연구) 외생적 촉진자로서의 디지털 기술에 대한 통합 모형

(연구) 외생적 촉진자로서의 디지털 기술에 대한 통합 모형외생적 촉진자로서의 디지털 기술에 대한 통합 모형을 특성-메커니즘-역할 프레임워크로 정리해드리겠습니다.외생적 촉진자로서의 디지털 기술에 대한 통합 모형을 특성-메커니즘-역할 프레임워크로 체계화했습니다.이 모형의 핵심 특징은 다음과 같습니다:1. 다층적 구조: 각 기술(블록체인, NFT, AI)의 고유한 특성을 반영하면서도 공통된 외생적 촉진자 역할을 통합적으로 설명합니다.2. 동적 상호작용: 특성-메커니즘-역할이 순환적으로 상호작용하며 기업가적 생태계를 진화시키는 과정을 보여줍니다.3. 단계별 진화: 기술 도입기부터 성숙기까지 각 단계에서 외생적 촉진자의 역할이 어떻게 변화하는지 명시합니다.4. 측정 가능성: 기술적, 경제적, 사회적 지표를 통해 ..

지식창고 2025.07.25

(연구)LLM을 이용한 비식별화 기술 연구 동향 및 방법론

LLM을 이용한 비식별화 기술 연구 동향 및 방법론1. 연구 개요대규모 언어모델(LLM)을 활용한 비식별화 기술은 개인정보 보호와 데이터 활용의 균형을 맞추기 위한 중요한 연구 분야로 부상하고 있습니다. 특히 의료 데이터, 개인 문서, 온라인 텍스트에서 개인식별정보(PII)를 효과적으로 제거하면서도 데이터의 유용성을 보존하는 것이 핵심 과제입니다.2. 주요 연구 논문 및 특성2.1 Large Language Models are Advanced Anonymizers (2024)저자: Robin Staab et al.핵심 기여:LLM의 강력한 추론 능력을 활용한 적대적 비식별화 프레임워크 개발기존 상용 비식별화 도구 대비 우수한 성능 입증13개 LLM을 대상으로 한 포괄적인 실험 평가특징: 적대적 학습 방식..

지식창고 2025.07.24

LANGUAGE MODELS ARE ADVANCED ANONYMIZERS 관련 논문과 연구 과제, 연구 방법 및 결과

LANGUAGE MODELS ARE ADVANCED ANONYMIZERS 관련 논문과 연구 과제, 연구 발법 및 결과를 정리해줘"LANGUAGE MODELS ARE ADVANCED ANONYMIZERS" 논문(저자: Robin Staab 외, ETH Zurich)은 대규모 언어 모델(LLM)이 가진 강력한 추론 능력을 활용해 기존 익명화 기법 대비 뛰어난 개인 정보 보호 및 텍스트 유용성을 제공하는 새로운 익명화 프레임워크를 제안합니다[1][2][3].연구 목적과 배경최근 LLM이 온라인 텍스트에서 개인 정보를 거의 인간 수준으로 추론해내는 능력이 입증됨에 따라 기존 익명화 도구들은 규제 요건과 적대적 위협에 효과적으로 대응하지 못함[1][2].이에 LLM의 추론 역량을 적대적(in adversarial..

지식창고 2025.07.23

Automatic de-identification of textual documents in the electronic health recor

Automatic de-identification of textual documentsin the electronic health record: a review of recentresearch관련 2023년 이후 논문들의 주제 변화와 논문 연구 목적과 연구 방법의 변화를 정리하고 향후 필요한 연구 과제를 선정해줘# 2023년 이후 EHR 텍스트 자동 비식별화 연구 동향 및 과제## 1. 최근 논문의 주제 변화- **AI 및 LLM 기반 기술 도입** 2023년 이후 전통적인 규칙 기반 및 기계학습 방법을 넘어서, 대형언어모델(LLM)과 딥러닝 기술(예: GPT-4, Transformer 기반 모델)을 활용한 텍스트 자동 비식별화 연구가 활발해졌습니다[1][2][3][4].- **다국어 및 비영어권 ..

지식창고 2025.07.22

몬테카를로(Monte Carlo) 방법

몬테카를로(Monte Carlo): 무작위성으로 복잡한 문제의 해답을 찾는다몬테카를로 방법(Monte Carlo method) 개념**몬테카를로 방법(Monte Carlo method)** 무작위로 추출한 난수(random number)를 반복적으로 사용하여 복잡한 문제의 근삿값을 계산하는 강력한 통계적 기법입니다. 몬테카를로에서 유래이름은 도박으로 유명한 모나코의 도시 몬테카를로에서 유래했으며, 이는 방법론의 핵심인 확률과 무작위성에 대한 비유입니다. 이 방법은 해석적으로 해를 구하기 어렵거나 불가능한 문제에 대해 확률적 모델링을 통해 해답의 범위를 예측하는 데 널리 활용됩니다.핵심 원리몬테카를로 방법의 근간에는 **큰 수의 법칙(Law of Large Numbers)**이 있습니다. 이는 어떤 사건에..

지식창고 2025.07.22

합성데이터 관련 기술 종류와 현황 250711

합성데이터 관련 기술 종류와 현황 250711합성 데이터는 실제 데이터의 통계적 특성을 유지하면서인공적인 생성된 데이터를 의미 - 데이터부족 , 개인정보보호 규제 강화, AI모델의 편항성 문제를 해결주로 합성 데이터 생성으로 적대적 신경망 (GAN) 변분 오토인코더(VAE), 디퓨전 (Diffusion Models) 등이 있음[합성데이터 생성 기술] 1) 생성적 적대 신경망(GANs),2) 변분 오토인코더(VAEs), 3) 디퓨전 모델(Diffusion Models)----​1) 생성적 적대 신경망 (Generative Adversarial Networks, GANs)ㅁ 개념GAN은 **생성자(Generator)**와 **판별자(Discriminator)**라는 두 개의 신경망이 서로 경쟁하며 ..

카테고리 없음 2025.07.11
반응형