전체 글 219

몬테카를로(Monte Carlo) 방법

몬테카를로(Monte Carlo): 무작위성으로 복잡한 문제의 해답을 찾는다몬테카를로 방법(Monte Carlo method) 개념**몬테카를로 방법(Monte Carlo method)** 무작위로 추출한 난수(random number)를 반복적으로 사용하여 복잡한 문제의 근삿값을 계산하는 강력한 통계적 기법입니다. 몬테카를로에서 유래이름은 도박으로 유명한 모나코의 도시 몬테카를로에서 유래했으며, 이는 방법론의 핵심인 확률과 무작위성에 대한 비유입니다. 이 방법은 해석적으로 해를 구하기 어렵거나 불가능한 문제에 대해 확률적 모델링을 통해 해답의 범위를 예측하는 데 널리 활용됩니다.핵심 원리몬테카를로 방법의 근간에는 **큰 수의 법칙(Law of Large Numbers)**이 있습니다. 이는 어떤 사건에..

지식창고 2025.07.22

비식별화가 미치는 데이터 분석 결정 요인

비식별화가 미치는 데이터 분석 결정 요인비식별화는 데이터 분석 결정에 있어 여러 핵심 요인에 영향을 미치며, 다음과 같은 주요 결정요소로 작용합니다.데이터 유용성(분석 정확도) 저하비식별화 수준이 높아질수록 데이터의 정보가 손실되어 분석의 정밀도와 예측력이 떨어질 수 있습니다. 예를 들어, 중요한 변수를 과도하게 비식별 처리하면 모델의 예측 정확도가 하락할 수 있습니다. 다만, 일부 변수의 적절한 그룹화나 극단값(식별 가능성이 높은 값) 제거는 예측 성능 개선에 기여할 수도 있습니다[1][4].프라이버시 보호와 데이터 활용의 균형비식별화는 개인정보 보호(규제 준수 및 재식별 위험 최소화)와 데이터 분석 가치(유용성) 사이에서 균형점을 설정하는 과정이 필수적입니다. 완벽한 비식별화는 불가능하며, 보호 수준..

지식창고 2025.07.21

합성데이터 관련 기술 종류와 현황 250711

합성데이터 관련 기술 종류와 현황 250711합성 데이터는 실제 데이터의 통계적 특성을 유지하면서인공적인 생성된 데이터를 의미 - 데이터부족 , 개인정보보호 규제 강화, AI모델의 편항성 문제를 해결주로 합성 데이터 생성으로 적대적 신경망 (GAN) 변분 오토인코더(VAE), 디퓨전 (Diffusion Models) 등이 있음[합성데이터 생성 기술] 1) 생성적 적대 신경망(GANs),2) 변분 오토인코더(VAEs), 3) 디퓨전 모델(Diffusion Models)----​1) 생성적 적대 신경망 (Generative Adversarial Networks, GANs)ㅁ 개념GAN은 **생성자(Generator)**와 **판별자(Discriminator)**라는 두 개의 신경망이 서로 경쟁하며 ..

논문연구-합성데이터 가이드(24.12) 요약

25.07.05 합성데이터 가이드(24.12) 요약개인정보 보호법과 합성데이터 생성·활용 안내서 (2024.12) 요약인공지능(AI) 개발 등 실제 업무에서 개인정보가 담긴 데이터를 숫자나 텍스트, 이미지, 비디오, 표 등 다양한 방식의 뎅티터로 생성하거나 활용할 때 절차 등에 대해 참고할 수 있도록 개인정보보호위원회에서 「합성데이터 생성·활용 안내서」 를 발간하였습니다(2024년 12월).안내서에서 정의하는 합성데이터는 특정 목적을 위해 원본데이터의 형식과 구조 등을 학습하여 컴퓨터 시뮬레이션 또는 알고리즘에 의해 생성된 정보로, 원본데이터의 구조적 및 통계적 속성을 재현한 모의 또는 가상데이터를 말합니다. 이는 숫자로 구성되어 있거나, 텍스트, 비디오, 표, 이미지 등 다양한 형식의 데이터일 수 있습..

지식창고 2025.07.10

논문 - 개인사업자 파산예측 합성데이터 연구 분석(2507)

논문 - 합성데이터 - 신용데이터학습기여: 채무불이행 위험예측 분야에서 데이터 합성을 통한 AI 훈련데이터 제공 방법론제시홍동숙 and 백철. (2021). Generating and Validating Synthetic Training Data for Predicting Bankruptcy of Individual Businesses. Journal of Information and Communication Convergence Engineering, 19(4), 228-233.디음 논문 초록의 연구배경 , 연구목적, 연구 방법, 연구결과, 연구평가 방법을 각 단계별로 정리(초록)Generating and Validating Synthetic Training Data for Predicting Bank..

지식창고 2025.07.05

BPF공격과 NTP서버 보안 위협 분석

BPF공격과 NTP서버 보안 위협 분석BPF는 일번적으로 "Well known Protocol"을 이용하여 보안의 헛점을 찾아내는 기술로 응용 되고 있습니다.BPF는 리눅스의 커널 레벨에서 네트워크 컨트롤러를 가상적으로 연결하여 데이터 라우팅, 서비스 방화벽 역할로 작동 하면서 외부의 네트웍과 연결 됨으로써 취약점에 노출이 되고 있습니다. BPF , ipfilter, iptables 등과 같은 기능들은 일반적인 리눅스 서버와도 연관이 있지만 네트웍 장비들도 리눅스 엔진을 사용하여 서비스 라우팅과 패캣 필터링 등을 할 수 있어서 실제 이러한 해킹의 시도는 다양한 장치에서도 취약해 질 수 있습니다.그리고 NTP 서버와 같이 Well Known Port를 이용하여 외부 연결 백도어를 만드는 추세입니다. N..

지식창고 2025.07.02

LLM 기반 허위 정보 확산 방지와 관련된 대표 논문

LLM 기반 허위 정보 확산 방지와 관련된 대표 논문LLM 허위정보 방지 연구의 **필요성**, **연구방법**, **연구결과**를 정리한 내용입니다.논문 #1**Sword and Shield: Uses and Strategies of LLMs in Navigating Disinformation**[1]* 필요성- LLM은 인간과 유사한 텍스트를 대량으로 생성할 수 있어, 허위 정보의 생산·확산에 악용될 위험이 큽니다.- 동시에 LLM은 허위 정보 탐지와 완화에도 활용될 수 있어, LLM의 이중적 역할(확산의 '검', 방지의 '방패')을 이해하고 관리하는 연구가 필요합니다.* 연구방법- 25명의 참가자가 참여한 온라인 포럼 시뮬레이션(마피아 게임 유사 환경)에서 LLM을 활용해 허위 정보가 어떻게 생성..

지식창고 2025.07.01

주요 국가별 데이터 프라이버시 규제 프레임워크 와 LLM 요구사항

대규모 언어 모델(LLM)이 방대한 양의 공개 데이터에 의존하면서 개인 데이터 사용과 관련된 법적 복잡성에 취약하다는 점이 지적되었습니다. 이에 따라 각 국가별 데이터 프라이버시 규제 프레임워크가 엄격한 안전 조치를 요구하고 있습니다.주요 국가 및 지역의 데이터 프라이버시 법적 요구사항을 다음과 같이 정리할 수 있습니다.---### 주요 국가 및 지역의 데이터 프라이버시 법적 요구사항 (LLM 관련 시사점)LLM은 방대한 데이터를 학습하므로, 각국의 개인정보보호 규제는 LLM의 데이터 수집, 저장, 처리, 활용 전반에 걸쳐 큰 영향을 미칩니다. 특히, LLM이 학습한 데이터에 개인 식별 정보가 포함될 경우, 해당 정보를 안전하게 관리하고 활용하는 것이 핵심 과제입니다.#### 1. 유럽 연합 (EU): ..

지식창고 2025.06.27

AI의 프라이버시 허점: 멤버십 추론 공격 (Membership Inference Attack) 심층 분석

멤버십추론-Membership inference attack에 대한 개념과 정의 , 특징, 기술 요소, 방어기술을 정리AI의 프라이버시 허점: 멤버십 추론 공격 (Membership Inference Attack) 심층 분석인공지능(AI) 모델이 특정 개인의 데이터를 학습했는지 여부를 알아내는 해킹 기법인 '멤버십 추론 공격(Membership Inference Attack)'이 AI 시대의 새로운 프라이버시 위협으로 부상하고 있다. 이 공격은 모델의 예측 결과를 분석하여 학습 데이터셋에 특정 데이터가 포함되었는지를 추론하는 방식으로, 의료 기록이나 금융 정보와 같은 민감한 개인정보 유출로 이어질 수 있어 심각한 우려를 낳고 있다.멤버십 추론 공격의 개념과 정의멤버십 추론 공격은 공격자가 특정 데이터 샘..

지식창고 2025.06.26
반응형