지식창고/논문연구

국내 개인정보보호법 관점에서 LLM 학습데이터 요구사항

오이시이 2025. 10. 16. 07:49
반응형

국내 개인정보보호법 관점에서 LLM 학습데이터 요구사항

국내 개인정보보호법 관점에서 LLM 학습데이터 요구사항은 개인정보보호위원회가 최근 공개한 안내서와 정부 기준에 따라 다음과 같이 정리할 수 있습니다[1][2][3][4][5][6][7].

1. 목적 및 법적 근거 명확화

  • LLM 학습데이터 활용 목적을 명확하게 설정하고 데이터 종류(공개 데이터, 이용자 데이터 등)와 출처별로 관련 법적 근거를 확인해야 합니다[1][3][4].
  • 개인정보 수집·이용 시에는 정보주체 동의, 혹은 개인정보 보호법 제15조의 ‘정당한 이익’ 등 확실한 법적 근거가 필요합니다[5][6][7].
  • ‘정당한 이익’ 근거를 적용하려면 ▲처리 목적의 정당성 ▲필요성 및 관련성 ▲정보주체 권리보다 이익이 우선하는지 등 3가지 요건을 충족해야 합니다[5][6][7].

2. 민감정보 등 사전 조치

  • 주민등록번호, 계좌번호, 신용카드번호 등 고유식별정보는 반드시 삭제하거나 가명·익명화 조치 후 학습에 활용해야 합니다[2][4].
  • 공개된 정보라도 민감성이 있거나 스크래핑에 대한 거부 의사가 명시된 데이터는 제외해야 합니다[2].

3. 데이터 처리 및 전처리

  • AI 학습에 쓰이는 데이터는 수집, 저장, 가공(전처리·토큰화 등) 단계에서 법적 책임이 발생하므로 절차별로 처리 현황을 문서화하고 투명하게 관리해야 합니다[1][4][6].
  • 대규모 혹은 민감 개인정보를 처리하는 경우 개인정보 영향평가(PIA) 실시가 권장되며, 이 과정에서 AI 데이터 처리 흐름, 침해요인 분석, 개선계획 등을 단계별로 점검합니다[4].

4. 정보주체 권리 보장

  • 정보주체는 자기 데이터 삭제, 열람 등 권리 행사 요청이 가능해야 하며, 데이터셋 특성상 즉시 권리 행사 보장이 어렵다면 그 사유와 대체 수단을 안내해야 합니다[8][2].
  • 사후 권리 행사 및 옵트아웃 기회 제공도 중요합니다[3].

5. 공개 데이터 활용 기준

  • 인터넷상 공개된 개인정보를 학습에 활용할 경우, 현행법 기준에 따라 적법하고 안전하게 처리해야 하며 공개 개인정보 활용 가이드라인을 따릅니다[5][6][7].

6. 기술적·관리적 보호 조치

  • 데이터 비식별화, 가명처리, 익명처리 등 강화된 개인정보보호기술(PET) 적용[3][4]
  • 개인정보보호책임자(CPO) 중심의 관리체계 구축이 요구됩니다[9].

위 요구 사항은 2025년 최신 개인정보보호위원회 안내서와 정책 자료를 기반으로 정리되었습니다[1][2][3][4][5][6][9][7].

인용:
[1] 생성형 인공지능(AI) 개발·활용 위한 개인정보 처리 기준 제시 ... https://www.korea.kr/briefing/pressReleaseView.do?newsId=156701894
[2] 개인정보위, 「생성형 인공지능(AI) 개발 · 활용을 위한 ... https://www.lawtimes.co.kr/LawFirm-NewsLetter/211017
[3] AI 생애주기별 개인정보 처리기준 첫 공개 https://byline.network/2025/08/6-277/
[4] 개인정보보호위원회, '생성형 인공지능(AI) 개발∙활용을 위한 ... https://www.shinkim.com/kor/media/newsletter/2941?page=3&code=
[5] [한국자치신문] 개인정보위, AI 학습 활용 '공개 데이터' 처리 ... http://www.koreajachi.co.kr/15857
[6] 개인정보보호위원회, 'AI 개발∙서비스를 위한 공개된 개인 ... https://www.shinkim.com/kor/media/newsletter/2517
[7] 인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서 https://bigin.kidi.or.kr:9443/data/UPLOAD/portal/nd00017/202407/5db12416-c390-4f1a-96d3-01b35a9c47c4_(%EB%B3%84%EC%B2%A83)%20%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5(AI)%20%EA%B0%9C%EB%B0%9C%C2%B7%EC%84%9C%EB%B9%84%EC%8A%A4%EB%A5%BC%20%EC%9C%84%ED%95%9C%20%EA%B3%B5%EA%B0%9C%EB%90%9C%20%EA%B0%9C%EC%9D%B8%EC%A0%95%EB%B3%B4%20%EC%B2%98%EB%A6%AC%20%EC%95%88%EB%82%B4%EC%84%9C.pdf
[8] 뉴스레터 2025.08.29 개인정보위, 「생성형 인공지능(AI) 개발 https://www.hwawoo.com/kor/insights/newsletter/13204?currentPage=1
[9] '생성형 인공지능(AI) 개발·활용을 위한 개인정보 처리 안내서 ... https://www.kimchang.com/ko/insights/detail.kc?sch_section=4&idx=32696
[10] 개인정보위, 생성형 AI 개발·활용 기준 제시한 안내서 공개... ... https://kitpa.org/news/191?title=%EA%B0%9C%EC%9D%B8%EC%A0%95%EB%B3%B4%EC%9C%84%2C+%EC%83%9D%EC%84%B1%ED%98%95+AI+%EA%B0%9C%EB%B0%9C%C2%B7%ED%99%9C%EC%9A%A9+%EA%B8%B0%EC%A4%80+%EC%A0%9C%EC%8B%9C%ED%95%9C+%EC%95%88%EB%82%B4%EC%84%9C+%EA%B3%B5%EA%B0%9C...%ED%98%84%EC%9E%A5+%EB%B6%88%ED%99%95%EC%8B%A4%EC%84%B1+%ED%95%B4%EC%86%8C%EC%99%80+%ED%94%84%EB%9D%BC%EC%9D%B4%EB%B2%84%EC%8B%9C+%EB%B3%B4%ED%98%B8+%EA%B0%95%ED%99%94+%EA%B8%B0%EB%8C%80&tags=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%2C%EC%A0%95%EB%B3%B4%EB%B3%B4%EC%95%88&image=48d94fbe-03ab-450f-a791-fefa5a135b10&createdAt=Wed+Aug+06+2025+19%3A58%3A30+GMT-0700+%28Pacific+Daylight+Time%29
[11] 2025년도 LLM 성능 평가 데이터셋 구축 사업 공모안내서 https://cse.yonsei.ac.kr/research/foundation/recently_notice.do?mode=download&articleNo=451774&attachNo=193890
[12] '생성형 인공지능(AI) 개발·활용을 위한 개인정보 처리 안내서 ... https://www.lawtimes.co.kr/LawFirm-NewsLetter/211827
[13] 지식재산권법 LLM 사전학습 및 Instruction Tuning 데이터 https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71843
[14] 생성형 AI 개발을 위한 개인정보 처리 안내서 다운로드 https://inpyeonglaw.com/archives/26670/
[15] 민사법 LLM 사전학습 및 Instruction Tuning 데이터 https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71841
[16] 생성형 인공지능(AI) 개발 https://www.korea.kr/common/download.do?fileId=198242652&tblKey=GMN
[17] 생성형 인공지능(AI) 개발 https://pipc.go.kr/np/cop/bbs/selectBoardArticle.do?bbsId=BS074&mCode=C020010000%22&nttId=11410
[18] 말라가는 LLM 학습용 데이터, DEEP Parser가 필요합니다 https://www.koreadeep.com/blog/deep-parser-llm-data-necessity
[19] 행정안전부_정부 공문서 AI 학습데이터 조회 서비스 https://www.data.go.kr/data/15125451/openapi.do?recommendDataYn=Y
[20] 에프아이솔루션-인공지능 학습용 데이터 교육 영상(2024) https://www.youtube.com/watch?v=pxs5HnbNGm4

반응형