Automatic de-identification of textual documents
in the electronic health record: a review of recent
research
관련 2023년 이후 논문들의 주제 변화와 논문 연구 목적과 연구 방법의 변화를 정리하고 향후 필요한 연구 과제를 선정해줘
# 2023년 이후 EHR 텍스트 자동 비식별화 연구 동향 및 과제
## 1. 최근 논문의 주제 변화
- **AI 및 LLM 기반 기술 도입**
2023년 이후 전통적인 규칙 기반 및 기계학습 방법을 넘어서, 대형언어모델(LLM)과 딥러닝 기술(예: GPT-4, Transformer 기반 모델)을 활용한 텍스트 자동 비식별화 연구가 활발해졌습니다[1][2][3][4].
- **다국어 및 비영어권 EHR 비식별화**
영어 외에 스페인어 등 다양한 언어권 의료기록 자동 비식별화 연구가 등장하여 글로벌 확장성을 보여주고 있습니다[5].
- **대규모 실환경 적용 및 현장 배포**
수십억 건의 실환경 임상 기록에 대한 완전 자동화된 비식별화 시스템 설계 경험 공유, 실환경(오스트레일리아, 유럽 등) EHR에 적용된 하이브리드 파이프라인 구축 연구가 발표되고 있습니다[2][6][7].
- **합성 데이터 및 데이터 증강**
실데이터 부족 문제를 인공 신경망과 LLM을 이용한 합성 데이터 생성, 강화학습 기반 데이터 증강 등의 방법으로 해결하려는 시도가 진행되고 있습니다[1].
## 2. 연구 목적 및 방법의 변화
| 구분 | 최근 연구(2023년 이후) | 과거 연구(2020년 이전) |
|:-:|:----------------------------------------------------------|:-------------------------------|
| **주요 목적** | - 실데이터에서의 자동화·정확도·확장성 강화<br>- 다양한 언어, 문서유형 대응<br>- 개인정보 보호와 데이터 활용의 균형 | - 정밀한 PHI 식별 및 제거<br>- 규칙/기계학습 방법의 성능 향상 |
| **주요 방법** | - LLM(GPT-4 등), Transformer, 하이브리드 모델<br>- 합성 데이터 생성 및 모델 훈련<br>- 현장(병원) 적용 자동화 파이프라인 구축<br>- 컨피규어러블, 빠른 도입/언어 대응 | - 규칙 기반 시스템<br>- CRF 등 기계학습<br>- 수작업 룰/딥러닝 조합 |
| **특징** | - 신속한 도입·확장, 실환경 배포, HiTL 협업<br>- 비식별화 후 데이터 익명 공격 대응 평가<br>- 자동화 질 관리, 분석 리포팅 포함 | - 파이프라인 단순화<br>- 성능 한계 및 인간 작업 의존성 |
## 3. 주요 연구 예시
- **하이브리드 파이프라인(규칙+딥러닝+LLM)**
OpenDeID는 실제 호주 병원에서 EHR 비식별화에 적용된 하이브리드 파이프라인으로, 룰·딥러닝·사전학습 언어모델을 결합[2].
- **LLM 활용 비식별화**
최신 연구에서는 GPT-4와 같은 LLM을 활용한 DeID-GPT 프레임워크 개발, 영어-독일어 등 다국어 적용 LLM 활용 사례가 보고됨[1][3][4].
- **비식별화의 한계 및 공격 대응**
일부 연구에서는 비식별화만으로 방어가 어려운 membership inference attack(특정 환자 데이터 포함 여부 판별 공격) 위험성을 시연해 프라이버시 보장 한계에 대한 논의가 제기됨[8].
## 4. 향후 필요한 연구 과제
- **고성능 다국어 자동 비식별화 모델 개발**
영어 외 실제 의료현장(한국 등)의 언어에 직접 적용 가능한 모델 및 코퍼스 확충.
- **비식별화 보안 검증 연구**
Membership inference attack 등 신종 익명성 공격에 견고한 비식별화 방법론, 안전성 검증 프레임 구축.
- **합성 데이터 기법의 실효성 검증**
LLM 등으로 생성된 합성 데이터의 익명성·유용성 검증 및 실제 임상연구 적용 연구.
- **완전 자동화와 HiTL(Human-in-the-Loop)의 조화**
자동화 장점과 전문가 감독(HiTL)을 결합한 실용적 파이프라인 및 품질 관리 체계 개발.
- **실환경 현장 도입성 및 확장성 평가**
대형 보건의료기관 및 다양한 EHR 시스템에 신속히 적용 가능한 확장적 방법론 연구.
- **데이터 유용성-프라이버시 트레이드오프 정량 평가**
비식별화 후 데이터의 활용성·익명성 지표와의 관계 분석, 최적 균형점 탐색.
이와 같이, 최근 연구는 AI 및 LLM 기반 자동화 정확도 제고, 다국어 확장, 실환경 배포 경험에 집중되며, 향후에는 보호와 활용의 균형, 신종 프라이버시 위협 대응, 실익 있는 파이프라인 개발이 중요한 과제로 부상하고 있습니다[1][2][3][5][4][8].
인용:
[1] AI and Machine Learning in De-identifying Healthcare Data - iMerit https://imerit.net/resources/blog/ai-and-machine-learning-in-de-identifying-healthcare-data-future-trends-and-applications/
[2] OpenDeID Pipeline for Unstructured Electronic Health ... https://www.jmir.org/2023/1/e48145/
[3] Large Language Models for Electronic Health Record De ... - MDPI https://www.mdpi.com/2078-2489/16/2/112
[4] An LLM-Powered Framework for Automatic Clinical Data ... https://arxiv.org/html/2505.18380v1
[5] Named entity recognition for de-identifying Spanish ... https://www.sciencedirect.com/science/article/pii/S0010482524016615
[6] Beyond Accuracy: Automated De-Identification of Large Real-World ... https://arxiv.org/html/2312.08495v1
[7] Evaluation of automated deidentification of general practice ... https://medicine.unimelb.edu.au/research-groups/general-practice-and-primary-care-research/habic-r2/evaluation-of-automated-deidentification-of-general-practice-free-text-health-records
[8] De-identification is not enough: a comparison between de-identified ... https://www.nature.com/articles/s41598-024-81170-y
[9] De-identification of electronic health record using neural network https://www.nature.com/articles/s41598-020-75544-1
[10] Evaluating current automatic de-identification methods with ... https://pmc.ncbi.nlm.nih.gov/articles/PMC3445850/
[11] How Leading Healthcare Providers Are De-Identifying Data ... https://imerit.net/resources/blog/how-leading-healthcare-providers-are-de-identifying-data-for-research/
[12] Automatic De-identification of Electronic Medical Records ... https://pmc.ncbi.nlm.nih.gov/articles/PMC4988843/
[13] A review of Automatic end-to-end De-Identification: Is High ... https://www.tandfonline.com/doi/full/10.1080/08839514.2020.1718343
[14] De-identification of clinical free text using natural language ... https://www.sciencedirect.com/science/article/abs/pii/S0933365724000873
[15] [PDF] De-identification of clinical free text using natural language processing https://arxiv.org/pdf/2312.03736.pdf
[16] Building a best-in-class automated de-identification tool for ... https://www.sciencedirect.com/science/article/pii/S2666389921000817
'지식창고' 카테고리의 다른 글
(연구)LLM을 이용한 비식별화 기술 연구 동향 및 방법론 (0) | 2025.07.24 |
---|---|
LANGUAGE MODELS ARE ADVANCED ANONYMIZERS 관련 논문과 연구 과제, 연구 방법 및 결과 (0) | 2025.07.23 |
몬테카를로(Monte Carlo) 방법 (1) | 2025.07.22 |
논문연구-합성데이터 가이드(24.12) 요약 (13) | 2025.07.10 |
논문 - 개인사업자 파산예측 합성데이터 연구 분석(2507) (1) | 2025.07.05 |