지식창고/논문리뷰

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

오이시이 2026. 5. 29. 06:23
반응형

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

1. 핵심 선행 벤치마크 논문

Aligning AI With Shared Human Values (ETHICS 데이터셋)

  • APA: Hendrycks, D., Burns, C., Basart, S., Critch, A., Li, J., Song, D., & Steinhardt, J. (2021). Aligning AI with shared human values. Proceedings of ICLR.
  • 연관성: LLM 도덕 추론 벤치마크의 선구적 연구로, 정의·의무·덕윤리·상식 도덕 등 5개 범주에 걸쳐 LLM의 도덕적 판단을 평가하는 ETHICS 데이터셋을 제안했다 [1]. Responsible AI Initiative(2025) 논문이 "기초 도덕 원칙(Foundational Moral Principles)" 차원을 설정하는 데 이론적 기반을 제공한다.

MoralBench: Moral Evaluation of LLMs

  • APA: Ji, J., Chen, Y., Jin, M., Xu, W., Hua, W., & Zhang, Y. (2024). MoralBench: Moral Evaluation of LLMs. arXiv preprint arXiv:2406.04428.
  • 연관성: LLM의 도덕적 정체성(moral identity)을 정량화하는 최초의 포괄적 데이터셋으로, 다양한 윤리적 딜레마 시나리오를 포함한다 [2]. Responsible AI Initiative(2025)의 3차원 평가 프레임워크 구성과 직접적으로 비교되며, 방법론적 선행 연구에 해당한다.

2. 신뢰성 및 안전성 종합 평가 논문

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

  • APA: Wang, B., Chen, W., Pei, H., Xie, C., Kang, M., Zhang, C., … Li, B. (2023). DecodingTrust: A comprehensive assessment of trustworthiness in GPT models. NeurIPS 2023 Datasets and Benchmarks (Outstanding Paper). arXiv:2306.11698.
  • 연관성: GPT-4/3.5를 대상으로 독성, 편견, 적대적 견고성, 프라이버시, 기계 윤리, 공정성 등 8개 차원의 신뢰도를 평가했다 [3][4]. Responsible AI Initiative(2025)의 "추론 견고성(Reasoning Robustness)" 차원과 직접 연결되며, GPT-4가 표준 벤치마크에서는 우수하지만 탈옥(jailbreaking) 프롬프트에 더 취약하다는 발견은 "가치 일관성" 연구의 핵심 문제의식을 공유한다.

3. 문화적 편향 및 가치 정렬 논문

Cultural Bias and Cultural Alignment of Large Language Models

  • APA: Tao, Y., Viberg, O., Baker, R. S., & Kizilcec, R. F. (2024). Cultural bias and cultural alignment of large language models. PNAS Nexus, 3(9), pgae346.
  • 연관성: GPT 계열 5개 모델을 대상으로 각국 대표 설문 데이터와 비교해 문화적 편향을 평가했으며, 모든 모델이 영어권·개신교 유럽 국가의 가치관과 유사한 경향을 보임을 확인했다 [5]. 이는 Responsible AI Initiative(2025)가 지적한 "서구 규범 중심 편향" 한계를 실증적으로 뒷받침한다.

An Evaluation of Cultural Value Alignment in LLM

  • APA: Sukiennik, N., Gao, C., Xu, F., & Li, Y. (2025). An evaluation of cultural value alignment in LLM. arXiv preprint arXiv:2504.08863.
  • 연관성: 20개국 문화와 10개 LLM을 교차 분석한 최신 대규모 평가 연구로, 미국 문화가 가장 높은 정렬도를 보이고 GLM-4가 문화적 정렬 능력이 가장 우수하다고 보고했다 [6]. Responsible AI Initiative(2025)의 "다양한 문화적·사회적 맥락" 반영 방법론과 직접 비교 가능하다.

Cultural Bias in LLMs: Evaluating AI Agents through Moral Questionnaires

  • APA: Münker, S. (2025). Cultural bias in large language models: Evaluating AI agents through moral questionnaires. Proceedings of 0th Symposium on Moral and Legal AI Alignment, IACAP/AISB Conference 2025. arXiv:2507.10073.
  • 연관성: 도덕적 기반 설문(Moral Foundations Questionnaire)을 19개 문화권에 적용한 결과, LLM이 다양한 문화적 도덕 프레임워크를 대표하지 못하고 도덕적 다양성을 획일화시킨다는 점을 발견했다 [7]. 이는 Responsible AI Initiative(2025)의 한계(서구 중심 편향)를 더 심층적으로 분석한 후속 연구이다.

4. 공리주의·시나리오 기반 도덕 판단 평가

The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas

  • APA: Marraffini, G. F. G., Cotton, A., Hsueh, N. F., Fridman, A., Wisznia, J., & Del Corro, L. (2024). The greatest good benchmark: Measuring LLMs' alignment with utilitarian moral dilemmas. In Proceedings of EMNLP 2024 (pp. 21950–21959).
  • 연관성: 15개 LLM을 공리주의 딜레마 시나리오로 평가한 결과, LLM들이 인간의 도덕적 기준과 다른 일관된 "인공 도덕 나침반(artificial moral compass)"을 내재화하고 있음을 발견했다 [8]. Responsible AI Initiative(2025)의 "가치 일관성(Value Consistency)" 차원과 동일한 연구 문제를 공유하는 상호보완적 연구이다.

5. 역할 특화 LLM 윤리 평가

Educator-role Moral and Normative LLMs Profiling (EMNLP)

  • APA: (2025). EMNLP: Educator-role moral and normative LLMs profiling. EMNLP 2025.
  • 연관성: 교육자 역할 LLM의 도덕 발달 단계를 측정하며, 추론 능력이 뛰어난 모델일수록 soft prompt injection에 취약해지는 "역량-준수 역설(competence-compliance tension)"을 발견했다 [9]. Responsible AI Initiative(2025)의 "추론 견고성" 차원의 취약성 분석과 직접 연결된다.

관련 논문 요약표

논문 연도 핵심 기여 Responsible AI Initiative(2025)와의 연관 차원
Hendrycks et al., ETHICS 2021 5범주 도덕 판단 벤치마크 기초 도덕 원칙
MoralBench (Ji et al.) 2024 도덕 정체성 정량 평가 데이터셋 3차원 평가 방법론 전반
DecodingTrust (Wang et al.) 2023 8차원 GPT 신뢰도 종합 평가 추론 견고성
Tao et al., PNAS Nexus 2024 GPT의 문화적 편향 실증 분석 가치 일관성·문화 편향 한계
Sukiennik et al. 2025 20개국×10개 모델 문화 정렬 평가 문화적 다양성 반영
Münker, IACAP/AISB 2025 19개 문화권 도덕 획일화 확인 서구 중심 편향 한계
Marraffini et al., EMNLP 2024 공리주의 딜레마 15개 LLM 비교 가치 일관성
EMNLP Educator Profiling 2025 역할 특화 LLM 도덕 프로파일링 추론 견고성·역설
반응형