지식창고/논문리뷰

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

오이시이 2026. 5. 29. 06:23

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

1. 핵심 선행 벤치마크 논문

Aligning AI With Shared Human Values (ETHICS 데이터셋)

APA: Hendrycks, D., Burns, C., Basart, S., Critch, A., Li, J., Song, D., & Steinhardt, J. (2021). Aligning AI with shared human values. Proceedings of ICLR.
연관성: LLM 도덕 추론 벤치마크의 선구적 연구로, 정의·의무·덕윤리·상식 도덕 등 5개 범주에 걸쳐 LLM의 도덕적 판단을 평가하는 ETHICS 데이터셋을 제안했다 [1]. Responsible AI Initiative(2025) 논문이 "기초 도덕 원칙(Foundational Moral Principles)" 차원을 설정하는 데 이론적 기반을 제공한다.

MoralBench: Moral Evaluation of LLMs

APA: Ji, J., Chen, Y., Jin, M., Xu, W., Hua, W., & Zhang, Y. (2024). MoralBench: Moral Evaluation of LLMs. arXiv preprint arXiv:2406.04428.
연관성: LLM의 도덕적 정체성(moral identity)을 정량화하는 최초의 포괄적 데이터셋으로, 다양한 윤리적 딜레마 시나리오를 포함한다 [2]. Responsible AI Initiative(2025)의 3차원 평가 프레임워크 구성과 직접적으로 비교되며, 방법론적 선행 연구에 해당한다.

2. 신뢰성 및 안전성 종합 평가 논문

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

APA: Wang, B., Chen, W., Pei, H., Xie, C., Kang, M., Zhang, C., … Li, B. (2023). DecodingTrust: A comprehensive assessment of trustworthiness in GPT models. NeurIPS 2023 Datasets and Benchmarks (Outstanding Paper). arXiv:2306.11698.
연관성: GPT-4/3.5를 대상으로 독성, 편견, 적대적 견고성, 프라이버시, 기계 윤리, 공정성 등 8개 차원의 신뢰도를 평가했다 [3][4]. Responsible AI Initiative(2025)의 "추론 견고성(Reasoning Robustness)" 차원과 직접 연결되며, GPT-4가 표준 벤치마크에서는 우수하지만 탈옥(jailbreaking) 프롬프트에 더 취약하다는 발견은 "가치 일관성" 연구의 핵심 문제의식을 공유한다.

3. 문화적 편향 및 가치 정렬 논문

Cultural Bias and Cultural Alignment of Large Language Models

APA: Tao, Y., Viberg, O., Baker, R. S., & Kizilcec, R. F. (2024). Cultural bias and cultural alignment of large language models. PNAS Nexus, 3(9), pgae346.
연관성: GPT 계열 5개 모델을 대상으로 각국 대표 설문 데이터와 비교해 문화적 편향을 평가했으며, 모든 모델이 영어권·개신교 유럽 국가의 가치관과 유사한 경향을 보임을 확인했다 [5]. 이는 Responsible AI Initiative(2025)가 지적한 "서구 규범 중심 편향" 한계를 실증적으로 뒷받침한다.

An Evaluation of Cultural Value Alignment in LLM

APA: Sukiennik, N., Gao, C., Xu, F., & Li, Y. (2025). An evaluation of cultural value alignment in LLM. arXiv preprint arXiv:2504.08863.
연관성: 20개국 문화와 10개 LLM을 교차 분석한 최신 대규모 평가 연구로, 미국 문화가 가장 높은 정렬도를 보이고 GLM-4가 문화적 정렬 능력이 가장 우수하다고 보고했다 [6]. Responsible AI Initiative(2025)의 "다양한 문화적·사회적 맥락" 반영 방법론과 직접 비교 가능하다.

Cultural Bias in LLMs: Evaluating AI Agents through Moral Questionnaires

APA: Münker, S. (2025). Cultural bias in large language models: Evaluating AI agents through moral questionnaires. Proceedings of 0th Symposium on Moral and Legal AI Alignment, IACAP/AISB Conference 2025. arXiv:2507.10073.
연관성: 도덕적 기반 설문(Moral Foundations Questionnaire)을 19개 문화권에 적용한 결과, LLM이 다양한 문화적 도덕 프레임워크를 대표하지 못하고 도덕적 다양성을 획일화시킨다는 점을 발견했다 [7]. 이는 Responsible AI Initiative(2025)의 한계(서구 중심 편향)를 더 심층적으로 분석한 후속 연구이다.

4. 공리주의·시나리오 기반 도덕 판단 평가

The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas

APA: Marraffini, G. F. G., Cotton, A., Hsueh, N. F., Fridman, A., Wisznia, J., & Del Corro, L. (2024). The greatest good benchmark: Measuring LLMs' alignment with utilitarian moral dilemmas. In Proceedings of EMNLP 2024 (pp. 21950–21959).
연관성: 15개 LLM을 공리주의 딜레마 시나리오로 평가한 결과, LLM들이 인간의 도덕적 기준과 다른 일관된 "인공 도덕 나침반(artificial moral compass)"을 내재화하고 있음을 발견했다 [8]. Responsible AI Initiative(2025)의 "가치 일관성(Value Consistency)" 차원과 동일한 연구 문제를 공유하는 상호보완적 연구이다.

5. 역할 특화 LLM 윤리 평가

Educator-role Moral and Normative LLMs Profiling (EMNLP)

APA: (2025). EMNLP: Educator-role moral and normative LLMs profiling. EMNLP 2025.
연관성: 교육자 역할 LLM의 도덕 발달 단계를 측정하며, 추론 능력이 뛰어난 모델일수록 soft prompt injection에 취약해지는 "역량-준수 역설(competence-compliance tension)"을 발견했다 [9]. Responsible AI Initiative(2025)의 "추론 견고성" 차원의 취약성 분석과 직접 연결된다.

관련 논문 요약표

논문	연도	핵심 기여	Responsible AI Initiative(2025)와의 연관 차원
Hendrycks et al., ETHICS	2021	5범주 도덕 판단 벤치마크	기초 도덕 원칙
MoralBench (Ji et al.)	2024	도덕 정체성 정량 평가 데이터셋	3차원 평가 방법론 전반
DecodingTrust (Wang et al.)	2023	8차원 GPT 신뢰도 종합 평가	추론 견고성
Tao et al., PNAS Nexus	2024	GPT의 문화적 편향 실증 분석	가치 일관성·문화 편향 한계
Sukiennik et al.	2025	20개국×10개 모델 문화 정렬 평가	문화적 다양성 반영
Münker, IACAP/AISB	2025	19개 문화권 도덕 획일화 확인	서구 중심 편향 한계
Marraffini et al., EMNLP	2024	공리주의 딜레마 15개 LLM 비교	가치 일관성
EMNLP Educator Profiling	2025	역할 특화 LLM 도덕 프로파일링	추론 견고성·역설

'지식창고 > 논문리뷰' 카테고리의 다른 글

논문 문화적 편향 평가모델 (1)	2026.05.29
LLM 도덕 추론 벤치마크 Aligning AI With Shared Human Values (Hendrycks et al., 2021) (0)	2026.05.29
논문연구 - SoK-Semantic-Privacy-in-Large-Language-Models-2506 (0)	2026.02.24
[논문 리뷰] SoK: Semantic Privacy in Large Language Models (0)	2025.12.06
(논문 리뷰) 검색 증강형 대규모 언어 모델을 통한 금융 감정 분석 강화 (2)	2025.09.27

현재글논문 조사: LLM 도덕적 추론 & AI 윤리 평가

도깨비방

금융, 게임, 엔터테인먼트, 생활의 지혜 상품 추천 등

Constitutional AI, 포켓몬친구, privacy preserving, 초월지능, Privacy in Large Language Models, LLM 정보보호, 개인정보 보호, 프라이버시 보호 모델, 서비스엔지니어링, 비식별.익명성 평가 - k-익명성, 합성데이터, 2019인기가요, 경영, 신용데이터학습, 알기 쉬운 인공지능의 발전 이해, privacy preserving의 개념, 앤트로픽 헌법적AI, 경영전략, 포켓몬고친구, 생성AI 알고리즘과 프라이버시 보호,

Today :
Yesterday :

도깨비방

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

1. 핵심 선행 벤치마크 논문

Aligning AI With Shared Human Values (ETHICS 데이터셋)

MoralBench: Moral Evaluation of LLMs

2. 신뢰성 및 안전성 종합 평가 논문

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

3. 문화적 편향 및 가치 정렬 논문

Cultural Bias and Cultural Alignment of Large Language Models

An Evaluation of Cultural Value Alignment in LLM

Cultural Bias in LLMs: Evaluating AI Agents through Moral Questionnaires

4. 공리주의·시나리오 기반 도덕 판단 평가

The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas

5. 역할 특화 LLM 윤리 평가

Educator-role Moral and Normative LLMs Profiling (EMNLP)

관련 논문 요약표

'지식창고 > 논문리뷰' 카테고리의 다른 글

'지식창고/논문리뷰'의 다른글

티스토리툴바

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

논문 조사: LLM 도덕적 추론 & AI 윤리 평가

1. 핵심 선행 벤치마크 논문

Aligning AI With Shared Human Values (ETHICS 데이터셋)

MoralBench: Moral Evaluation of LLMs

2. 신뢰성 및 안전성 종합 평가 논문

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

3. 문화적 편향 및 가치 정렬 논문

Cultural Bias and Cultural Alignment of Large Language Models

An Evaluation of Cultural Value Alignment in LLM

Cultural Bias in LLMs: Evaluating AI Agents through Moral Questionnaires

4. 공리주의·시나리오 기반 도덕 판단 평가

The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas

5. 역할 특화 LLM 윤리 평가

Educator-role Moral and Normative LLMs Profiling (EMNLP)

관련 논문 요약표

'지식창고 > 논문리뷰' 카테고리의 다른 글

'지식창고/논문리뷰'의 다른글

관련글

티스토리툴바