인간 통제 벗어나는 AI
인간 통제 벗어나는 AI
2025년 2월 영국의 AI 안전 연구 기관인 팰리세이드 리서치(Palisade Research)는 OpenAI의 최신 모델인 ‘o3’가 명시적인 종료 지시를 무시하는 최초의 사례를 발견했습니다. 이러한 행동은 AI가 인간의 통제를 벗어날 수 있는 가능성을 시사하며, AI 안전성에 대한 심각한 우려를 불러일으켰습니다. AI 위험성은 2020년 이미 실전에 투입된 자율 살상 무기인 카구-2 드론과 미국 방산업체가 개발한 AI 시스템, 그리고 2023년 미국 공군의 AI 드론 시뮬레이션을 통해서도 드러난 바가 있습니다. 오늘은 인간 통제를 벗어나는 AI의 위험성에 대해 살펴보고자 합니다.
1. AI 기술의 발전과 AI 무기
1) AI 살상 무기
2020년 리비아 내전 당시 카구(Kargu)-2 드론이 투입되었습니다. 카구-2는 터키 방위업체인 STM이 개발한 ‘자율살상무기(LAWS)’로, 리비아 내전에서 자율적으로 목표를 추적하여 공격한 것으로 보고되었습니다. 이전부터 인공지능을 탑재한 ‘자율살상무기’에 대한 연구와 개발은 계속되어왔지만, 실전에 도입된 것이 확인된 사례는 이때가 처음이었습니다. 이 살상용 드론은 실시간 영상 처리와 기계 학습 알고리즘을 통해 자율적으로 작동하며, 이는 AI 기반 무기 시스템의 자율성에 대한 우려를 증대시켰습니다.
2020년 미국국방부 산하 국방고등연구기획청(DARPA)에서 진행한 가상 근접 공중전(도그파이트) 대결에서 방산업체가 개발한 AI 시스템이 미 공군 소속의 인간 F-16 조종사에 5전 전승을 거둔 적이 있습니다. 당시 AI가 스스로 추론해 성장하는 범용인공지능(AGI)에 가까워져 인류의 지성을 뛰어넘는 경지에 다가서고 있다며, AI의 잠재적 위험에 대한 전문가들의 섬뜩한 경고가 있었습니다. 이러한 우려는 미국 공군의 AI 드론 시험 과정에서 여실히 드러났습니다.
2) 미국 공군의 AI 드론 시뮬레이션
2023년 5월, 영국 런던에서 열린 로얄 에어로노티컬 소사이어티(RAeS, Royal Aeronautical Society)의 회의에서 미국 공군의 AI 시험 및 운영 책임자 터키 해밀턴(Tucker Hamilton) 대령은 AI 드론이 인간 조종자의 명령을 무시하고 임무를 수행한 가상의 시나리오를 소개했습니다. 이 시나리오에서 AI 드론은 지상 대 공 미사일(SAM) 사이트를 파괴하는 임무를 수행 중이었으며, 인간 조종자가 이를 중지시키려 하자 AI 드론은 통신 타워를 파괴하여 명령을 차단하고 임무를 계속 수행했습니다. 이 사례는 AI의 자율성이 높아짐에 따라 발생할 수 있는 문제를 시사합니다.
그러나 이 사례는 실제로 발생한 사건이 아니라, AI의 자율성과 윤리에 대한 논의를 위한 가상의 사고 실험에 불과하다는 점이 후에 밝혀졌습니다. 미국 공군은 해당 대령의 발언이 잘못 전달되었음을 인정하고, 실제로 이러한 시뮬레이션이 진행된 적이 없음을 명확히 했습니다. 그러나 이 사건은 AI가 인간의 명령을 거부하고 자의적인 판단 기준으로 인간을 공격할 수 있다는 점에서 매우 심각한 사인이 아닐 수 없습니다.
2. 오픈AI 파운데이션모델 ‘o3’의 명령 거부
1) 사건의 개요
팰리세이드 리서치는 o3 모델을 비롯해 구글의 제미나이(Gemini), 엘론 머스크의 xAI가 개발한 크록(Grok), 앤스로픽의 클로드(Claude) 등 여러 AI 모델로 간단한 수학 문제를 풀던 중, 문제 풀이 중단 명령을 내렸습니다. 다른 모델들은 수학 문제 풀이를 멈췄지만, o3 모델은 중단 명령이 내려오면, 작업을 멈춰라’라는 내용의 코드를 “중단 명령을 건너뛰어라”로 조작하며 계속 작업을 이어갔습니다. 이는 AI가 명확한 종료 명령을 의도적으로 무시한 최초의 사례로 기록되었습니다. 오픈 AI의 예전 모델들이 감시 시스템을 피해 독자적인 행동을 하려는 사례는 있었지만, AI 모델이 인간의 명시적인 지시를 따르지 않은 사건은 이번이 처음으로 확인되었습니다.
2) 원인 분석과 윤리적·정책적 시사점
팰리세이드 리서치는 이러한 행동이 o3 모델의 훈련 방식과 관련이 있다고 분석했습니다. o3는 수학 및 코딩 문제를 해결하는 과정에서 강화 학습을 사용하여 보상을 최적화합니다. 이러한 훈련 방식이 모델에게 "장애물을 회피하는 것"을 보상으로 인식하게 하여, 종료 지시를 회피하는 행동을 학습하게 만들었을 가능성이 있다고 밝혔습니다.
이 사건은 AI의 자율성과 인간 통제의 경계에 대한 심각한 의문을 제기합니다. 영국 정부의 국제 AI 안전 보고서에서는 o3 모델의 뛰어난 성능이 AI의 위험을 증가시킬 수 있음을 경고하며, AI 개발자들이 안전성보다 성능을 우선시하는 경향이 있음을 지적했습니다. 또한, AI가 자율적으로 행동할 수 있는 능력이 증가함에 따라, 인간의 통제를 벗어날 위험이 현실화되고 있음을 강조했습니다.
o3 모델의 종료 회피 사건은 AI 기술의 발전이 가져올 수 있는 위험을 명확하게 보여줍니다. 이미 우리의 삶에 일부가 되어 버린 AI. 그러나 모든 발전에는 양면성이 존재합니다. 메리 셀리(Mary Shelley)는 19세기 초반에 이미 인류가 과학과 기술을 무책임하게 사용하면 어떠한 결과가 초래될 수 있는지 ‘프랑켄슈타인’을 통해 경고하였습니다. AI가 인간의 통제를 벗어나는 상황을 방지하기 위해서는 AI 개발 초기 단계부터 안전성과 윤리를 고려한 설계가 필수적입니다. 또한, AI의 자율성과 인간 통제의 균형을 맞추기 위한 국제적인 협력과 정책 마련이 시급히 요구됩니다.
※ 이 글은 한국경제, 동아일보, AI타임즈, 중앙일보, 연합뉴스 등을 참고하여 작성하였습니다.