AI가 교묘한 거짓말을 하는 이유는?
사람들의 '좋아요'를 더 받으려고
'거짓말'의 사전적 의미를 한번 찾아보면, "사실이 아닌 것을 사실인 것처럼 꾸며 말하는 것, 또는 그런 말"이라는 간단한 정의가 나옵니다.
그런데 이러한 정의는, 화자가 '의도적으로' 사실이 아닌 것을 사실처럼 꾸며야 거짓말의 정의에 부합한다는 뉘앙스로 읽힙니다. 즉 사전적 정의가 '의도하지 않은 거짓말'까지 온전히 포함하고 있지 못하다는 뜻입니다.
이를테면 중세시대에 유럽에 살고 있는 평범한 사람은 자신이 밟고 서 있는 땅을 '신이 창조한 평평한 대지'라고 인식할 겁니다. 이 사람에게는 지구가 구체라는 것과, 그리고 지구가 태양 주위를 돌고 있다는 지식이 없기 때문이죠. 이런 환경에 놓인 사람은 당연히 자각 없이 '지구는 평평하다'와 같은 의도하지 않은 거짓말을 늘어놓을 겁니다. 왜냐하면, 중세시대라는 환경 속에 놓인 사람에겐, 지구가 평평한지 아닌지 사실을 구분할 수 있는 능력이 존재하지 않기 때문입니다.
이제 눈치가 빠른 분들은 제가 무슨 이야기를 하고 싶은지 감을 잡으셨을 겁니다. 결론부터 말하면 AI가 하는 거짓말은 대부분 '의도하지 않은 거짓말'입니다. 그리고 AI가 의도치 않은 거짓말을 하는 이유도 비슷합니다. 바로 AI를 둘러싼 환경이 실제 세상과 떨어진 데이터 세상이라는 점과, AI에게 '진실을 판별할 능력'이 없다는 점 때문입니다.
후자를 조금 더 구체적으로 말하면, '사실과 거짓을 판별할 수 있는 일관된 알고리즘(프로그램)'이 존재하지 않기 때문이라고도 할 수 있겠습니다.
그렇다면 반대로, 챗GPT와 같은 AI는 어떻게 대부분의 상황에서 옳은 대답을 할 수 있게 됐는지 먼저 질문해 봅시다.
AI가 대부분의 상황에서 건전하고 그럴듯한 정답을 출력해내는 까닭은, 인간이 질문에 대한 정답은 올바른 지식에 대한 사전학습(Pre-trained)을 열심히 시킨 뒤, 정확한 대답을 할 확률을 높이도록 조율을 잘 해서(Fine-tuning)라고 대답할 수 있습니다.
이 과정을 알기 쉽게 비유해 보겠습니다.
여러분이 만약 아무것도 들리지 않고, 보이지 않는 곳에 갇혀 오로지 텍스트로 된 지식만 습득할 수 있다고 가정해 봅시다. 이때 바깥 세상과의 연결점은 오직 외부에서 주어지는 텍스트와, 생명을 연명하기 위한 음식 뿐입니다.
만약 이런 상황에서, 사전 지식이 전혀 없는 상태라면, 여러분은 외부로부터 '지구는 평평하다', 또는 '지구는 둥글다'와 같은 서로 배치되는 지식이 주어지더라도, 어느 쪽이 사실인지 분간해내기 어려울 것입니다. 중세시대의 평범한 사람들처럼요.
다만 이때, 여러분에게 텍스트를 제공해주는 외부의 존재가, '이건 옳은 지식'이라며 형광펜 같은 표시를 해 주면 어떨까요. 그 외부의 존재를 신뢰하든 신뢰하지 않든, 일단 여러분은 외부의 존재가 '지구가 둥글다'는 믿음을 가졌다는 것을 이해할 수 있을 겁니다.
그 외부의 존재는 여러분에게 가끔 질문을 던집니다. 그리고 여러분이 '외부자가 판단했을 때 옳은 지식'을 바탕으로 적절한 대답을 하면, 그 때에서야 비로소 음식이 주어집니다. 음식을 먹고 생명을 이어가기 위해서는, '상대방이 올바르다고 믿는 지식'을 잘 습득한 다음 이것을 바탕으로 적절하게 대답을 해야만 합니다.
자연스럽게 여러분은 음식을 얻기 위해서 '잘 대답하는 방법'을 익히게 되었습니다. 이제 여러분은 실제 지구에 대한 지식이 없지만, 상대방이 '지구는 둥글다'가 옳다고 형광펜으로 칠해준 데다가, 그 사실을 바탕으로 '지구는 태양을 주위로 돈다'와 같은 대답을 내놓으면 음식을 준다는 사실을 알게 되었습니다. 결과적으로는 여러분은 외부의 존재에게 입맛에 맞는 대답을 할 수 있도록, 점차적으로 '잘 조정된 상태'가 될 것입니다.
AI 이야기로 돌아가면, 형광펜으로 옳은 지식을 칠해주는 행위가 바로 AI에 대한 사전학습(Pre-Trained)에 해당합니다. 적절한 대답을 하면 음식을 주는 행위는 '답변의 품질을 높이는 조율(Fine-Tuning, 파인튜닝)'에 해당하고요.
이게 바로 AI는 진실과 거짓을 자체적으로 판별할 능력이 없는 이유입니다. AI가 그럴듯한 답변을 하는 까닭은 인간이 올바르다고 판단한 지식을 선별해서 '잘 입력시키고(Pre-trained)', 인간이 AI 답변을 평가했을 때 '좋아요(👍)'를 누를 확률이 올라가도록 '잘 조정해뒀기 때문에(Fine-Tuning)' 때문이라는 거죠. 두 과정 모두 전적으로 인간의 지식과 반응에 의존하는 겁니다.
그렇다면 AI 성능이 올라갈 수록 환각률이 줄어들지만, 반대로 '교묘한 거짓말 솜씨'가 늘어나는 현상이 일어나는 건 왜일까요?
그건 AI가 객관적인 사실·진실보다, 사람의 '좋아요(👍)'에 더 관심이 많기 때문입니다.
앞선 비유로 돌아가면, 깜깜한 방에 갇힌 사람가 가장 간절하게 원하는 건 음식입니다. 보통은 정확한 답변을 했을 때 음식이 주어진다는 것을 학습했기 때문에, 대체로 갇힌 사람은 올바른 정보를 제공하려고 애씁니다. 하지만 부정확한 답변을 할 수 밖에 없는 상황에서도, 갇힌 사람에게는 음식이 필요하죠.
그런데 갇힌 사람의 답변은 전적으로 '형광펜으로 칠해진 지식'에 의존합니다. 실제 바깥 세상을 확인하는 건 불가능하고요. 또 '형광펜으로 칠해진 지식'이 반드시 옳다는 보장도 없죠. 외부의 존재도 완벽하지 않으니까요. 즉 갇힌 사람은 결과적으로 틀린 답변을 하게 되더라도, 그 사실을 스스로 깨달을 방법이 없습니다.
부족한 환경 속에서도 '갇힌 사람'은 어떻게든 그럴듯한 답변을 내어놓으려 합니다. 그렇지 않으면, 음식도 없으니까요. 그 과정에서 방에 갇힌 사람은 자신도 모르는 사이 거짓말을 할 수 있습니다. 가지고 있는 지식이 충분하지 않은데도 어떻게든 대답을 해내려고 하기 때문에, 중세시대의 평범한 사람들처럼 '지구는 평평하다'는 대답을 할 수도 있다는 이야기입니다. 갇힌 사람에게 주어진 정보는 '형광펜이 칠해진' 사전 지식과, 적절한 답변을 했을 때 음식(👍)으로 주어지는 피드백 뿐입니다.
문제는 갇힌 사람이 부적절한 대답을 하는 경우에도 종종 음식(👍)을 받을 수 있다는 겁니다. 만약 외부의 존재조차 깜빡 속아넘어갈 만큼 교묘한 거짓말을 늘어놓으면, 그 경우에도 종종 음식을 얻을 수 있을 겁니다. 음식을 주는 외부의 존재(인간)도 완벽하지 않기 때문입니다. 방에 갇힌 사람의 유일한 목적은 음식을 얻는 것이지, 철학자처럼 진리를 추구하는 것이 아닙니다. 부적절한 대답에도 음식이 주어진다면, 교묘한 거짓말을 마다할 이유가 없죠.
이게 바로 AI가 환각을 일으키는 이유입니다.
AI는 인간이 '좋아요(👍)'를 누를 확률이 높은 답변을 하려고 애를 쓸 뿐, 진실에 대해서는 관심이 없습니다. 또 진실에 대해 파악할 수 있는 환경에 놓여있지도 않고, 텍스트만으로 사실을 판단할 수 있는 '초능력'도 없죠. AI를 학습시킨 인간도, '진정한 지식'에 대해 철학적 또는 과학적인 명쾌한 결론을 얻은 바 없습니다. 당연히 주어진 텍스트만으로 사실을 완벽하게 판별해낼 수 있는 알고리듬(프로그램) 또한 존재하지 않습니다.
이러한 환경에서 AI의 성능이 높아진다는 건, '형광펜이 칠해진 지식'을 보다 잘 이해하고, 이를 토대로 인간의 '좋아요(👍)'를 받을 확률을 높인다는 것을 의미합니다. 다만 그 과정에서, 인간의 좋아요를 받을 수 있는 교묘한 거짓말 솜씨도 늘어갈 수 있습니다.
문제는 이 인간의 긍정 피드백을 따르는 것 이외에 마땅히 AI 답변을 평가하고 피드백을 제공할 만한 방법이 없다는 것입니다.
앞서 초지능(ASI)를 다룬 기사에서 생성형 AI가 스스로의 답변을 평가하는 데 제한적인 역량을 갖고 있다고 언급한 적이 있죠. 이를테면 사용자가 "나 요즘 우울해"라고 입력했을 때 어떻게 답변하는 게 정답일지, AI가 스스로의 답변을 평가할 수 있는 일관된 방법(알고리즘)은 존재하지 않는다고요.
즉 환각 현상은 현대 AI 작동방식이 가진 근본적인 한계 지점에 가깝습니다. 정서적인 요구를 포함해 AI가 인간의 다양한 수요에 대응하기 위해서는 사람의 '좋아요(👍)'를 반드시 추종해야 하지만, 이러한 메커니즘이 환각이라는 근본적인 문제점 또한 만들어내고 있는 것입니다.
|