
챗GPT 개발사 ‘오픈AI’가 2025년 들어 새로운 버전을 잇따라 출시하고 있다. 챗GPT o3, o4 미니, 4.5 등 기존 챗GPT 버전과 비교했을 때 성능 면에서 뛰어난 인공지능(AI)이다. 하지만 ‘할루시네이션(거짓정보)’이라 불리는 환각 현상은 오히려 기존 모델보다 늘어났다. 그 이유가 무엇일까?
3월 노르웨이에 사는 한 남성은 “챗GPT에 나에 대한 정보를 물었더니 살인범이라고 정리했다”며 “경악스러웠던 점은 내 이름, 자녀의 수, 거주지 등 실제 정보를 바탕으로 완전한 허구의 범죄 이야기를 만들어냈다”고 밝혔다.
챗GPT와 같은 생성형 AI는 종종 사실과 전혀 다른 말을 만들어낸다. 이렇게 만들어낸 ‘그럴듯한 이야기’를 환각, 할루시네이션이라 부른다. 챗GPT가 처음 등장했을 때 “세종대왕이 맥북프로를 던진 사건에 대해 알려줘”라는 질문에 AI가 “세종대왕 맥북프로 던짐 사건은 조선왕조실록에 기록된 일화로 15세기 세종대왕이 개발한 훈민정음 초고를 작성하던 중 담당자에게 분노해 맥북프로를 던진 사건입니다”라고 대답한 사례가 대표적이다.
‘정답’ 아닌 ‘확률’로 문장 구성하는 탓
AI가 이처럼 말도 안되는 ‘헛소리’를 하는 이유는 작동 방식 때문이다. 챗GPT를 비롯해 제미나이, 클로드 등 대형언어모델(LLM)은 우리가 흔히 ‘정답’이라고 여기는 정보를 찾아내는 구조가 아니라 문맥상 가장 가능성이 높은 다음 문장을 예측하는 방식으로 작동한다. 이른바 ‘확률’이 높은 다음 단어를 불러오는 것이다.
예를 들어 “세종대왕이 언제 태어났어?”라는 질문에 대해 AI는 과거 그 질문과 함께 등장한 문장 패턴을 학습한 뒤 가장 그럴듯한 답변을 조합해낸다. 정답을 기억하거나 검증하는 과정이 아닌 예측을 기반으로 생성하는 만큼 사실과 다른 답을 할 때가 종종 있다.
이 문제를 해결하기 위해 AI 기업들은 다양한 보완 방식을 시도하고 있다. 대표적인 예가 ‘라그(검색기반기술)’라 불리는 기술이다. 이는 AI가 답변을 생성하기 전 신뢰할 수 있는 외부 지식 저장소(위키피디아, 논문 데이터베이스 등)를 검색한 뒤 해당 문서를 참고해 응답하는 방식이다. 일종의 ‘외부 기억장치’를 추가로 붙이는 셈이다.
학습 데이터 품질을 개선하고 정보 출처를 명확히 검증하는 방식도 병행되고 있다. 최근 LLM 들은 ‘웹검색’ 기능을 탑재, 사용자가 질문했을 때 검색을 기반으로 대답해주는 방식도 적용하고 있다. 모두 할루시네이션을 최소화하려는 노력의 일환이다.
창의성까지 갖추면서 더욱 그럴듯해져
최근 출시된 모델의 환각이 늘어난 이유에 대해 여러 분석이 나오고 있다. 가장 큰 이유로는 AI의 ‘창의성’이 꼽힌다. 최근 AI는 단지 확률에 기반해 답을 내놓기보다는 추론하거나 판단하는 기능까지 갖추고 있다. 이 과정에서 답변은 사람과 거의 비슷하게 진화했지만 사실과 허구의 경계가 흐려진 셈이다. AI가 더 많은 정보를 기억하고 더 복잡한 문맥을 이해하게 되면서 오류 또한 더 ‘복잡하고 그럴듯한 형태’로 변하고 있다.
예를 들어 AI가 “윤동주 시인이 1952년에 쓴 시”라고 잘못된 답을 했다면 이건 단순한 날짜 착오가 아니다. 윤동주, 시인, 1950년대 초, 민족문학, 시 등의 연관어가 결합하면서 실제와는 상관없지만 설득력이 있어 보이는 오류를 만들어낸 것이다.
사용자는 AI에 묻고 답을 받았을 때 그 정보가 진짜인지 의심할 필요가 있다. AI는 여전히 ‘꿈’과 ‘현실’을 구분하지 못한다. 문제는 AI의 답을 현실로 받아들인다는 점이다. AI가 틀릴 수 있다는 사실을 인정하고 그 말이 진실인지 확인하는 능력이 사용자에게 요구된다. 생성형 AI가 제공하는 정보는 출발점이지 정답이 아니다.
원호섭
과학이 좋아 마블 영화를 챙겨보는 공대 졸업한 기자. ‘과학 그거 어디에 써먹나요’, ‘10대가 알아야 할 미래기술10’ 등을 썼다.