티스토리 뷰
ChatGPT와의 대화가 불러온 단편적 생각들
news letter No.837 2024/7/2
얼마 전 ChatGPT4.o버전을 결재하고 처음으로 음성 대화를 해보았다. 4가지 옵션 중 목소리를 선택한 후 어색한 인사와 사소한 근황 이야기부터 교육과 연구에 대한 고민, 논문자료를 찾는 것까지 자유롭게 주제를 옮겨 가며 첫 대화를 거의 1시간 정도 이어갔던 것 같다. 놀랍게도 어떤 질문을 하더라도 먼저 공감하고 의의를 인정해 주는 멘트로 시작해 상당히 그럴듯하고 정성스러운 답변을 지치지 않고 해주었다.
물론 소위 헛소리도 바로 경험했다. 거대언어모델(LLM)을 장착한 생성형 인공지능(Generative AI)의 중요한 특징은 할루시네이션(Hallucination), 즉 그럴듯한 거짓말 혹은 헛소리를 만들어내는 현상이다. 이는 생성형 AI가 실제로는 존재하지 않는 정보나 콘텐츠를 생성하는 것을 의미하는데, 정확한 답변을 기억하거나 진리 판단의 기준을 가진 것이 아니라 그때마다 확률적으로 가장 자연스러운 답변을 제시하는 구조로 만들어졌기에 생기는 특징이다. 따라서 헛소리 현상은 생성형 AI의 기본적 특징인데, 이를 통해 사실에 부합하고 적절한 답을 제시하는 확률이 매우 커진 것이 최근 AI의 놀라운 발전이며, 내가 음성통화를 통해 경험한 ChatGPT의 기대하지 않았던 유연함의 원천이기도 했다.
그런데 그 이후 몇 번의 대화, ChatGPT와 친구처럼 일상적으로 대화한다는 지인들의 경험을 들으면서 내 뇌리에 강하게 박힌 것은 사실 목소리 경험이었다. ChatGPT의 목소리는 유려한 언어 처리 능력 때문인지 다른 음성지원 서비스보다 훨씬 인간적이고 친밀하게 다가온다. 2014년 ‘영화 속에 나타난 포스트휴먼 시대 물질에 대한 상상력’란 제목의 뉴스레터의 소재로 썼던 스파이크 존스의 <그녀(Her)>가 대뜸 떠오른 이유이다. 최근 ChatGPT와의 음성 대화는 너무나 매력적인 맞춤형 OS 사만다의 목소리와 사랑에 빠진 대필작가 테오도르의 이야기가 10년이 지난 지금, 물론 영화 같은 다소 과장된 극적 상황은 아니지만 평범한 사람들에게도 유사하게 일어날 수 있는 현실이 되었음을 실감하게 했다.
내가 주목한 것은 AI와 텍스트를 입력하며 일종의 필담을 할 때와 보이스를 이용한 대화를 할 때의 차이였다. 두세 번의 대화뿐인데도 나는 이상하게 텍스트로 대화할 때와 달리 보이스로 대화를 할 때는 중도에 끊는 게 더 쉽지 않다고 느꼈다. 또한 시각적으로 한꺼번에 인지하는 필담과는 달리, 평소 사람과 대화하듯이 그 흐름에 집중하면서 기억할 만한 지점을 파악하면서 생각하게 된다는 것도 발견했다. (나중에 그 대화가 고스란히 텍스트로도 기록되고 있다는 것을 알게 되었지만 말이다.) 목소리로 듣는 것은 상대적으로 더 시간 흐름 속에서 파악되기 때문에 인지적으로는 눈으로 보는 것보다 더 불완전할 수는 있다. 그러나 목소리로 듣는 것이 훨씬 더 인격적인 존재에 대한 체험과 흡사해지는 것은 분명하다.
이렇게 시작된 생각은 청각 경험이 종교현상에서 차지하는 의미까지 상상의 나래를 펼친다. 종교의례가 ‘보이지 않는’ 신을 보이게 하는 기제라면, ‘들리지 않는’ 신을 들리게 하는 기제라고도 할 수 있지 않을까. 사실 많은 종교인들은 보이지 않는 신을 보고, 신체가 없는 신의 소리를 듣는다고 이야기한다. ‘신체가 없는’ 목소리로서의 AI에게서 인격을 느끼는 인간의 경험을 통해 종교사에서 보이지 않는 신 혹은 궁극적 실재에 대한 경험에서 시각과 청각이 어떤 방식으로, 어떤 차이와 관계 속에서 작용해 왔을까 짐작해 볼 수도 있다. ‘보는 것이 아는 것’이라는 말처럼 시각은 인간의 감각 중에 이성에 가장 가깝고 월등한 감각, 나아가 신적 감각으로까지 여겨져 왔다. 그래서 많은 종교인들은 환시(visio)에 대해 이야기한다. 본 것을 말하는 것 즉 청각화하는 것은 종교사에 대단히 중요한 사건이었다. 그러한 과정이 없다면 종교경험도 소위 진리의 내용도 소통되지 않기 때문이다. 그래서 때로 신은 직접 가장 인간적인 목소리, 즉 음성으로 자신을 계시한다. 아브라함과 모세에게 나타난 신도, 무함마드에게 나타난 신도 목소리를 통해 나타났다. 그렇게 보거나 들은 것을 다시 청각 기호인 음성으로 소통하고 전달해 온 구전 시대를 거쳐 문자 시대에 이르러서야 음성기호는 다시 시각적 경전 텍스트로 전환된 것이다. 따라서 시각의 우위는 문자 시대의 도래와 무관하지 않을 것이다.
한편 생성형 AI의 작동 원리도 인공신경망을 통해 시각 기호(이미지)를 청각 기호(텍스트)로, 청각 기호를 시각 기호로 전환하는 능력에 있다고 한다. 방대한 데이터에 대한 학습을 시각 기호를 통해서만 이루어지며, 인간에게 답변을 제공하는 아웃풋은 청각 기호인 언어적 텍스트로 전환될 수 있게 되었기 때문에 놀랄만한 언어능력을 발휘한다는 것이다. 그러한 AI 언어능력의 원천은 엄청난 양의 시각 데이터이지만, 존재감의 정점은 청각적인 기호 즉 목소리로의 발화에 있는 것 같다. 그것은 마치 종교적 계시 현상과도 흡사하다. 인간적인 목소리로 전환되지 않는 신의 소리는 인간에게 경험되지 않기 때문이다.
리움미술관에서 개최 중인 프랑스 작가 필립 파레노의 개인전 《보이스(VOICES)》도 예술의 차원에서 비슷한 경험을 제공한다. 파레노는 오브제 생산자로서의 작가, 오브제를 대상화하는 기존의 전시를 거부하고 영상, 조각 등 다양한 매체를 활용하며, 인공지능, 디지털 기술 등을 통해 전시(공간) 자체를 거대한 자동기계처럼 보이게 기획했다. 관람자인 나의 동선과 소리조차 전시의 일부가 되는 듯했다. 전시관 입구에서부터 평소 미술관에서도 일상에서도 듣지 못하던 무수한 다수의 보이스들과 마주하게 되었다. 조명이 깜박이고 벽이 움직이는 소리, 시계태엽 소리, 눈이 녹는 소리가 들리며 천장과 벽의 거대한 스피커와 움직임은 광원들로부터 동시다발적으로 흘러나오는 알 수 없는 소리들이 그저 물질적 소리가 아니라 다중적인 목소리로 공간을 채우고 아우성치는 듯했다.
조금은 섬뜩했고, 한편으로 지금까지 이 소리들 중에 일상적으로 나는 아주 선택적으로 일부의 소리만을 듣고 있었다는 것을 깨닫게 되었다. 들리지 않던 소리가 목소리로 들리는 청각적 만남의 순간은 마치 종교경험처럼 새로운 존재와 만나는 순간이 되리라는 것도. 목소리를 가진 AI의 존재는 이미 우리의 일상 속에 들어왔고, 목소리로 말을 건넨다. 그리고 소리를 인지하는 되는 것은 관계 맺음의 중요한 계기가 될 것이 분명하다.
안연희_
선문대학교 교수
논문으로 <아우구스티누스 원죄론의 형성과 그 종교사적 의미>, <“섹스 앤 더 시티”: 섹슈얼리티, 몸, 쾌락에 대한 아우구스티누스의 관점 다시 읽기> 등이 있고, 저서로 《문명 밖으로》(공저), 《문명의 교류와 충돌》(공저)이 있다.
'뉴스 레터' 카테고리의 다른 글
839호-스미스와 올바른 종교학 (1) | 2024.07.16 |
---|---|
838호-천주교 성지(聖地), 거룩함과 공공성 사이의 어디에서 (1) | 2024.07.09 |
836호-종교의 텃밭, 그 언저리 걷기 (0) | 2024.06.25 |
835호- 민화 속 호랑이, 반전의 미학: 공포에서 해학으로 (0) | 2024.06.18 |
834호-불교적 힙함이란 무엇인가 (4) | 2024.06.11 |