태그

게시물 목록

2023년 3월 8일 수요일

ChatGPT 이모저모 - (2) 조리있음, 논리적 상상력, 그리고 강박적 우호성

지난번 글에서는 ChatGPT의 기술적인 원리를 나름대로 짚어보았다. 이를 요약하자면, ChatGPT는 다음 토큰 예측을 통해서 담화 형태를 가진 텍스트를 완성시켜 준다. 또한 맥락-내 학습을 통해 추가적인 학습 없이도 사용자의 적절한 프롬프팅(텍스트 입력)만으로 새로운 과제에 대한 수행능력을 구성해 낼 수 있다.


이번에는 사용자의 입장에서 경험적으로 파악한 특징들을 나열하고, 그것들이 앞서 이야기한 기술적 원리들과 어떻게 연관되는지에 대해서도 느낌을 가져보기로 한다. 그 다음으로는 주요 한계점에 대해서 논의한다.

먼저 아래의 서술들은 질문-답변 형태의 거대언어모델들이 앞으로 갖게 될 일반적인 특징들이라고 보기는 조심스러우며, 일단은 현재 단계의 ChatGPT가 가지는 특징들이라고 보는 것이 옳겠다.

다만 ChatGPT는 언어 생성 자체의 성능은 매우 높으면서도, 사실관계 답변이나 수량적 지식 처리 등의 특정한 목적에 맞추기보다는 격식있는 언어 일반을 재현하는 듯하다. 또한 사용자와 잘 align되는 특성, 조금 더 좁게 말하면 편향되거나 노골적으로 유해한 대화를 피하는 것에는 신경을 많이 썼다. 이러한 safety에는 물론 많은 노력과 커스텀이 들어간 것이지만, 어떻게 보면 신뢰할 수 있는 작동을 위한 최소 요건이라고도 할 수 있다. 이를 감안하면 ChatGPT는 거대언어모델의 기본원리를 비교적 충실하게 reflect하는 것으로 보이며, 그러므로 비슷한 원리로 작동하는 언어모델들의 '바닐라' 상태에 가깝다고 보인다.

('바닐라'란 기본을 만족하되 추가적인 커스텀을 가하지 않은 상태를 일컫는 용어로, 바닐라 아이스크림이 '기본 맛'으로 여겨지는 데서 유래했다고 한다. 링크: https://en.wikipedia.org/wiki/Vanilla_software)


먼저 ChatGPT의 가장 중심적인 특징 두 가지는 형식 면에서의 조리있음, 그리고 내용 면에서의 논리적 상상력이라고 할 수 있을 듯하다. 내 생각에 이 두 가지가 ChatGPT가 가장 자연스럽게 잘 하는 종류의 일이며, 따라서 대체로 이들에 집중할 때에 ChatGPT로 가장 생산적이고 재미있는 결과들을 낼 수 있는 것 같다. 또한 논리적 상상력은 강박적 우호성이라고 이름붙인 또다른 특성에 의해 지지되고 있다. 문제도 없지 않은데, 이미 널리 지적되고 있는 사실관계 오류 문제를 제외한다면 대표적인 문제는 물리적 세계감각과 관련된 상식이 부족한 것과, 텍스트 구성요소의 층위를 혼동하는 것으로 정리하였다.

이를 종합해서 ChatGPT를 인간에 비유하자면 우호적이고 빠르고 성실한, 그러면서도 창의적인 조수에 가깝다고 보인다. 다만 수많은 부문을 '글로만 배웠'다 보니 인간에 비해 많은 한계점도 보여준다. 하나하나 살펴보자.




조리있음

첫번째로 다룰 특징인 조리있음은 말 그대로 매우 빠른 시간 내에 조리있고(coherent) 잘 조직화된 (organized) 텍스트를 만들어내는 능력을 말한다. 이것은 '논리적'인 것과는 묘하게 다르며, 내용의 논리성보다는 글의 스타일에 대한 것을 의미한다. 필자가 부족한 영어실력으로 덕지덕지 쓴 입력을 넣어도, 말하고자 하는 내용만 확실하다면 그것을 알아듣고 상당히 프로페셔널한 학술적 스타일로 바꾸어주며, 그것을 바탕으로 생산적인 결과를 출력한다. 이는 수많은 예시들로부터 이미 명백하기에 예시는 따로 첨부하지 않기로 한다.

또한 원하는 조건을 프롬프팅을 통해 하나하나 추가하면, 그것을 모두 반영해서 잘 수정된 결과를 준다. 통째로 새롭게 할 필요가 없고 dialogue를 반복해가며 마음에 들지 않는 부분을 점진적으로 고칠 수 있다는 뜻이다. 지시에 사용되는 표현의 일관성을 유지하면서, 변화시켜야 할 사항과 보존시켜야 할 사항을 확실하게 밝혀준다면, 불만을 원하는 만큼 해소하고 충분히 좋은 결과를 얻을 수 있다. 물론 확률적 생성이기 때문에, 일부분만 바꾸고 싶은데 글 전체가 바뀌어 버리는 경우가 없지는 않다. 그런 경우에는 나머지를 그대로 놔두고 오직 그 부분만 바꾸라고 말하면 사과와 함께 다시 잘 해 주기도 한다.

따라서 사용자 입장에서는 원하는 점을 정확하게 표현하는 능력이 중요할 것으로 보인다. 여기서 정확성이라는 것은 꼭 형식적/문법적으로 조리있고 깔끔해야 한다는 게 아니라, 격식없는 언어로라라도, 예시를 동원해서라도, 그렇지만 분명한 논리적 지시사항이 있게끔 어떻게든 표현을 해내면 된다. 특히 예시의 동원은 많은 도움이 된다.

다만 사용자가 직접 제공한 예시에만 지나치게 이끌리지 않고 넓은 범위의 샘플들을 만들어내는 것은 상당한 프롬프팅의 노하우를 필요로 할 것으로 보인다. AI에게 말로 일을 시키는 prompt engineering이 그림뿐만 아니라 언어모델 쪽에서도 아예 하나의 직군으로 자리잡을 것이라는 예측 (그리고 이미 실현 중인 현상) 이 바로 이런 측면 때문이 아닐까 한다.

물론 막연하게 의외성에 의한 희극적인 결과를 기대하고 질문하는 것도 재미있다. 언론에까지 보도된, 한국사 가짜뉴스 만들기가 그 예시일 것이다.

(한국일보 기사: 링크. "세종대왕 맥북 던짐 사건 알려줘" 밈이 된 챗GPT 엉뚱 답변)



그렇게 할수록, ChatGPT의 활용은 다음 포스팅에서 서술할 ‘우연성 예술’에 점점 가까워질 것이다. 다만, 관점에 따라 다르기는 하겠으나 이러한 경우에도 메타포에 근거한 시적 상상력보다는 소설적 상상력이 더 부각되는 면이 있기에 여전히 조리있음의 범주에 넣는 것이 적절하겠다. 자세한 내용은 이하에서 다룬다.




논리적 상상력

두번째로 다룰 논리적 상상력은, 기발한 은유를 동원해서 세계의 어떤 단면을 짚어내는 종류의 상상력이 아니라, 대상들의 잘 알려진 기능과 특징에 논리적으로 입각해서 창의적인 작업을 하는 종류의 상상력을 말한다. 이러한 작업의 예시는 구체적으로 보자면 서로 다른 두 대상 혹은 영역을 창의적으로 연결하기, 주어진 조건에 부합하는 설정 및 캐릭터를 만들기, 조건에 부합하는 이야기의 스켈레톤을 만들기 등이 있다.

이것들을 단적으로 보여주는 샘플들을 첨부한다. 첫번째는 서로 다른 두 대상을 연결하는 작업에 관한 것이다. 임의로 고른 두 식재료 (닭가슴살과 젤리) 의 질감을 내삽(interpolation)하는, 즉 그 둘의 중간 정도의 식감을 갖는 식재료를 제안해 달라고 해 보았다.

서로 다른 두 대상을 연결하기 (1/3)

서로 다른 두 대상을 연결하기 (2/3)

서로 다른 두 대상을 연결하기 (3/3)

Facebook에서 해당 게시물 보기: 링크 (2022.12.04)

Facebook에서 또다른 예시 보기: 링크 (2022.12.04)
(한국어와 영어가 무작위적으로 섞인 이상한 문단 만들기)


사실 요리라는 것은 감각의 영역이 많이 작용하는 부문인 데 반해, ChatGPT는 말하자면 요리를 '글로 배운' 경우이다 보니 이것이 현실 세계에서 잘 작동하는 제안이라고 보장할 수는 없으므로 그다지 재미있는 예시는 아니다 (ChatGPT에게 감각세계가 부재하다는 문제는 이하에서 보다 자세히 다룬다). 그럼에도 각 식재료의 특징을 성실하고 적극적으로 가져와서 결과물에 논리적으로 반영해 주는 것에서, 논리적 창의성이 단적으로 드러난다.

만약에 감각에 직접 와닿는 질감보다는 이산적인 기능이 중요한 과제를 창의적으로 수행하게 하면 훨씬 더 괜찮을 것이다. 예컨대 지금 내 앞에는 '컴퓨터'와 '커피'가 있다. 만약에 이 둘을 내삽하는 물체 혹은 개념을 제안해 달라고 하면, 보통은 이게 무슨 말인가 하겠지만 ChatGPT는 각각의 특성을 적극적으로 탐색하고 반영하여 새로운 물체와 그 이름까지 제안해 준다.
.

.

.

.

두번째 예시는 조건에 부합하는 설정과 캐릭터를 만드는 작업에 관한 것이다. 시간 여행이 존재하는 SF 속 세계에서 사용될 법한 영문법 시제를 만들어 달라고 해 보았다.

SF 속에 등장하는 전형적 시간여행 상황들이 어떤 것이 있는지 등은 유저가 전혀 알려주지 않았고, ChatGPT가 방대한 데이터들 중에 어떠한 상황을 고를지 스스로 정한 것이다. 해당 상황들에 대해 대략적으로 어떤 모습의 시제를 원하는지는 매 단계 세심히 알려주었다.

  • 먼저 will, might, been, being 등 기존의 시제 표현 단어들을 조합해서 SF 속 시간여행 상황을 표현하게 한다.
  • 그 다음에는 낯선 느낌을 주기 위해 morpheme들을 조금씩만 왜곡하도록 했다. 아래에서, 아마 have를 변형한 것으로 보이는 hab 등이 그 흔적이다.
  • 마지막으로 랜덤하게 왜곡하는 것이 아니라, 시간과 관련이 있는 기존 단어들 (chrono-, tempo-, reverse 등) 을 부분부분 따 와서 집어넣도록 했다.

예외적으로 맨 마지막 6번째 시제는 정반대 과정으로 만들어졌다. 내가 직접 "will must have been done"이라는 시제를 아무렇게나 만들어서 주고, 이것이 어떤 시간여행 상황에 적합할지 생각해서, 1-5번째와 같은 형태로 표현하도록 시켰다. 앞과 정확히 같은 형식으로 잘 표현해 준다.

조건에 부합하는 설정을 만들기 (1/3)

(1) chro have hab been -ing: 주어가 시간을 거꾸로 거슬러 여행할때, 미래에서 이미 겪은 일을 나타냄
(2) be willing to tem have been: 시간선에서 이미 일어난 미래의 일을 예상하는 것을 나타냄
(3) had been rev being pp.: 과거의 사건을 현재 순간에 겪고 있는 것을 나타냄

조건에 부합하는 설정을 만들기 (2/3)

(4) be had -ing: 현재 순간에 과거의 사건을 다시 살고 있는 것을 나타냄
(5) will be over being: 미래의 사건을 예측하며 그것을 현재에 겪고 있는 것을 나타냄


조건에 부합하는 설정을 만들기 (3/3)


(6) will must have anti been done: 어떤 사건이 미래에 완료될 것임을 예측하는데, 그것이 시간여행에 의해 과거에 이미 완료되었음을 나타냄

Facebook에서 해당 게시물 보기: 링크 (2022.12.06)

이들은 그저 흉내만 내려고 랜덤하게 합친 것은 아니고, 나름의 논리성에 의거하여 완성된 시제들이다 (최소한 처음의 생성은 랜덤했을지라도, 각 시제에 대해 설명을 요구하면 합리적이고 일관성있는 설명을 제공해준다). 캡쳐에 있는 각 시제의 ‘이름’도 나름 근사하다. 물론 이 모든 것들은 해당 상황을 나타내는 시제와 그 이름이 반드시 이러해야만 한다는 실용문법적 '답'을 제시하는 개념은 아니고, 창의적 기계로서 합리적, 논리적으로 상상해보는 것일 뿐이다.

맨 처음에는 시제의 이름과, 문장속에서의 시제의 표현을 구분하지 못하길래 그 구분을 열심히 알려주고 나서 진행했다. 필자가 부족한 영어실력으로 대략 지시한 뒤에 이해했는지 물어보면, 이해한 바를 논리적으로 정확하게 얘기해주므로, 이러한 종류의 과제에서 상당히 믿을만하다.

이처럼, 매 단계에서 ChatGPT에게 정확히 이해했는지 스스로의 언어로 논리적으로 설명해 보라고 시킨 다음에, 그것을 확인 및 컨펌하고 진행하는 것이 핵심이다. 그렇게 하지 않으면 일관되고 설명가능한 결과를 내기 어렵다. 이러한 절차는 인간과의 꼼꼼한 협업이랑 비슷한데, 훨씬 더 빠르고 명확하고 쉽다.

.

.

.

엄밀한 표현은 아니겠지만, 나는 이러한 논리적 상상력을 시적 상상력보다는 소설적 상상력에 가깝다고 표현하고 싶어진다. 어떤 뜻인지는 전달이 될 것 같아서 임시로나마 이 용어를 쓰겠다. 이러한 과제를 달성하기 위해서는 대상들의 기능과 특징에 대한 폭넓은 지식과 함께, 기존에 존재하지 않는 조합을 무척 그럴듯하게 (즉 그것을 묘사하는 텍스트가 실제로 존재할 법하게) 만들어 주는 능력이 필요하다. 이는 ChatGPT의 작동 원리에 잘 부합한다.

물론 여기에서도, 이리 튀고 저리 튀는 ‘의외성’, ‘무작위성’의 영역이 어느 정도는 있다. 어떤 두 가지를 연결시키려고 하더라도, 사용자가 명시하지 않은 각각의 특성들, 그리고 그것들을 연결시키는 방법 자체는 창의적으로 찾아 주기 때문이다. 그러나 랜덤으로 탐색된 것들일지언정 종국에는 상당히 논리적이고 개연적으로 연결된다는 점에서 이들 작업은 결국은 논리성에 닿아 있다.

2019년경 각 인터넷 커뮤니티에서는 인공지능이 배트맨과 조커에 대해 만든 짧은 스토리와, 그것을 바탕으로 사람이 그린 그래픽 노블이 화제가 된 적이 있다. 이것은 나름의 스토리를 가지고 있지만 어딘가 부조리하고, 상상력을 불러일으키는 기이한 메타포들 (주로 우연에 의해 생성되었을), 그리고 조커다운 나쁜 농담을 포함하고 있다.

(Keaton Patti의 트위터 게시물: 링크. AI가 작성한 짧은 스토리.)
(Matt Shults의 트위터 게시물: 링크. 위 스토리를 바탕으로 사람이 그린 그래픽 노블.)


어느 정도 구조를 갖춘 스토리가 있음에도 불구하고, 이것이 사람들에게 어필했던 메인 포인트는 결국 여전히 우연성 예술이자 시적 상상력의 영역이며, 따라서 ChatGPT보다는 과거의 낮은 성능의 챗봇들에 여전히 가까운 면이 있다. 그리고 이러한 부조리가 조커라는 등장인물의 특성과 우연히도 무척 잘 어울리다 보니 꽤 인상깊은 결과가 나왔던 것이다. 그러나 오히려 훨씬 최신 모델이지만 '지나치게 조리있는' ChatGPT에게는, 이러한 메타포적인 작업이야말로 일부러 세심하게 시키더라도 만족스럽게 되지 않는 부자연스러운 작업이다.

한편, ChatGPT를 이용해서 어떤 캐릭터나 브랜드의 이름을 짓는 것은 어렵다. 멋지지 않고 너무 정직한 이름을 지어 준다. 이름을 짓는 행위는 ChatGPT가 잘 발휘하는 소설적 상상력이 아닌, 시적 상상력에 가까워서 그렇다고 해석할 수 있다.





강박적 우호성

다음으로 지적하고 싶은 점은 그럴듯한 내용의 예측이라는 특징으로부터 창발하는, 강박적 우호성이다. 여기서 우호성이라고 하는 것은, toxic하거나 aggressive한 답변을 피한다는 것과는 다른 얘기이다. ChatGPT는 사실이든 아니든, 그 대화 내에서 전제되어야 하는 사실을 프롬프팅을 통해 알려주면 그에 대해 반대하기보다는 철저히 동의 하에 진행한다. 이것은 사실관계 오류를 걸러내지 못하는 한계라고 볼 수도 있지만, 앞선 포스팅에서 서술한 기본 원리를 생각해봤을 때 사실 제 할 일을 한 것뿐이며, 창의성이라는 면에서는 잘 활용하면 대단한 것일 수 있다.

즉 ChatGPT는 물어본 내용에 대해 어떻게든 가능성을 찾아주는 편이며, 부정하는 경우는 많지 않다. 위에서 언급된 논리적 창의성도 사실은 이러한 강박적 우호성과 꽤 관련이 있을 수 있다. 서로 상관이 없는 두 가지를, 서로 관련이 있다고 전제하고 어떻게든 연결지어 주는 것이기 때문이다. 그렇기 때문에 어떤 개념이나 대상을 - 그것이 세상에 존재하지 않음에도 불구하고 - 합리적 근거를 바탕으로 상상해내는 작업에서 높은 생산성을 보인다.



ChatGPT의 특성: 종합 및 기타 노하우

위에서는 강박적 우호성에 의해 논리적 상상력이 수립되는 것 같다고 하였다. 물론 대체로만 그렇다는 것이며, 가끔씩은 가능성을 찾지 않고 부정해 버리는 경우도 있는 모양이다. 이럴 때에는 ‘정확도가 아닌 상상력을 요구하는 것이다’, ‘창의성을 발휘해 보라’고 지시하면 다시 잘 하기도 한다. 이전의 맥락까지 포함한 총체적인 대화를 하다 보니 이것마저 잘 안 될 수가 있는데, 그럴 때는 아예 새로운 대화 창에서 다시 시작하면 더 좋다. 이런 것 역시 일종의 노하우로, prompt engineering의 초보적인 예시일 수 있다.

강박적 우호성과 약간 관련될 수 있는 어떤 문제점도 있다. 어떤 명제에 대해 긍정인지 부정인지 답을 얻고 싶은데, 프롬프팅에서 그 명제가 언급된 것 자체로 이미 긍정 쪽으로 편향, 혹은 강박적으로 균형있게 다루는 경우가 그것이다. 이것은 사용자가 기술 리터러시가 부족할 경우에 인지적 편향을 유발하는 문제를 일으킬 수 있다. 이는 다음 글에서 쓰겠다.

한편 앞에서는 조리있는 스타일이 가장 큰 특징 중 하나라고 하였는데, 사실은 데이터가 워낙 많고 capability가 워낙 좋다 보니, 프롬프팅을 잘 해서 조리있지 않은 스타일로 써 달라고 하는 것도 가능하다. 예를 들어서, ChatGPT에게 멀쩡한 일상적 문장을 말하다가 갑자기 중간에 말이 끊기고 고장나는 것처럼 연기해 달라고 프롬프팅해 보았다.

조리있지 않은 언어를 생성하기 (1/2): 2022.12.06.

조리있지 않은 언어를 생성하기 (2/2): 2022.12.06.


약간 무섭기도 하고... 어찌되었든 의도대로 꽤 잘 된다. 그러나 이런 식으로 조리있지 않은 스타일을 만들어내기 위해서는 꽤나 세심한 엔지니어링이 필요하며, 그럼에도 불구하고 그 결과물은 진정으로 지리멸렬하기보다는 다소 인위적으로 느껴질 때가 많다. 게다가 잘 하다가도 약간 변형을 주려고 하면 조리있는 스타일로 자꾸만 되돌아가기도 한다 (위 캡쳐들은 십수 번의 시도 끝에 가장 괜찮은 것만 골랐던 것으로 기억한다). 만약에 크기가 작고 학습도 잘 안 된 자연어처리 모형을 이용하고, 지난번 포스팅에서 언급한 온도라는 파라미터도 매우 높게 설정한다면 훨씬 더 랜덤한 글을 만들어 볼 수 있지 않을까 싶다.

그런데 조리있지 않은 스타일 혹은 높은 수준의 우연을 강제하다 보면, 때로는 ChatGPT 내부에서 임베딩을 통해 창발한 의미 공간, 혹은 음소 공간의 기하적(?) 구조가 드러나는 것처럼 보일 때도 있다. 주로 가짜 언어를 만들어 달라고 하거나, 아니면 한국어와 관련된 무언가를 해 달라고 프롬프팅할 때에 그런 현상이 많이 일어난다. 이는 다음 포스트에서 예시를 포함하여 다루기로 한다.

대화 스레드 전체에 대한 일관적인 이해를 상당 수준으로 갖추고 있다는 것도 ChatGPT의 놀라운 점이다. 이에 따라, 한참 위에 있는 질문 및 답변을 다시 끌고 와서 현재 맥락에 다시 적용하는 것도 가능하다. 물론 가끔은 위쪽 대화와의 일관성이 깨지는데, 이부분은 지적하면 고친다. 다만 여러 번의 시도를 거치는 과정에서 비슷한 문답이 여러 개 만들어졌다면, 아무리 자세히 이야기해도 그것들 중에 무엇을 지칭하는지 모르게 되어 버린다. 이를 방지하기 위해 답변 하나하나에 ‘이름’을 붙여놓고 진행하면 꽤 편리하다.

여담이지만 이 일관성을 바탕으로 글의 장르를 왔다갔다 할 수도 있다. 예컨대 학술적인 내용의 질의응답을 하다가, 이 내용에 대해 시를 써 달라고 하면 지금까지 이야기한 내용 전체를 반영해서 잘 써 준다. 이러한 시들의 경우 다양한 어휘를 이용하여 운율을 갖추는 데에는 매우 뛰어나나, 초보적이고 전형적인 비유법만을 사용하므로 (우연에 의한 결과에 인간이 의미를 부여하지 않는 한은) 세계의 어떤 진리를 세밀하게 포착하는 문학적 가치는 부재하다고 생각된다. 그래도 조금 더 ‘뭔가 있어 보이는’ 결과를 원한다면 be abstract, be symbolic, pretend it contains the fundamental wisdom of life and universe 등의 요구를 하면 조금 더 낫기는 하다.




주요 한계

여기서부터는 ChatGPT의 주요 한계점을 다룬다. 이미 널리 지적된 사실관계 오류 문제를 가장 먼저 언급하지 않을 수 없다. 잘 알려졌다시피 ChatGPT는 매우 태연하고 조리있게 잘못된 사실을 말한다 (한국어에서 더 많이 그런 것 같기도 하다). 사실 구글 Bard의 제임스웹 망원경 실수 사건이 개인적으로 굉장히 아쉬웠던 것은, ChatGPT도 동일한 실수를 자주 한다는 것을 감안하면 이것은 기술적 실패라기보다는 퍼포먼스 실패에 가깝다고 느껴져서 그렇다. 즉 Bard 시연을 할 때 올바른 문제 정의를 전제하기만 했더라도, 이러한 종류의 거짓 정보 출력이 과연 커다란 실패로 간주되기는 했을지 의문이다.

(경향신문 기사: 링크. 구글 '바드' 체면 구긴 질문은? 새 검색툴 공개 첫날 주가 급락)


오히려 실제로 존재하지 않지만 꽤나 진짜 같은 가게 이름 및 학술문헌 이름을 만드는 것, 그리고 사실과 다르지만 언뜻 보면 꽤 그럴듯한 역사 사건 설명과 이야기를 내놓는 것은, 정확한 사실관계에 대한 가져오기(retrieval) 및 요약보다도 훨씬 더 신기한 면도 있다.

아무튼 이러한 사실관계 관련 오해에 대해서는 다음 글의 ‘우려’ 파트에서 자세히 다루기로 하고, 이번 섹션에서는 조금 다른 이슈들 두 가지를 다루어본다. 그 두가지는 바로 물리적 세계감각과 관련된 상식의 부족, 그리고 내용이 형식에 이끌려 버리는 문제 (텍스트 구성요소의 층위를 혼동하는 문제) 이다.

감각과 직접 관련되지 않은, 지식레벨의 상식 즉 언어로만 배울 수 있는 것들에 대해서 ChatGPT는 무척 폭넓고 우수하다. 그러나 인간의 물리적 세계감각과 관련된 상식은 부족하다. 경험과 지식은 매우 총체적인 것이며, ChatGPT의 주특기인 언어는 인간 인식에서 무척 중요하지만 한편으로는 무척 한정적이다. 예컨대 나는 운전, 격투술, 스타크래프트 등을 직접 실행해 본 적이 없으므로 그것들에 대한 글을 읽고 영상을 보아도 그것들이 감각적으로 충분히 와닿기는 어렵다.

ChatGPT도 이처럼 여러가지 부문에 대한 지식을 ‘글로만 배웠다’고 생각할 수 있다. 위의 요리 예시도 마찬가지다. 정보의 바다인 인터넷에서조차 텍스트로 일일이 누가 설명해두는 경우가 많이 없는, 그러나 그것이 부재했을때 모르고 있다는 티가 확실히 나는 암묵적인 부분들 말이다.

또한 텍스트 구성요소의 층위를 혼동해서, 글에 추상적으로 반영만 되면 될 지시사항들이 자꾸 내용에 명시적으로 드러나 버리는 것도 고치기 무척 어렵다. 말하자면, 내가 원하는 것의 ’예시’여야 할 임의의 문장들이, 지시 내용 자체에 이끌려서 특정한 내용 위주로만 생성된다.

예컨대 일련의 지극히 일상적인 문장들을 생성하되, 해당 문장들이 어떠한 특정한 구조를 갖는다고 하고 싶다. 예컨대, 어떤 글에서 처음에는 밝은 날씨에서 나올 법한 문장들이 나오다가, 나중으로 갈수록 흐리고 나쁜 날씨에서 나올 법한 문장들이 생성되게 하여 모종의 문학성을 갖추고 싶다고 하자. 그럴 때 ChatGPT는 어려운 길을 택하지 않고, 아주 쉬운 길을 택한다. 아예 날씨에 대한 이야기를 명시적으로 언급하는 문장들을 생성하는 것이다.

물론 앞의 영문법 시제 샘플에서는 각 예시 문장 자체가 너무나 정직하게 시간여행 상황을 설명하고 있어서, 오히려 이해와 검증에 도움이 된다. 그러나 위처럼 ‘시적 상상력’에 가까운 작업을 하는 상황에서는 이것이 상당히 불편할 수 있을 듯하다. 어떠한 심상이 구조를 통해 은유적으로 드러나는 것이 아니라 내용 상에 직접적인 시어로 드러나 버리면 멋지지 않기 때문이다.

이런 것들은 사실은 사람한테도 한번에 설명하기는 약간 어려운 얘기인데, 나는 이것을 내용이 형식에 이끌린다고 표현하겠다. 다만 대략적인 스케치를 주고 이렇게 하라고 알려준 뒤, 예시에 이끌리지 말라고 명시하고, 그것을 이해했는지 물어본 다음에 다시 하라고 하면 조금 더 잘 되기는 한다. 이런 것 역시 바로 기초적인 prompt engineering 노하우일 것이다. 그래도 여전히, 이것을 해결하는 것은 유난히 어렵다.

이와 비슷하게 문제가 되는 게 있는데 바로 유머, 공포와 같은 감정과 관련된 스타일이다. ChatGPT는 고차원적인 유머, 혹은 상황적 공포를 이해하고 생성하는 것을 잘 못한다. 예컨대 유머를 만들라고 하면 전반적인 상황에 부조리가 있어서 웃긴 것이 아니라, 광대가 깜짝 등장해서 사람들을 재미있게 해 준다는 식의 이야기를 만드는 경우가 꽤 많다. 이것은 그러한 상황의 참여자들에게는 즐거움을 줄 수 있지만, 하나의 이야기로서는 그저 유머러스한 상황에 대한 서술일 뿐 그 자체로 전혀 웃기지 않다. 이는 감각, 감정에 대한 직관이 없는 탓에 웃기는 게 정확히 어떤 것인지 잘 몰라서 그런 것 같지만, 한편으로는 바로 위 문단의, 텍스트 구성요소의 층위를 혼동하는 오류에도 속한다고 볼 수 있다.

맨 앞에서 거대언어모델을 통해 언어현상이라는 것이 ‘정확히 얼마나’ 신기한 것인지 감을 잡을 수 있다고 한 것과 비슷한 생각을 여기서도 해 볼 수 있다. 적어도 현재까지의 거대언어모델에서는, 언어만을 이용해서 감각과 감정에 대한 직관을 에뮬레이션하는 것은 정말 어려워 보인다. 이 정도로 데이터가 많고 성능이 좋은 언어모델에서도 그러한 능력들이 자동으로 emerge되지 않는다면, 그것들은 확실히 언어 바깥의 것이 맞는 듯하다. 물론 그렇다고 해서 감각과 감정이야말로 인간성의 정수이며 신비한 것이라고 단호히 주장하지는 않겠다.

감각적인 것뿐 아니라, 정량적으로 기술되지만 해석 및 의미 부여가 필요한 분야 (대표적으로 물리학) 에서도, 어떤 개념 A와 B가 서로 같은 것인지 다른 것인지 물어보면 ChatGPT는 대개는 공통점과 차이점을 강박적으로 동등하게 다루며, 수식 레벨 혹은 이론 레벨에서 명백히 같은 것들인데도 불구하고 서로 다른 것이라고, 그 이유는 이렇다고 답한다. 텍스트 레벨에서만 보면, 각각의 용어는 서로 약간씩 다른 맥락과 다른 학자들에게서 등장하니까, 다르다고 판단하는 것이 자연스러워서 그런 듯하다.

이것은 텍스트 배후의 정량적 지식 (정량이라는 건 그저 숫자가 아니라, 수학적 형식을 바탕으로 톱니바퀴처럼 아귀가 맞게 작동하는 이론적 모형에 대한 이해를 의미한다) 을 이해하지 못한다는 한계와 함께, 가능성을 차단하지 않으며, 강박적으로 우호적이라는 ChatGPT의 두 가지 특징이 추가로 결합해서 나타나는 부작용이라고 할 수 있다.

.

.

.

이번 포스트에서는 ChatGPT의 특징과 한계에 대해 다루었다. 아마 이 주제와 관련해서 마지막이 될 다음 번 포스트에서는 ChatGPT를 비롯한 대화형 챗봇의 여러 활용 사례에서 우려할 만한 점들을 다룬다. 첫째로 사실관계 오류와 강박적 우호성에 의해 사용자의 자기확신과 편향이 강화될 가능성에 대해 논의하고, 두번째로는 거대언어모델이 만들어내는 텍스트에 의해 수많은 부문에서 신호와 잡음의 구분이 어려워지는 문제에 대해 이야기한다. 마지막으로는 약간의 철학적 개념들을 동원해서 ChatGPT와 그 출력물을 해석해 보기로 한다.

Facebook에서 이 글 보기: 링크

alookso에서 이 글 보기: 링크 (소셜 로그인 필요)
(본 포스팅은 2023년 3월 8일에 alookso에 게재하였고 동년 9월 5일자로 블로그에도 옮겨둡니다)

댓글 없음:

댓글 쓰기