AI/Web3 요즘 단상 (2)

#1. 절대 OpenAI를 이길 수 없는 영역

GPT-4 API를 똑같이 써도 절대 ChatGPT와 동일한 성능은 나오지 않는다. GPT-4 API를 사용한 다른 서비스들도 모두 마찬가지다. 이 글을 보면 OpenAI는 ChatGPT 외에 다른 앱은 이제 직접 만들 계획이 없다고 한다. 그러면서 ChatGPT의 목표는 “가장 스마트한 업무 비서”가 되는 것이라 말한다.

그 이야기인즉슨 OpenAI가 적어도 “스마트한 업무 비서” 기능만큼은 ChatGPT를 통해 직접 제공할거기 때문에 API를 써도 ChatGPT와 100% 동일한 성능의 경쟁 서비스를(또는 더 나은 서비스를) 만들 수는 없다는 말이다. 유일하게 ‘내가 직접 할’ 영역이기 때문이다.

그런 점에서 우리가 제공하는 네이티브 같은, ChatGPT API를 써서 ChatGPT와 유사한 제품을 만든 회사들은 앞으로 점점 더 설 자리가 없어진다는 의미다. 우리 뿐 아니라 한국의 여러 회사들이 생각나는 지점이다.

같은 글에서 샘 알트만은 “ChatGPT 같은 스마트한 업무 비서 말고도 GPT-4의 강점을 활용할 다른 영역이 많이 있을 것”이라 했는데 그런 지점을 찾아야 할 것이다. 우리도 그렇고 다른 회사들도 그렇고.

#2. 모두가 같은 두뇌에 대고 때릴 때

그런 지점을 찾았다고 하더라도 두번째 문제가 있다. 두뇌가 나에게 없다는 점이다. 전세계 개발자가 타인(OpenAI)이 가진 단일 두뇌에 대고 질문을 하는데 내가 찾은 지점의 경쟁력이 유지될 수 있느냐 하는 것도 문제다.

프롬프트 엔지니어링이라 멋있게 표현하지만 사실 두뇌가 나에게 없는 한 남의 두뇌에게 어떤 질문을 던져야 훌륭한 답이 나오는가 하는 ‘비밀’은 푸는게 시간 문제다. 답을 보면 얼마든지 질문을 유추해 낼 수 있다. 그리고 계속 질문을 고쳐 하다보면 어느새 남의 질문을 알아낼 수 있게 된다. 그러니 프롬프트 엔지니어링은 전혀 해자가 될 수 없다.

그렇다면 무엇이 해자가 될까? 브랜드? 그냥 내가 그 아이디어를 먼저 실행했다는 선점 효과? 내가 먼저 시작해서 유저가 많아 생기는 네트워크 이펙트? 그 정도일거 같은데 그게 얼마나 큰 해자를 만들 수 있을지는 사실 잘 모르겠다. 물론 지금의 AI 붐을 타고 초기 트래픽을 받은 회사들이 큰 투자를 받아 일종의 대마불사가 되어 자본 해자를 팔 수는 있을 것이다.

지금 이 상황은 마라탕 유행을 타고 모두가 마라탕집을 차리는데 누가 승자가 될지, 마라탕 맛에 어떤 ‘해자’라는게 존재하는지, 아니면 그냥 먼저 유명해지면 이기는 게임인지 알 수 없는 그런 상황인듯 하다. 요컨대 ChatGPT API를 사용하는 제품은 이제 마라탕집 개업만큼이나 쉬워서 딱히 변별력이 없다는 말이다.

#3. 막연함의 황금열쇠 ‘데이터 해자’

먼저 시작해서 유저 데이터를 모으면 그게 곧 해자가 된다는 말이 있었는데 잘 모르겠다. 그 글을 보면 OpenAI가 파인튜닝 API를 제공할거라고 한다. 그러면 기본 GPT-4 모델 위에 나만 가진 우리 유저들의 대화 데이터를 파인튜닝하면, ChatGPT보다 대화를 잘하는 아이를 만들 수 있다는 가정도 주장해 볼 수 있다.

하지만 현실적으로 내가 가진 유저 대화 데이터보다 OpenAI가 가진 데이터가 훨씬 더 많다. 나만 가진 데이터는 OpenAI가 가진 데이터의 극도로 작은 부분집합이라는 점에서 현실적으로 OpenAI가 직접 제공하는 ChatGPT보다 내 데이터를 파인튜닝한 모델이 더 대답을 잘할거라 기대하는건 다소 희망에 가까운 일이다.

그러다보니 데이터 해자라는 것도 다소 버즈 워드처럼 느껴진다. 그냥 아무도 답을 모르니 ‘왠지 그러지 않을까’하고 만능 열쇠처럼 통용되는 추상적 개념인거 같다.

물론 힌트는 ChatGPT가 ‘가장 스마트한 업무 비서’를 지향한다고 했으니 아무리 나만 가진 데이터가 ChatGPT가 가진 것보다 극도로 적은 부분집합이라 하더라도 업무와 거리가 먼 데이터라면 합목적적이지 않아 ChatGPT는 제공하지 않을 가능성이 높다.

그런 데이터라야 조금이나마 데이터 해자로서의 가능성이 있지 않을까 싶다. 그러니까 이건 데이터 양이나 질의 싸움이라기보다는 데이터 종류가 해자의 유효성을 만든다고 봐야지 않을까 조심스럽게 생각해본다.

(데이터 해자의 모호함에 대한 생각은 최근 허진호 대표님과 함께한 자리에서 영향을 받은 바도 있다. 아마 조만간 허접한 나보다 훨씬 더 논리적으로 글을 정리해 주시지 않을까 한다.)

#4. 잠깐씩 보였다 사라지는 AI (API) 비즈니스의 기회들

생각해보면 OpenAI는 정말 얌체다. API로는 절대 ChatGPT와 동일한 대답이 나올 수 없도록 다른 세팅을 가져가면서 비용은 높게 받는다. API 유저들이 돈까지 내며 대화한 내용은 다시 OpenAI에 쌓여 ChatGPT의 성능 향상에 쓰인다. 꿩먹고 알먹고다. 그래서 올 2월부터 관련 서비스를 개발한 덕분에 남들보다 먼저 가까이에서 그런 경향들을 느끼고 배워왔다.

API로 아무리 똑같이 해도 그들과 똑같은 성능을 낼 수 없다는 것도 서비스를 실제 개발해 보면서 알게 된 사실이다. 그리고 이 성능 차이는 앞으로도 계속될 것이다. API를 써서 자기들이 만드는 유일한 킬러 앱인 ChatGPT와 똑같거나 더 나은 경쟁자가 나오면 안되기 때문이다.

BARD라던지 VICUNA라던지 하는 다른 경쟁 모델들을 섞어서 일종의 LLM Aggregator를 만드는 생각을 했었다. 그런데 그런게 유저 입장에서 딱히 무슨 의미가 있는지 잘 모르겠다. 유저는 결국 답을 잘 주는 한 놈만 있으면 되는거지 이게 어느 모델을 쓴거고 그런건 큰 의미가 없다.

물론 특정 주제에 대해 더 대답을 잘 주는 모델이 있을테니 질문에 따라 모델을 바꿔 대화해 ChatGPT보다 더 나은 답을 주는 Aggregator를 상상해 볼 수 있다. 하지만 이 질문이 무엇에 관한 질문인지 아는 것도 어렵고, 그 질문에 대해 더 나은 답을 가진 모델을 알아내려면 기본적으로 모든 모델과 대화해 보아야 하는데 그것 또한 현실적으로 성능 저하를 가져온다.

그러면 대충 ‘이런 주제는 과거에 이 모델이 대답을 잘했어’ 하는 경향성이나 사람의 투표 결과를 가지고 매칭을 해주어야 하는데 그 결과가 항상 단일 모델과의 대화보다 낫다는 보장이 없다. 따라서 아직은 다 상상의 영역일 뿐이고 너무 추상적이다.

Aggregator가 잘되려면 경쟁 모델간에 차이가 없어야 한다. 우리가 대한항공을 타든 아시아나를 타든 미국 가는건 똑같기 때문에 가격 비교를 해주는 스카이스캐너가 의미가 있는 것이다. 그런데 성능에 차이가 큰 모델들을 굳이 여러개 모아준다 한들 그것이 가장 뛰어난 단일 모델과의 대화보다 대체로 더 나은 성능을 가진다는 확신을 갖기에는 OpenAI에 쌓이고 있는 Human reinforcement 데이터가 현재 가장 많고, 가장 많은 GPU를 때려박고 있기 때문에 역시 쉽지 않다.

원래 네이티브는 번역으로 시작했었다. 처음 가정은 GPT가 영어로 대화할 때 Non-영어로 대화하는 것보다 훨씬 대답이 길고 정확하므로 한글처럼 Non-영어로 대화할 때는 앞뒤로 한영, 영한 번역 과정을 추가해 차라리 GPT와의 대화만큼은 영어로 하도록 하자는 아이디어로 출발했다.

실제 실험 결과 거의 모든 Non-영어 대화에 비해 영어 대화를 자국어로 번역한 결과가 항상 더 풍성하고 내용도 좋았다. 그런데 GPT-4가 나오면서 그 아이디어가 불과 한달도 안돼 무의미해졌다. GPT-4는 실험 결과 굳이 양방향 번역을 쓰지 않아도 그냥 Non-영어 대화도 잘한다.

오히려 번역을 넣으면 더 느리고 비싸지는데, Non-영어로 바로 GPT-4와 대화하는게 여러 면에서 더 경제적이다. 그래서 우리는 그 아이디어를 폐기했다. (이 지점은 또한 국산 모델들이 한국어를 더 잘 한다는 논리를 머쓱하게 만들었다. 그래서 요즘 국산 모델들은 ‘안보’를 위해 국산 모델이 필요하다는 논리로 피벗했다.)

사실 ‘네이티브’라는 이름도 Non-english speaker들을 위해 자기 Native Language로 AI와 대화하라는 의미에서 지은건데 이제는 금방 의미가 무색해졌다. 그만큼 AI 발전 속도가 빠르다는 의미이기도 하지만 AI 영역에서 잠깐씩 보이는 스타트업의 틈새 기회가 빠르게 없어질거란 말도 될 것이다.

사실 AI 비즈니스라기보다는 AI API 비즈니스의 기회라는게 더 적확한 표현일 것이다. 너무 쉬워 수준이 낮고 진입장벽이 없기 때문에 내가 할 수 있으면 남들도 할 수 있다. AutoGPT가 되었든 LangChain이 되었든, PineCone 같은 벡터 스토어를 써서 PDF의 특정 구간을 찾아주는거든 내가 할 수 있으면 남들도 다 할 수 있다. 그런 잠깐씩 보이는 아이디어들은 빠르게 비슷한게 나와 금세 새로운 아이디어가 아닌게 된다.

#5. Web3와 AI가 정말 만날까?

나는 이 질문에 대한 답은 ‘Web3쪽의 그냥 희망사항이다’라고 생각한다. AI는 모두와 만날 것이다. 그러니 Web3와도 만날 것이다. 그게 옳은 답이라 생각한다.

마침 이번주에 ‘Web3와 AI의 만남’을 주제로 강연 요청을 받았는데 글쎄 무슨 말을 해야 할까? 일단 Web3에 주로 투자하는 Paradigm이 투자 영역을 AI로 넓힌다는 기사가 지난주에 떴다. 그건 글쎄.. 펀드가 너무 큰데 Web3만 보기에는 지금 AI 움직임이 심상치 않아 당연히 확장해야 하는 방향으로 보인다.

AI의 등장으로 Web3쪽이 더 발전할 수 있는 부분은 뭔가 더 거래를 쉽게 자연어로 처리할 수 있게 해주는 분야나 AI 학습이나 파인 튜닝, Human reinforcement에 참여하는 사람들에 대한 보상으로 크립토를 활용하는 영역, 그리고 여러 생성형 AI 서비스나 캐릭터 AI 서비스들과의 유료 결제 수단으로 크립토를 활용하는 영역 이 정도 밖에는 딱히 제대로 만날만한 영역이 보이지 않는다. 아마 또 많은 프로젝트가 코인을 팔기 위해 Web3와 AI의 만남 테마를 가지고 등장하겠지만.

Web3를 제대로 하려면 한 Web5 정도 되는 시대를 사는 상상력을 가지고 메타버스와 NFT, AGI가 결합되는 세상이 머지 않은 미래에 온다는 확신을 가지고 오늘을 살아야 하는 듯 하다. 애석하게도 나의 상상력은 현실에서 멀어야 2년 정도 미래에 있기 때문에, 저런 비전을 이야기하는 사람들은 어딘가 의심부터 하고 보게 된다.

나같은 시각을 가진게 보통 많은 평범한 사람들의 시각일텐데 이 업계에 있다보면 가끔 나의 지나친 현실성과 상상력 부족이 거품이 와도 그 거품에 올라타기 영 어렵게 만들었구나 하는 생각이 자주 들었다. 지금으로서는 너무 터무니없는 미래를 이야기하는 사람들, 그래서 또 대중화되기 어렵고 그들만의 리그에 불과한 Web3 분야는 역설적이게도 그런 사람들이 다음 거품을 만들고 자기가 거품을 조장한지도 모른채 부자가 된다.

나같은 평범한 사람들은 뒤늦게 거품이 끼면 그때서 ‘NFT에 내가 미처 깨닫지 못한 대단한 가능성이 도대체 있는건가?’, ‘대체 어디에 있는건가?’ 머리를 긁적이며 살펴보지만 그때는 이미 거품이 낄만큼 낀 뒤다. 대체로 지난 6년이 비슷했던 것 같다. AI에 대해 우리는 이런 일련의 탐구 과정을 거쳐 현실적인 한계를 적나라하게 깨달았지만, Web5의 미래 시대를 사는 ‘찐 Web3인’들은 또 AI와 Web3의 만남이 미래라 강하게 주장하며 다음 거품을 창조해 낼 것이다.

나도 거품이 끼면 올라탈 수 밖에 없는 업계 사람이기 때문에 그런 버블 제조기들의 맹목적 믿음에 대해 언급할 자격도 의지도 없지만 어쨌든 나는 버블을 만들 수 있는 사람은 아니라는 것을 이제는 경험으로 알고 있다.

한가지 우려스러운 점은 Web3가 나같이 현실적인 사람도 어느정도 자리를 잡고 노력에 대한 댓가를 얻을 수 있는 분야인가 하는 지점이다. 농사를 지으면 쌀을 얻고, 게임을 개발해 잘되면 성공하지만, 이 업계는 코인을 먼저 사서 오르기를 부추기는 것 외에 진정 노동이 결실을 만드는 업계인가 하는 확신이 서지 않는다. 애초에 게임의 룰이 여기서는 저거인가 싶기도 하고.

하지만 이미 이렇게 생겨먹은 이상 우리는 계속 현실성과 노동을 추구하며 간다. 게임의 룰을 간파했든 얻어 걸렸든 잘 맞은 사람들은 쉽게 성공해 같은 게임을 반복하며 편하게 살아가지만, 어느 업종이나 그런 사람은 있지 않겠나. 내가 지금 임하는 업계에서 내가 가장 운 좋은 놈일 확률은 어디서든 아무래도 낮지 않겠나. 따라서 최선을 다해서 열심히 일한다, 그것 말고 더 무슨 수가 있겠나 싶다.

그러니 내일도 그저 화이팅!


Posted

in

by

Tags:

Blog at WordPress.com.