어떤 제품을 만들어 갈 것인가?

우리가 새해 출시를 목표로 개발중인 이미지 생성 전문 도구를 어느 고객사 담당자(대기업 SI에서 오신)에게 보여주었는데 ‘장난감 같다’고 말했다. 그 의미에 대해 곰곰이 생각해 보았는데 AI를 좀 본 사람들은 Manus나 Genspark 같은 소위 ‘Agentic AI’ 시스템만이 ‘미래다, 멋있다’고 생각하는 경향 때문인거 같다.

그런데 막상 그런 시스템이 폼나긴 해도 실제 자주 쓰게 되나? 나는 대화형 UI가 갖는 한계가 매우 크다고 생각한다. 그런 사람들이 생각하는 ‘쿨한 AI’는 2026년에 우루루 출시되겠지만 나는 대부분 현업에서 잘 사용되지 않을 것이라 생각한다.

당장 우리만 해도 지금 주요 그룹사 중 한 곳과 협업해 전자결재부터 출결/근태, 휴가 정보 등 그룹웨어에 있는 온갖 레거시 정보를 끌어와 웍스AI에서 질문할 수 있는 기능을 만들고 있다. 처음 보면 진짜 멋있다. 사용자가 딱 질의하면 적절한 MCP를 호출해 권한을 체크한 후 사내 데이터를 참고해 줄줄줄 빠르게 대답한다. 아주 쿨하다.

자연어로 “몇시에 어느 회의실 예약해줘” 하면 예약되고, 뭐 멋있다. 그런데 사용자가 진짜 그렇게 쓸까? 나는 아니라고 본다. 이미 익숙한 시스템이 있기 때문이다. 이미 그룹웨어에 들어가서 회의실 예약하는걸 수천명이 맨날 쓰고 있는데, 굳이 대화형으로 해야 하나? 그게 신기하긴 해도 실용적인가?

나는 많은 Agentic AI가 올해 이런 근본적인 질문에 맞딱뜨리게 될 것이라 본다. ‘그게 신기하긴 해도 실용적인가?’ 아마 지금 만들면서도 출시 전부터 이미 현타 오고 있는 사람들도 업계에 많을 것이다. 사실 만드는 사람이 제일 먼저 안다. 이게 신기하긴 해도 그닥 실용적이진 않다는 사실을.

사람이 하면 5분이면 될 일을 AI를 시켰더니 엉터리로 해오고 30분 걸리고 이런 일들이 비일비재하게 될 것이다. 물론 거꾸로 케이스도 분명 있겠으나 그런 업무를 잘 골라서 제품화하는게 우리 같은 회사가 앞으로 집중해야 하는 영역이다.

예컨대 2개 엑셀 파일을 올리고 “A 파일에 있는 이런저런 정보를 B 파일에 채워줘” 이런건 유용하다. 모든 직장인에게 보편적으로 도움될 수 있기 때문이다. 그리고 기존에 안되던 일이기 때문이다.

그러나 ‘내 이메일 읽어줘, 이리저리하게 답장 써줘’, ‘장보고 회의실 오늘 일정’ 이런건 유용하지 않다. 왜냐면 원래 쓰던 것이 이미 충분하기 때문이다. 누가 이메일을 이메일 클라이언트에서 읽지 AI 대화에서 읽고 쓰고 싶겠냐 이 말이다.

처음 한두번 신기해서 물어보지만 현실적이지 않다. 그걸 구분해내지 못하면 제품을 만들 수 없다. 정확히는 제품은 아무나 만들지만 좋은 제품은 만들 수 없다. AI에서도 똑같다. 어떤 의미에서는 그래서 대기업 SI들이 제품으로 우리를 이길 수 없는 이유이기도 하다. 거기는 세일즈를 위해 ‘와 신기하다, 폼난다’ 이게 더 먼저이기 때문이다. ‘실제 쓸까? 유용할까?’를 생각하는 우리와는 KPI가 완전 다르다.

그런 맥락에서 ‘장난감 같다’는 표현은 어떤 점에서는 우리가 나름의 해자를 구축중이라 생각해 볼 수도 있을 것이다. 모두가 가는 방향과 좀 다른 방향으로 우리는 가고 있다. 물론 코어는 Genspark, Manus처럼 MCP-A2A-Multi Agents Orchestration으로 가고 있지만 거기에 올인하지는 않는다.

AI는 기능에 따라 별도 UI가 더 쉽고 유용한 것이 분명히 있고, 대화형 에이전트가 더 편리한 곳도 있기 때문이다. 나는 그간 여러 훌륭한 개발자들, 동료들, 파트너들과 협업하며 이 문제에 대해 어렴풋한 기준을 세울 수 있게 되었다.

  1. 같은 기능을 쓰기 위한 더 익숙한 대안이 있는가?

    위 이메일이나 그룹웨어에서 휴가 및 회의실 예약을 찾아보는 것들. 이런 것은 갑자기 어느날 아침부터 AI 대화로 되니까 옮겨가세요 하기 쉽지 않다. 사람들은 익숙한걸 그냥 쓴다.
  2. 생성 결과물이 온전히 텍스트인가? 멀티 모달인가?

    출력물이 100% 텍스트-글, 코드 등-라면 대화형이 익숙할 수 있으나, 이미지, 동영상, 오디오, PPT, 라이브 앱 같은 거라면 대화형에 끼워 넣는 것은 오히려 편리함을 망칠 수 있다.

    사용자는 일단 기다리지 않으며 무슨 Human-in-the-loop 같은걸 딱 처음에 한번만 신기해하고 그 이후로는 귀찮아한다. 그런건 폼나지만 AI에서 가장 쓸데없는 기능 중 하나다. 그냥 UI로 변수 입력 받는게 빠르고 익숙하다.
  3. 사람이 쓰는 에이전트인가? 기계가 쓰는 에이전트인가?

    A2A나 여러 에이전트가 협업해 일을 수행해 오는 시스템을 위해 일부 컴포넌트로 기능할 수 있는(기능 해야만 하는) 에이전트들은 불가피하게 대화형으로 짜야만 할 수도 있겠다 생각한다. 그러니까 이런건 결국 사람이 쓰는게 아니라 그냥 기계가 쓰는 에이전트인가가 논의의 출발점에 있는거 같다.

    기계가 쓸거라면 MCP를 중간중간 엄청 호출해 쓰고 컨택스트 창이 더러워지고 줄글이 엄청 대화창에 쌓이고 아티펙트를 막 만들었다 없앴다 어쩌구 하더라도 결국 ‘내가 볼거 아니니까’ 큰 상관 없겠다 싶다. 그런데 사람이 쓸거라면 이야기가 달라진다.

    그 문제 풀이 과정이 매우 지리하고 피곤하기 때문에(하다 못해 사람들은 AI 모델이 추론하는 그 10-20초의 시간 조차 기다리며 매우 답답해한다) 사람이 쓸거라면 꼭 그런 오버스러운(적정 기술 vs. 과잉 기술) UI/UX가 필요한지 잘 생각해 보아야 한다.
  4. 그동안 제공되지 않던 가치를 제공하는가?

    위 1번, 3번과 연결되는 이야기인데 결국 그동안 똑같이 제공되던걸 그냥 ‘AI와 대화하면서도 할 수 있어요’ 이렇게 되면 아무 의미가 없다. 그러나 과거에 안되던걸 되게 하면 그것은 그 가치에 따라 5분이고 20분이고 1시간이고 기다릴 의미가 생긴다.

    따라서 대화형 (단일 또는 다중) 에이전트가 추구해야 하는 방향은 전례없이 처음 보는 압도적인 업무 생산성 향상을 시켜주는 경험이다. (마치 이번 NotebookLM의 슬라이드 기능처럼 충격적이고 직접적인) 오직 그것만이 수많은 양산형 ‘에이전트 호소인’들 중 진짜를 걸러주는 필터가 될 것이다.

물론 길게 보면 관리 측면에서 모든 도구를 표준화해 대화형 에이전트로 만들어 놓아야만 나중에 A2A가 제대로 돌면서 상호 무한한 협업 조합이 가능할 것이라 생각해 볼 수도 있을 것이다. 그리고 나중에 음성 인터페이스 같은게 본격화 될 때 표준화된 대화형 에이전트 간의 상호 연결이 매우 큰 인프라가 될 수 있다고 보는 시각도 있을 수 있다.

하지만 나는 제품이 딱 거기 멈춰져 있는게 아니라 어차피 그 시대의 요구와 사용자의 수용 가능성에 따라 계속 진화하는 것이 맞다고 본다. (실제로도 지난 20년간 인터넷은 계속 리뉴얼되어 왔다.) 제작자로서 내가 보는 AI는 아직 사용자가 UI를 벗어나 대화형으로 한방에 다 옮겨가리라 보는 것은 다소 급진적이라는 입장인 것이다.

채팅이 서비스 이용의 기초가 되는 ChatGPT가 그런 생각(모든 일을 대화로 할 수 있다)을 갖게 했지만 사실 모든 일을 대화로 하는 것은 불편하다. ‘쇼핑을 대화로 할 수 있다’이지 ‘대화로 하는게 정말 편한가?’는 사실 냉정히 따져볼 일이다.

그래서 우리는 새해에 폼나는 AI가 아니라 적정 기술, 유저가 더 빠르고 편하게 AI의 효용을 느낄 수 있는 방식으로 서비스를 만들어 갈 것이다. 더 많은 ‘장난감’들로 무장해 아무도 가지 않는 방향으로 AI를 잘 모르는 사람도 업무와 생활 속에 AI를 자연스럽게 스며들게 만들 것이다.

새해 첫날 새벽 4시 반에 눈이 떠져 이리저리 맑은 정신으로 일을 좀 보다가 어떤 제품을 만들어야 할 것인가 생각을 다시금 정리해 보았다. 다음주부터 여러 신입 PM과 개발자들이 들어오는데 제품을 만드는 회사로서 우리만의 색깔이 있어야 한다는 생각에 몇자 적어보았다.

우리 팀이 어떻게 새해를 항해해 가는지, 어떤 제품을 딜리버리해 가는지 새해에도 시장이 많은 관심을 가지고 지켜보기를 바란다.


Posted

in

by

Tags: