웍스AI를 개발하며 느낀 것들

Generative AI는 How to Make와 How to Use의 영역으로 나뉜다. 우리는 작년 2월부터 웍스AI를 개발해오며 적어도 How to Use의 영역에서만큼은 많은 노하우가 쌓였다고 생각한다. 그중 몇가지 생각들을 조금 정리해본다.

이중 일부는 얼마전 광주 인공지능산업융합사업단이 주최한 AI 스타트업 경진대회 기조 강연에서 소개한 <웍스AI를 개발하며 일년간 느낀 것들> 강의 내용을 정리한 것이다.

# Multi LLM

Multi LLM은 멋있지만 실제 데이터를 보면 유저들은 하나의 LLM만 사용한다. 2개 이상의 LLM도 사용하지 않는다. 그리고 대부분 그냥 디폴트로 제공된 LLM만 쓴다. 쉽게 바꿀 수 있는 토글을 주어도 거의 아무도 기본이 아닌 다른 모델을 ‘능동적’으로 선택해 바꾸지 않는다. 못한다는 표현이 더 맞을 것이다. 모델 간의 차이를 이해하는 사람은 사실 거의 없기 때문이다.

그런 점에서 Multi LLM은 AI 제품 제작자가 ‘보다 좋은 모델을 유저에게 제공해야 하는’ 자기 책임을 그냥 유저에게 전가한거거나 오직 마케팅적인 의미(그냥 영업할 때 “우리는 OpenAI도 되고 Claude도 되고 Gemini도 되고 LLaMA도 되고 다 돼요”) 외에는 사실 아무 효용도 없을 것이다.

# Context Management + RAG

Multi LLM을 택하는 순간 서비스는 Context management를 포기해야 한다. 만약 모델을 OpenAI의 GPT에 전적으로 의존한다면 OpenAI가 제공하는 Assistant API를 사용해 Context management를 OpenAI에 전적으로 의존할 수 있다.

의존성이 커지지만 최상의 모델을 제공하는 개발사가 직접 대화 맥락 관리도 해주는 것이기 때문에 End user 입장에서의 대화 품질 만족도는 더 커진다. 여기가 이제 서비스 개발사가 선택해야 하는 지점이다.

Assistant API는 Context management(모델의 Context window를 초과하는 긴 과거 대화의 기억과 이어 말하기) 외에도 첨부파일의 RAG도 담당하는데 이게 매우 파워풀하다.

우리도 Pinecone과 Amazon Bedrock을 이용해 한 운용사에 7년간 쌓인 데이터를 가지고 이같은 RAG를 자체 구현해 보았는데 OpenAI의 Assistant API보다 RAG 성능이 크게 떨어졌다.

Assistant API는 처음 나온 V1은 성능이 그다지 좋지 않았는데(우리는 V1이 처음 나온 작년 12월 27일에 국내 최초로 베타 상태의 Assistant API를 웍스AI 서비스에 전면 도입하는 모험을 해봤었다), V2가 나오면서 RAG 성능이 눈에 띄게 좋아졌다.

그리고 별도로 버전업을 하고 있지는 않지만 V2 출시 이후로도 나날이 대답 품질과 안정성이 개선되고 있는 것이 느껴진다. 그래서 이 글을 쓰는 2024년 9월 지금은 적어도 OpenAI GPT 모델 + Assistant API V2 조합을 이길 수 있는 조합은 사실상 없다고 생각한다.

그리고 만일 조만간 GPT5 + Assistant API V3가 나온다면, Multi LLM 구현을 위해 필수적인 자체 Vector DB + 약간의 RAG 최적화 세팅 조합은 대화 품질 면에서 차이가 더욱 현격히 벌어질 수 있다고 생각한다.

그런 면에서 우리가 Assistant API를 일찍이 작년 말 이미 많은 사람이 사용중이던 상용 제품에 도입한 것은 매우 위험한 도전이었으나(왜냐면 우리 DB에 있던 대화 내역을 싹 날리고 모든 대화 관리를 전적으로 OpenAI에서 하는 의사결정을 한 것이므로) 결과적으로 성공한 베팅이었다고 생각한다. OpenAI의 경쟁자들이 많이 생기고 있으나 여전히 가장 잘할 가능성이 높기 때문이다.

최근 우리 웍스AI에도 기업들의 도입 문의가 늘고 있는데, 이런 기업들은 크던 작던 자체적으로 AI 프로젝트를 진행해 본 경험이 있는 회사들이 대부분이다. 기업 내 데이터를 가지고 자체적인 Vectorize와 RAG를 이리저리 시도해 보았지만 결국 OpenAI의 Assistant API V2와 성능 비교를 해본 후 그간의 노력이 무색하게 느껴져 현타가 온 회사들이 많다.

어쨌든 우리는 한국에서 Assistant API를 가장 오래 상용 서비스에서 써왔고, 그간 GPT API를 가지고 이러저러한 튜닝(모델에 대한 파인튜닝이 아닌 운영상의 노하우)을 거쳐 수십만 고객의 대화를 성공적으로 처리하고 있기 때문이다.

우리는 어제 기준 하루 3천만 토큰을 처리했는데, 이 정도 대화가 실제 유저들에 의해 매일 일어나고 있는 생성형 AI 서비스는 단연 국내에 몇개 안될 것이다. 그리고 어느새 우리가 서비스를 운영한지 1년 반이 지났는데, 이렇게 오랜 기간 누구나 사용해 볼 수 있는 공개 생성형 AI 서비스를 안정적으로 운영해 온 경우도 별로 없을 것이다.

그리고 우리는 이 서비스를 매월 10차례 이상 업데이트하고 있다. 처음에는 단순 ‘GPT Wrapper’라 생각해서 무슨 경쟁력이 있겠나, 무슨 해자가 있겠나 우리도 생각했었는데 지금은 그렇게 생각하지 않는다. 월 10번이면 지난 18개월간 180회 업데이트인데, 그러면 지금 요이땅 해도 누구나 그정도 시간과 노력이 필요할 것이기 때문이다.

따라서 똑같이 GPT API를 가져다 썼어도 우리는 고객과 API 사이의 이른바 ‘Service Layer’를 만들고 있는 팀이고, 이것이 처음 생각보다 굉장히 많은 노력이 들어가는 일이라서 충분히 해자가 될 수 있겠다고 생각이 바뀌게 되었다.

마치 세상의 모든 웹사이트를 단지 링크만 해놓은 Google이나 이미 있던 모든 항공사/여행사 사이트를 단순 모아 놓기만 한 SkyScanner, Hotels.com, Expedia가 큰 비즈니스가 된 것처럼 우리같이 좋은 AI API들을 모아서 고객이 먹기 쉽게 나름의 기술적/프롬프트적/UX적 노하우들로 풀어 놓은 것도 충분히 고객이 모이고 시간이 쌓이면 인정할 수 밖에 없는 새 제품 영역 중 하나로 자리잡아 갈 수 밖에 없다고 본다.

그야말로 AI 모델의 API화(AI as a Service)로 인해 과거에는 불가능했으나 이제는 가능해진 서비스 중 하나인 것이다.

다시 본 소주제로 돌아가면 Context management + RAG는 앞으로 AI Assistant의 당연한 Component 중 하나일텐데(그리고 유저들은 물처럼 그냥 쓰는거지 굳이 몰라도 되는) 이것도 Multi LLM이 세일즈적 필요성에 의해 대세가 되면 Context management as a Service, RAG as a Service와 같이 Multi LLM을 위한 통합 과거 대화 맥락 관리 서비스, 어느 모델을 쓰든 관계없이 고성능을 발휘하는 별도의 RAG 서비스 등이 나올 수 있다고 생각한다.

Langchain이 그런 Multi LLM을 위한 프레임워크를 쉽게 만들고 있는데, 아무래도 S/W 역사에서 범용성을 지향하는 순간 맞춤형, 전문성을 포기해야 하기에 모델 개발사가 자기 모델을 이해하고 만드는 맥락 관리 서비스에 비하면 분명 깊이 들어가지 못하는 성능차가 있으리라 본다.

(우리도 Multi LLM과 토큰 비용 절감을 위한 대화 캐싱을 고민하며 Langchain을 계속 테스트 해왔지만 결국 이런 프레임워크는 상용 서비스의 니즈를 100% 충족하지는 못했다. 언제나 프레임워크는 개발 시작이 빠를 뿐, 제품 복잡도가 증가하면서 커스터마이징이 불가피하다.)

거꾸로 생각해보면 모델 개발사라면 결국 자기 모델 고객들을 위해 Context Management + RAG까지 쉽게 호출해 쓸 수 있는 형태의 ‘통합 패키지’로 가져가야 하는 것은 아닌가 싶다. 물론 서로 다른 모델 업체들이 개발한 서로 다른 이같은 맥락 관리 컴포넌트들 간의 상호호환성도 중요한 과제가 될 것이다.

아마도 서로 다른 블록체인간 호환을 위한 Interchain 논의에서도 유사했듯이 상호호환은 최소한의 기능/데이터에 한정하고 deep한건 특정 모델 종속적으로 가져가게 되지 않을까 한다. 모델 종속적인 우리만의 Unique한 기능을 쓰려면 결국 호환성을 포기하고 특정 모델을 써야하는 수준으로.

모델들이 다 상향평준화 되어 고만고만해지면, 결국 그런 모델 +α의 API 기능들이 우리 모델을 쓸 수 밖에 없게 만들 중요한 차이점이 될지 모르고.

# 해보니 기술이 다가 아니다

기술 얘기로 문을 열었지만 운영을 쭉 해보니 기술이 능사는 아니다. 앞서 우리가 여러 고민과 시도를 거치며 선택한 기술은 기본이고 이제 그 위에 운영의 묘, 과금의 묘, 그리고 고객의 니즈 3박자가 또한 중요했다.

운영의 묘는 당연히 우리가 운영하는 웍스AI가 업무용 AI 개인 비서 서비스이다보니 업무 시간 중에 문제가 생기면 안되고 데이터 보안이 특히 중요했다. 그래서 데이터 관리 책임에 대한 약관을 강화하고 Azure OpenAI를 사용하는 등 할 수 있는 최선의 보안을 강화해 왔다.

최근에는 기업들이 사내에서 주로 쓰는 Microsoft AD(기업 계정) 연동, MS Office 365 사용 기업들을 위한 문서 암복호화 기술인 AIP 연동, 기업 내부망에서만 서비스에 접근할 수 있도록 하는 ADFS 도입, Teams 연동 등 기업들을 위한 다양한 부가 서비스를 붙이고 있다.

과금의 경우 개인은 처음에 월 9,900원 정액제로 했다가 지금은 사용량을 바탕으로 24,900원 정액제를 최저 요금으로 하고 있다. 이는 과거 다른 서비스들 운영 경험에 의한 가격 책정이었는데, 아주 적은 요금을 내는 다수가 있는 것보다 약간 부담스런 금액을 내는 소수의 유저가 있는 것이 재무적으로는 더 건실하다.

또 ChatGPT 대비 명확한 차별점이 있어야 할거 같아 개인들에게도 한동안 종량제 실험을 했다. 그러나 결제되는 날 일부러 카드를 부도내는 고객들이 더러 있어 개인의 경우는 월정액으로 회귀하게 되었다. (하지만 그 덕에 Input/Output 토큰을 모델별로 정확히 측정해 요금을 과금하는 요소 기술을 내재화했고, 이는 현재 기업용 버전에서 요긴하게 사용되고 있다)

기업들에게는 매월 $30을 내야 하는(ChatGPT Enterprise 버전은 개인용의 월 $22보다 더 비싸다) 부담이 매우 크게 다가온다고 하여(직원들 수백, 수천명 분을 매월 내주어야 하니) 웍스AI의 기업용 버전은 쓴만큼만 내는 종량제로 제공하고 있다. 우리 사용량 데이터를 바탕으로 한 가격 시뮬레이션을 보면 기업들은 ChatGPT 월정액 버전 대비 거의 90% 이상 저렴한 비용으로 웍스AI 기업용 버전을 도입할 수 있다.

그리고 우리는 일종의 ‘업무용 AI 편집샵’으로서 GPT뿐 아니라 Claude, DeepL 등 각 목적별로 좋은 AI 모델을 두루 이용할 수 있는 것이 특징이다. 사내 데이터를 RAG 하는 AI와의 대화는 앞서 설명한 이유에 의해 GPT에 의존하지만, 문서 작성, 문서 번역 등 다른 기능들은 선택적으로 다른 AI 모델을 사용해 ‘업무상 편의’라는 고객 목적을 달성하기 위해 노력하고 있다. 따라서 ChatGPT 하나만 월 $30 내고 쓰는 것보다 기능은 더 많으면서도 훨씬 더 저렴해 기업들에게 좋은 선택 대안이 되는 것을 목표로 개발하고 있다.

또한 기업 고객들은 비용 부담 외에도 직원별, 부서별 사용량에 대한 실시간 파악, 대화 양상의 이해 등이 매우 중요한 지점이었는데 이런 것들을 요새 고객을 만나며 하나 하나 파악해 제품에 녹이는 작업을 하고 있다.

# 큰 고객들과 함께 발전중인 가장 앞선 업무용 AI 비서 솔루션

고객의 이야기를 먼저 들으며 제품을 개발하니 블록체인 제품을 만들 때와는 다르게(블록체인은 항상 우리가 먼저 ‘이런게 필요하겠지’ 상상하고 제품을 만든 뒤 시장에 출시해 판단을 받곤 했다. 그리고 이 과정은 제작사로서 언제나 매우 어려웠다) 제품이 고객 니즈에 착 붙어서 발전하게 된다. 그리고 그러다보니 시간이 쌓임에 따라 자연스레 고객에게 더 유용한 제품이 되어 간다는 확신이 서게 된다.

아마 조만간 우리 웍스AI 기업용 버전을 도입한 사례를 소개하는 기회가 있을 것이라 생각한다. 참고로 이야기하면 대기업 계열 SI 3사와 국내 최상위 클라우드 MSP 업체들과의 경쟁 입찰을 뚫고 웍스AI가 제품 평가 1위로 어느 대기업 전 계열사가 쓰는 업무용 AI 비서 솔루션으로 채택되었다.

아무래도 다른 회사들은 고객들이 ‘챗GPT 같은거 우리도 필요해’라는 이야기를 듣고 만들기 시작한거라 급조된 면이 강하다. 하지만 우리는 이미 작년 3월 누구나 쓸 수 있는 제품으로 출시해 1년 반 이상 수십만명의 직장인이 이용하며 발전해 온 제품이기 때문에 기능도 훨씬 더 많고 필드에서의 안정성도 더 뛰어나다.

현재 웍스AI의 개인용 버전은 누구나 웹과 앱에서 ‘웍스AI’를 검색해 이용할 수 있다. 기업용 버전은 sales@wrks.ai 로 연락해 도입 문의를 할 수 있다. 이제 대기업도 심사 평가 1위로 믿고 쓰는 솔루션이 되었다.

제품이라는 것은 사실 한번만 써보면 대부분 뭐가 더 좋은지 바로 알 수 있기 때문에, 웍스AI 기업용 버전을 한번이라도 접한 사람들은 아무리 다른 회사들의 규모가 커도 선뜻 다른걸 쓸 수 없는 상황인 것이다. 최소 1년 이상 앞선 제품이므로.

우리 고객은 이를 두고 ‘다른 제품들은 이제 겨우 Text 대화만 딱 되는 수준으로 만들어 놓았는데 웍스는 그에 비해 이미 훨씬 더 앞서 있다‘고 말했다.

마지막으로 금액을 떠나 아주 유의미한 일이 하나 있다. 역시 조만간 발표할텐데 생성형 AI 등장 이래 생성형 AI를 가장 잘 사용해 온 직업군이 있다. 바로 교육자들이다. 교육자들의 업무 중 상당 부분은 교육 외에 행정 업무도 포함되는데, 이 일은 우리 모두 학생이거나 학부모였기에 짐작할 수 있듯 매우 크다. 그리고 루틴한 일들이 꽤 많다.

그런 일들은 AI가 돕기에 아주 적절한 일들이고, 교육자들이 교육 본연에 집중할 시간을 더 가질수록 교육 품질이 향상될 수 있다. 그리고 이는 결국 모두와 사회를 위해 좋은 일이다. AI 기술 도입에 따른 시대 변화의 큰 흐름 위에서 그런 일에 기여할 수 있는 기회가 생겨 웍스AI 팀이 노력하고 있다. 많은 생성형 AI 회사들이 바라던 일인데 운 좋게 우리가 그 일을 맡을 수 있게 되었다.

모두가 우리 제품을 먼저 사용해보고 만족한 사용자들이 만들어 준 기회들이다. 그리고 우리는 이러한 기회들을 계속 잘 이어서 더 많은 직장인들에게, 더 많은 회사들에게, 더 많은 직업군에게 ‘AI로 인한 업무 혁신’을 경험하게 해주고 싶다.

작년의 우리 제품은 지금보다 확실히 못했고, 지금의 우리 제품은 내년보다 확실히 못할 것이다. 그러나 우리는 남들보다 먼저 시작해 훨씬 많은 ‘업무 특화’ 고객들을 가지고 있고, 이는 분명 하루하루 우리가 어제보다 더 나은 제품을 만드는 원동력이 되고 있다.

곧 웹 상에서 기업들이 누구나 직접 가입해 쓸 수 있는 SaaS 버전이 나올 예정이지만, 지금도 50명 이상의 조직이라면 누구나 위 메일 주소로 연락해 웍스AI의 기업용 버전을 다른 솔루션들과 비교해 보고 SaaS 또는 설치형으로 도입할 수 있다. 비교를 꼭 해보시기를 바란다. 우리는 진정으로 기업들이 업무에 더 도움되는 AI 비서 솔루션을 도입해야 한다고 믿기 때문이다.

# 나가며

기타 이 글을 읽으시고 제휴/협력, 기타 문의 등 생성형 AI 서비스 개발을 고민/준비하고 있거나 웍스AI와 함께할 수 있는 일이 있어 보이는 회사가 있으면 역시 위 주소로 연락 부탁드린다.

부족한 내용이었으나 지면의 한계로 제품을 만들며 느낀 것들 중 극히 일부 밖에 소개를 못했고, 쓰다보니 홍보가 되었으나 지난주 <코리아 핀테크 위크> 부스를 운영하며 느낀게 있다. 부스를 방문한 분들 중 AI 관련 업체나 부서들의 고민이 대동소이하다는 것이다. 모델이니, RAG니, 내부망 보안이니, 금융 규제니…

그런 점에서 이 글에서 쓴 내용들은 대부분이 만들면서 비슷한 고민을 했던 지점들이었으리라 생각한다. 각자의 이해관계와 상황, 전략적 판단 등으로 인해 다른 결론을 내릴 수 있었겠으나 Generative AI의 How to Use의 영역에서의 고민 지점들은 비슷비슷할 것이다. How to Make를 해야 하는 빅테크들의 고민은 또 상당히 다르겠으나 How to Use를 해야하는 회사들의 고민은 대체로 비슷할 것이다.

그래서 부스 운영하며 대체로 비슷한 질문들을 보내시고 나도 비슷한 답변들을 하면서 약간의 안도감도 느끼고 또 한편으로는 이 다음 단계로 나아가야 한다는 고민도 생겼다. 어쨌든 가장 중요한 것은 우리가 먼저 시작해서 계속 이 현장에서 제품을 만들고 고객을 만나며 고민의 깊이를 키우고 있다는 점일 것이다. 생성형 AI를 어떻게 잘 쓸 것이냐는 것은 모두 동일선상에서 출발한 것이라 이 고민을 현장의 데이터를 목도하며 얼마나 깊이 오래 하고 있는냐가 결국 차이를 만들 것이기 때문이다.

어쨌든 무조건 하면서 배우는게 언제나 나았고 이번에는 특히나 그랬다. 작은 차이가 고객을 실제 생기게 하고 있는 점도 놀라운 지점이다. 더구나 우리가 AI 회사가 아닌데 어느새 진짜 AI 회사들이 갖고 싶었던 대형 고객들을 갖게 되었다는 점도 놀라운 부분이다. 그러고 보면 우리도 어느새 진짜 AI 회사가 된 것인지도 모른다. 부끄럽지만 적어도 How to Use의 영역에서만큼은 말이다.

마지막으로 최근에 나는 두 프로젝트를 하다가 프롬프트 엔지니어링의 중요성에 새삼 놀라지 않을 수 없었다. 사실 모델이 상향평준화되면 프롬프트 엔지니어링이라는 용어 자체가 사라질 다소 과도기적 현상이라고 개인적으로 생각하고 있었다. 그런데 동일 모델에서 아주 길고 고난도의 프롬프트가 들어간 챗봇들의 성능이 비교불가하게 바뀌는걸 목도하며 이 부분도 생각할 지점이 되었다. 이런 주제들은 추후 후속 글에서 다뤄보고자 한다.

웍스AI를 개발하며 느낀 것들

Comments

One response to “웍스AI를 개발하며 느낀 것들”

웍스AI를 개발하며 느낀 것들

Share this:

Comments

One response to “웍스AI를 개발하며 느낀 것들”