이제 내년쯤 사내외 DB를 직접 콜해 맥락에 마구 실어주고, 액션까지 취하는 본격 에이전트의 시대가 오면 토큰 사용량이 어마어마해질 것이다. 단순히 유사 청크만 실어주는 RAG와는 달리 그냥 무지막지하게 맥락에 실릴 것이다.
대부분의 MCP가 토큰 최적화가 안되어 있을 것이고, 쿼리하는 사내외, 공공 DB들도 이미 AI 시대 이전에 만들어진 것들이 대부분이라 AI를 위한 설계가 전혀 안되어 있을 것이기 때문이다.
그래서 내년 하반기쯤 되면 모든 모델이 다 상향평준화 되고, 그리 되면 이제 온디바이스나 누가 더 비용 효율적으로 서빙하는지가 중요해질 것이다. 어차피 지능은 대부분 모델이 다 좋고, 에이전트를 위해서는 Context window 크고 tool calling 잘되는 모델, 그러면서도 서빙이 무지 싼 모델을 찾게 될 것이다.
소비자는 몰라도 적어도 그런 에이전트를 제공하는 우리같은 사업자들은. 그러면 결국 그런 가성비 좋은 모델을 선택한 우리의 마음과 약간의 브랜드빨에(ex. GPT-5를 꼭 쓰고 싶어하는 소비자) 의해 고객이 쓰게 되는 모델이 결정될 것이다.
정리하면 1) 무식한 MCP들을 위해 맥락(context window)이 무지 크고, 2) 토큰을 왕창 왕창 써도 그냥 무지 싸고, 3) 사용자 요청에 맞게 MCP 분기(tool calling) 잘하는 모델 중 4) 충분히 괜찮은(최상일 필요 없음) 지능을 가진 모델이 히트할 것 같다.
그것은 국산 모델일 수도 있고, 외산 모델일 수도 있다. 뭘 써도 상관없고 엔드 유저는 사실 모를텐데 그냥 위 네가지 요건에 부합하는 모델이 두외에 손과 발, 팔 다리가 왕창 붙는 에이전트 시대에 가장 성공하는 모델이 될 것으로 보인다.
그래서 어쩌면 4번보다 1-3번이 충족되는 sLLM이나 파라미터 낮아 저사양 로컬 기기에서도 돌릴 수 있는 그런 모델이 더 실용적으로 소비될 수 있을거 같다. 모델 개발도 매우 전략적으로 해야할거 같다. 그냥 최신/최상위/최고 파라미터보다는 실제 수요가 클법한 세그의 모델을 전략적으로 개발하는게 좋을거 같다.