중국 AI 모델 쓸 때 진짜 문제는 성능이 아니라 데이터 국외이전입니다
DeepSeek·Qwen·Kimi 성능은 이제 GPT-4급입니다. 한국 회사가 막히는 건 성능이 아니라 데이터 국외이전이었습니다. 중국 API 대신 오픈웨이트를 국내 서버에 셀프호스팅하는 게 규제 산업에서 유일하게 깨끗한 길인 이유를 정리했습니다.
오늘 한 클라이언트에 어떤 LLM을 붙일지 검토하다가, 중국 모델 이야기를 정리하게 됐습니다. 결론부터 말씀드리면 성능은 이제 고민거리가 아닙니다. 진짜 갈림길은 "데이터가 어디로 나가느냐"였습니다.
성능 격차는 거의 사라졌습니다
DeepSeek V3·R1, Qwen3, Kimi K2(Moonshot). 작년까지만 해도 "중국 모델은 데모용"이라는 인식이 있었는데 지금 코딩·수학·추론 벤치마크를 보면 GPT-4o·Claude 상위권과 같은 칸에서 겨룹니다. 특히 추론(R1 계열)과 코드 생성은 실무에 바로 쓸 수준입니다. API 단가는 같은 작업 기준으로 GPT-4o의 몇 분의 1입니다.
그래서 처음엔 단순하게 생각했습니다. "비용은 몇 분의 1이고 성능은 비슷하니, API 붙이면 끝 아닌가?" 여기서 막혔습니다.
막힌 지점은 API였습니다
중국 클라우드 API(Alibaba DashScope, DeepSeek API, Moonshot)를 그대로 쓰면, 입력 데이터가 중국 서버로 넘어갑니다. 사업자들은 "B2B API는 기본적으로 학습에 안 쓴다"고 명시합니다. 그건 사실에 가깝습니다. 하지만 학습 여부와 별개로 데이터가 물리적으로 국경을 넘는다는 사실은 그대로입니다.
한국 고객, 특히 개인정보를 다루는 회사라면 이게 곧장 걸립니다. 개인정보보호법상 국외이전 동의·고지 절차가 필요하고 금융·의료·공공처럼 규제 강한 곳은 사실상 못 씁니다. 중국 쪽 데이터 수출 규제와 검열 레이어까지 고려하면, "싸고 성능 좋다"는 장점이 무색해집니다.
깨끗한 길은 오픈웨이트 셀프호스팅 하나였습니다
여기서 핵심을 다시 봤습니다. DeepSeek와 Qwen은 오픈웨이트 모델입니다. 가중치를 직접 받아 국내 서버(또는 국내 리전)에 올려 돌릴 수 있습니다. 그러면 모델은 중국산이지만 데이터는 단 한 번도 국외로 나가지 않습니다.
규제 산업 고객에게 중국 모델을 권할 수 있는 길은, 솔직히 말씀드리면 이거 하나뿐이었습니다. "중국 API 호출"이 아니라 "오픈웨이트를 국내에서 셀프호스팅".
물론 공짜는 아닙니다. 큰 MoE 모델을 직접 굴리려면 GPU 인프라가 듭니다. 소규모 팀이라면 그냥 API가 싸고 빠릅니다. 그래서 실제 판단 기준은 단순합니다. 다루는 데이터가 국외로 나가도 되는 성격이면 API, 안 되는 성격이면 오픈웨이트 셀프호스팅. 모든 클라이언트한테 셀프호스팅이 필요한 건 아닙니다.
다음에 또 "중국 모델 써도 되나요?" 질문을 받으면, 성능 표 대신 이 한 줄로 시작해야겠습니다. "그 데이터, 국외로 나가도 되는 데이터인가요?"
우리 회사 데이터에 어떤 모델·구성이 맞을지 막막하면 3분 AX 진단에서 점검하거나 30분 무료 상담에서 함께 정리합니다.
공유