뜨거운감자 제2의 인공지능 모델 딥시크(DEEPSEEK)

뜨거운감자 제2의 인공지능 모델 딥시크(DEEPSEEK)

딥시크의 출현

근래 들어 가장 뜨거운 관심사는 무엇보다 AI의 기술이라고 해도 과언이 아닐 것입니다. 특히, 구글의 딥마인드나 OPEN AI의 chatGPT 등 AI 공룡기업들의 뛰어난 고성능 AI모델이 계속해서 공개되고 있는 상황입니다. 그런데 중국의 한 스타트업이 chatGPT의 유사품인 ‘딥시크(Deepseek)’를 세상에 내놔 큰 충격을 주고 있습니다. 딥시크는 중국의 헤지펀드 회사인 ‘환팡퀀트’의 인공지능 연구 부서에서 출발했습니다. AI기술을 금융 분석에 적용하던 환팡퀀트는 복잡한 데이터 문제를 해결할 수 있는 고성능 AI모델의 필요성을 느꼈었고, 이를 기반으로 딥시크라는 독립적인 AI 스타트업을 설립하게 됩니다. 특히 딥시크는 연구 초기부터 ‘효율적인 개발비용’이라는 포커스를 맞춰 고성능 AI모델 개발 전략을 추구했다고 합니다.

이미지1.png

딥시크의 공개가 주목을 받는 이유

1/10수준의 개발비용

현존하는 다양한 AI모델들이 있음에도 딥시크가 특히 집중을 받는 이유에는 인공지능모델을 개발하는데 들인 저비용에 있을 것입니다. 실제로 약 80억원(미국 빅테크기업의 비용 1/10 수준)이라는 인공지능 업계에서는 상상도 못 할 적은 훈련비용만으로 유사 모델들의 성능과 큰 차이가 없다는 것이 그 자체로 대단한 일이라 할 수 있을 것 같습니다. 딥시크의 R1은 기존 AI모델들이 10만개의 GPU를 사용한 것과 달리 약 2,000개의 엔비디아 H800칩(GPU)만으로 모델개발에 성공해 혁신적인 성과를 보여 주었습니다. AIME 2024(79.8%), MATH-500(92.3%), MMLU(89.8%) 등 대부분의 AI 모델 평가 플랫폼에서 오픈AI 모델과 유사하거나 더 나은 성능을 보여주고 있습니다. 특히 '혼합 전문가' 방식과 FP8(8비트 부동소수점) 기술을 도입하고, 강화학습(Reinforcement Learning)에 집중해 학습과 추론 비용을 획기적으로 절감하는데 효과를 얻어냈습니다. 이를 통해 토큰당 비용을 0.10-1.10달러로 책정해 기존 모델 대비 30-50배 저렴한 이용료를 실현할 수 있었다고 합니다.

이미지2.png

모델성능

R1 모델을 살펴본 실리콘벨리 AI 전문가들은 그저 놀라움을 금치 못했했습니다. 딥시크-R1의 성능은 오픈AI의 최신 모델인 GPT-4o와 Claude-3.5-Sonnet과 같은 SoTA 모델과 유사하거나 뛰어난 성능을 보여주고 있었기 때문입니다. 그렇다면 딥시크는 어떻게 저비용으로 높은 성능을 유지 할 수 있던걸까요 그 기술의 핵심은 바로 Mixture of Experts(MoE) 아키텍처와 8비트 부동소수점 연산 기술에 있습니다. 첫 번째로 Mixture of Experts(MoE) 아키텍처는 기존 AI 모델은 하나의 거대한 신경망이 모든 작업을 처리하는 방식이었습니다. 하지만 MoE방식에서는 여러 개의 작은 전문가 모델이 존재하며, 각 전문가가 특정 작업을 담당하게 됩니다. 예를 들어, 딥시크의 V3모델은 총 6,710억 개의 매개변수를 보유하고 있지만, 특정 작업을 수행할 때는 약 370억 개의 매개변수만 활성화됩니다. 즉, 모든 연산을 수행하지 않고도 최적의 성능을 유지할 수 있어, 연산량과 비용이 대폭 감소하는 효과를 볼 수 있게 됩니다.

이미지3.png

두 번째로 8비트 부동소수점 연산 기술은 일반적으로 AI 모델들은 32비트 부동소수점 연산을 사용하는데 비해 딥시크는 8비트 부동소수점을 사용합니다. 이를통해 연산 속도를 높이고 메모리 사용량을 75% 이상 줄이는데 효과를 보게 됩니다.

이미지4.png

오픈소스 공개

딥시크가 집중 받는 마지막 이유는 바로 딥시크가 자체 개발한 AI 모델을 오픈소스로 공개했다는 점입니다. 특히 python 코드에 익수한 LLM 개발자라면 누구나 구동될 수 있도록 했다는 것이 인상적인 부분이라 할 수 있을 것 같습니다. 지금까지 AI모델 중에서 오픈소스에 이어 기술문서까지 공개한 것은 이번 딥시크가 처음 있는 일이라 할 정도로 파격적인 행위라고 합니다. 이러한 딥시크의 오픈소스 공개는 향후 전 세계 개발자들이 자유롭게 접근하고 활용할 수 있게 함으로써 기술 발전과 협업을 촉진하는 데 큰 영향이 있을 것으로 기대하고 있습니다.

딥시크의 논란점

이런 고성능 모델의 등장에도 딥시크는 다양한 문제점이 제기되고 있어 전세계적으로 딥시크의 사용을 금지하려는 움직임도 보이고 있는데요. 딥시크의 독특한 데이터 수집 방식과 운영에 대한 잠재적 위험 때문이라고 합니다.

이미지5.png
과도한 개인정보 수집

딥시크의 가장 심각한 문제 중 하나는 사용자의 개인 정보를 광범위하게 수집한다는 것입니다. chat GPT와는 달리, 딥시크는 사용자가 개인 데이터 수집을 통제할 수 있는 “옵트아웃” 기능을 제공하지 않고 있습니다. 이는 곳 정보수집에 대한 투명성을 의심할 수밖에 없는 상황입니다. 이러한 이유에는 딥시크는 이메일주소, 전화번호, 생년월일의 정보 이외에 가장 문제가 되는 키 입력 패턴을 포함한 민감한 정보를 수집하기 때문입니다. 키 입력 패턴의 경우 타자 속도와 리듬을 통해 개인을 고유하게 식별할 수 있는 가능성이 있어, 잠재적으로 사용자를 추적 및 감시를 할 수 있다는 것입니다. 이런 수집 행위는 AI 서비스 자체를 개선하는데 필요치 않은 상당한 개인 정보를 포함하기 때문에 정보보호의 투명성과 책임성에 의문을 가질 수밖에 없는 상황입니다.

중국서버에 저장되는 개인정보

딥시크는 수집된 사용자의 정보를 중국 내 서버로 저장하게 되는데, 중국 정부는 데이터 접근에 관한 엄격한 법을 가지고 있습니다. 중국의 2021년 데이터 보안법에 따르면, 중국에서 사업을 운영하는 회사들이 수집한 모든 데이터는 국가 안보 목적으로 정부가 접근할 수 있도록 하고 있습니다. 이는 다시 말해 수집된 사용자의 개인정보가 사용자의 동의 없이 중국 정부에서 접근하고, 공유될 수 있다는 것입니다. 이러한 딥시크의 개인정보 취급에 대해 데이터 보안에 민감한 한국, 미국 등 몇몇 유럽 국가들은 경각심을 바탕으로 딥시크의 사용을 차단하거나 제한하는 등의 딥시크 발 개인정보 유출을 방지하려는 움직임을 보이고 있습니다.

딥시크의 전망

이미지6.png
딥시크의 R1 모델은 등장부터 큰 이슈를 낳았습니다. 이러한 딥시크의 약진은 향후 AI 기술 개발의 새로운 패러다임에 큰 변화가 있을 것으로 보입니다. 특히 저비용을 통한 높은 성능에 초점을 맞춘 기술패권경쟁 및 개발 협력이 글로벌 AI 시장에서 활발해질 것으로 예상됩니다. 하지만 딥시크 이러한 성공 횡보가 지속되려면 데이터 수집 및 개인정보 보호에 대한 문제는 반드시 해결되어야 하는 부분일 것입니다. 데이터 수집의 투명성을 확보하고, 국제적인 규제를 준수하려는 노력이 없다면 딥시크의 성공은 단기적인 성과에 머물 수밖에 없을 것입니다.

[ 참고 및 출처 ]

https://bluered0726.tistory.com/entry/%EB%94%A5%EC%8B%9C%ED%81%AC%EB%9E%80
https://www.joongang.co.kr/article/25310850
https://blog.naver.com/kyokimsuk/223751454888

[글/사진] 김신태 과장 / kimsintae0401@gmail.com