구글 Gemma 4 + 갤럭시 AI 완전 정리: 온디바이스 AI 지금 어디까지 왔나

AI가 손안으로 들어오는 시대, 진짜 시작됐다

2026년 4월 초, 두 개의 소식이 거의 동시에 터졌다.

구글 딥마인드가 Gemma 4를 오픈소스로 공개했고 삼성전자 갤럭시 S26에는 퍼플렉시티 AI 에이전트가 기본 탑재됐다.

두 뉴스를 따로 보면 그냥 "AI 업데이트 소식"에 불과해 보인다. 그런데 이 둘을 묶어서 읽으면 전혀 다른 이야기가 된다. 지금 온디바이스 AI의 패러다임이 실질적으로 전환되고 있다는 신호다.

역사적 맥락: 왜 '지금'인가

AI 산업의 초기 구조는 단순했다. 강력한 모델은 서버에 있고, 사용자는 API를 통해 접근하는 방식이었다. 데이터는 외부로 나갔고, 인터넷이 없으면 아무것도 안 됐다.

균열은 2023년부터 시작됐다. 메타가 Llama를 오픈소스로 풀면서 "강력한 AI를 내 서버에서 직접 돌린다"는 가능성이 열렸다. 개발자 커뮤니티가 폭발적으로 반응했고, 로컬 AI 생태계가 급성장했다. 구글이 Gemma 1, 2, 3으로 대응하면서 경쟁이 붙었다.

그리고 2026년 4월, Gemma 4가 나왔다. 이건 단순한 버전 업이 아니다. 스마트폰에서 인터넷 없이 멀티모달 AI가 돌아가는 시대가 기술적으로 완성된 시점이다.

Gemma 4: 핵심만 짚는다

구글 딥마인드는 Gemma 4를 "바이트 단위 성능 최강 오픈 모델"로 선언했다.

이 문장 안에 이 모델의 전략이 다 담겨 있다. 크기를 줄이면서 머리는 더 좋게 만들었다는 뜻이다.

모델은 총 네 가지다.

E2B는 약 23억 파라미터로 스마트폰, 라즈베리파이에서도 돌아간다. E4B는 약 45억 파라미터로 일반 PC 입문용으로 권장된다. 주목할 모델은 26B A4B로, MoE 구조 덕분에 전체 26B 중 실제로는 3.8B만 활성화된다. RTX 3060, 3070 수준의 게이밍 GPU에서 VRAM 8GB면 돌아간다는 의미다. 31B 모델은 VRAM 24GB 이상의 고사양 환경용이다.

성능 측면에서 또 하나의 혁신은 멀티모달 처리다. E4B 단일 모델이 텍스트, 이미지, 오디오를 동시에 처리하고 최대 128K 컨텍스트를 지원한다.

이 수준의 기능이 오프라인, 무료, 소비자 GPU에서 작동하는 건 이번이 처음이다.

구글은 Gemma 4 공개 직후 안드로이드와 iOS 양쪽에서 다운로드 가능한 "AI 엣지 갤러리" 앱을 배포했다. 앱 안에 E2B 모델이 탑재되어 있고, 설치만 하면 인터넷 연결 없이 스마트폰에서 LLM이 즉시 실행된다.

갤럭시 AI의 지금: 삼성 가우스 2 + Gemini Nano + 퍼플렉시티

갤럭시 AI는 처음부터 "온디바이스 단독"이 아니었다. 온디바이스 AI와 클라우드 AI를 섞어 쓰는 하이브리드 구조다.

간단한 연산은 기기 안에서, 무거운 작업은 삼성 클라우드를 호출하는 방식으로 배터리와 성능을 동시에 잡는다.

현재 갤럭시 S26 기준으로 온디바이스 핵심 엔진은 두 개가 공존한다. 삼성이 자체 개발한 삼성 가우스 2와, 구글의 Gemini Nano다. 삼성 가우스 2는 약 200억 파라미터 규모로 학습됐고 디바이스용으로 경량화됐으며, 전작 대비 파라미터는 줄었지만 성능과 동시 처리 속도는 오히려 높아졌다는 게 삼성 측 발표다.

여기에 2026년 2월, 갤럭시 S26에 퍼플렉시티 AI가 기본 에이전트로 공식 탑재됐다.

사이드 버튼이나 "헤이 플렉스(Hey Flex)" 음성 호출로 즉시 실행된다. 구글 제미나이 이외에 별도의 AI 에이전트가 갤럭시에 기본 내장된 것은 이번이 처음이다.

퍼플렉시티는 GPT, Claude, Gemini 같은 외부 모델을 혼용하는 동시에, 자체 개발한 '소나(Sonar)' 모델을 보유하고 있다. 소나는 메타의 Llama 3.3 70B를 기반으로 퍼플렉시티가 검색·인용·답변 생성에 특화되도록 파인튜닝한 모델로, 정확성과 사용자 만족도 지표에서 GPT-4o 수준을 능가한다는 평가를 받았다.

갤럭시 S26에서 퍼플렉시티를 호출하면, 소나 모델을 포함한 최대 19개 프런티어 AI 모델이 작업 종류에 따라 자동으로 배분되어 응답을 생성하는 구조다.

갤럭시 S26의 칩셋은 엑시노스 2600과 스냅드래곤 8 Elite for Galaxy 5세대로 나뉘며, 두 칩 모두 전작 대비 NPU 성능이 약 38~39% 향상됐다.

이 NPU 성능 향상이 온디바이스 AI 품질 개선의 실질적 기반이다.

그렇다면 Gemma 4는 갤럭시에 들어가나

현재 시점 기준으로, Gemma 4는 갤럭시 AI 시스템에 직접 통합된 상태는 아니다. 하지만 AI 엣지 갤러리 앱을 설치하면 갤럭시 스마트폰에서 Gemma 4 E2B 모델을 오프라인으로 즉시 구동할 수 있다.

더 의미 있는 신호는 구글이 Gemma 4를 Android Studio에 통합했다는 사실이다.

안드로이드 생태계의 개발 도구 레벨에서 Gemma 4가 기본 모델로 자리 잡기 시작했다는 뜻이고, 삼성 갤럭시가 안드로이드 기반인 이상, 향후 갤럭시 AI와의 통합은 기술적으로 열린 경로다.

반대 논거: 그래도 아직 한계는 있다

이 모든 흐름을 낙관적으로만 읽으면 안 된다. Gemma 4 31B의 AI Arena 리더보드 ELO는 약 1452점으로 오픈소스 모델 중 3위다. 1위는 알리바바의 Qwen, 2위는 Zhipu AI의 GLM이다.

구글이 자기 게임에서 중국 AI 스타트업에 밀리고 있다는 점은 짚어야 한다.

갤럭시 AI의 하이브리드 구조도 완전한 온디바이스는 아니다. 고급 기능으로 갈수록 클라우드 의존도가 높아지고, 데이터 프라이버시 측면에서 여전히 검증이 필요한 부분이 남아 있다.

스마트폰에서의 온디바이스 AI는 PC 대비 연산 속도와 컨텍스트 처리 한계가 뚜렷하다. Gemma 4 E2B가 스마트폰에서 돌아가더라도, 복잡한 멀티스텝 추론이나 장문 문서 처리는 여전히 고사양 PC나 클라우드가 월등히 유리하다.

시사점: AI 소유권이 이동하고 있다

이번 Gemma 4 공개와 갤럭시 S26의 멀티 에이전트 생태계가 던지는 메시지는 하나로 수렴된다. AI의 소유권이 클라우드 기업에서 개인 디바이스로 이동하고 있다.

과거에는 "어떤 AI 서비스를 구독할 것인가"가 질문이었다. 지금은 "어떤 모델을 내 기기에 올려놓을 것인가"로 질문 자체가 바뀌고 있다. 삼성이 갤럭시 S26에 퍼플렉시티를 탑재하고, 구글이 Gemma 4를 스마트폰 앱으로 배포하는 것은 같은 방향을 가리키는 두 개의 화살표다.

모바일 AI 생태계는 단일 AI 비서 시대에서, 사용자가 용도에 맞는 AI를 선택하고 조합하는 멀티 에이전트 시대로 빠르게 이동 중이다.

이 변화의 속도가 앞으로 2~3년 안에 어디까지 갈지가, 지금 AI 산업에서 가장 주목해야 할 변수다.

여러분은 지금 스마트폰에서 AI를 어떤 방식으로 주로 쓰고 계신가요? 클라우드 AI 서비스 구독과 온디바이스 AI 중 어느 쪽이 더 실용적이라고 느끼시는지, 실제 사용 경험을 댓글로 공유해 주시면 좋겠습니다.

네이버 블로그 원문 보기