제미나이 옴니, 영상까지 삼킨 구글의 야심

구글 I/O 2026(2026년 5월 19~20일)을 단 사흘 앞두고, 제미나이(Gemini) 앱 내부에서 새 영상 생성 모델 ‘제미나이 옴니(Gemini Omni)’의 흔적이 유출되었습니다. 단순한 신모델 루머가 아니라 “텍스트·이미지·영상·음성을 한 모델로 처리하는 진짜 통합(omni) AI”의 신호로 해석되면서, 구글 I/O 2026의 핵심 발표 후보로 급부상 중입니다. 유출 경위부터 핵심 기능, Veo 3.1·OpenAI Sora 비교, 한국에서의 사용 시점·요금까지 한 번에 정리합니다.

본 글은 2026년 5월 2일 X(구 트위터) 사용자 @Thomas16937378의 최초 발견, TestingCatalog의 후속 보도, Android Authority·AIxploria 등 다수 매체의 검증 보도를 기준으로 작성된 정리 가이드입니다. 일부 기능은 구글이 공식 발표하기 전 단계이므로, I/O 2026 키노트 이후 세부 사양이 일부 달라질 수 있습니다. 공식 키노트 일정은 구글 I/O 공식 페이지에서 확인하실 수 있습니다.

제미나이 옴니 유출 핵심 7가지 요약

먼저 바쁘신 분을 위해 제미나이 옴니의 핵심을 7줄로 압축해 드리겠습니다.

최초 발견 — 2026년 5월 2일, X 사용자 @Thomas16937378이 제미나이 영상 생성 탭에서 “Start with an idea or try a template. Powered by Omni”라는 UI 문자열을 포착했습니다.
모델 ID — 내부 식별자는 bard_eac_video_generation_omni로 확인되었으며, 영상 길이 제한은 10초로 설정돼 있었습니다.
UI 설명 — “Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more.”라는 안내 문구가 노출돼, 생성·편집·템플릿·채팅 통합형 모델임을 시사합니다.
초기 테스트 — 일부 사용자가 제미나이 앱 내 ‘옴니’ 모델 카드에 접근해, 실사에 가까운 영상과 합리적 추론·자연스러운 카메라 전환을 확인했습니다.
편집 기능 — 워터마크 제거, 영상 내 오브젝트 교체, 채팅 명령만으로 장면 재작성 등이 모두 동작했다고 보고됐습니다.
리소스 소모 — Google AI Pro 요금제 기준, 단 2회 영상 생성으로 일일 한도의 86%가 소모돼 ‘프리미엄 고비용 모델’ 가능성이 큽니다.
공개 시점 — 구글 I/O 2026(2026년 5월 19~20일, 캘리포니아 쇼어라인 앰피시어터)의 키노트에서 정식 공개될 가능성이 가장 유력합니다.

제미나이 옴니란 무엇인가

제미나이 옴니(Gemini Omni)는 구글이 차세대 제미나이 라인업의 ‘영상 생성 모듈’ 또는 ‘통합 멀티모달 모델’로 준비 중인 신규 AI 모델입니다. 이름의 ‘Omni(전부)’가 시사하듯, 텍스트·이미지·영상·음성을 단일 모델 한 번에 처리한다는 것이 가장 야심 찬 해석입니다. 현재까지 외부에서 확인된 것은 제미나이 앱 내부에 노출된 모델 카드, UI 문구, 모델 ID와 일부 사용자의 초기 시연 결과뿐이지만, 표현 방식과 명명 규칙이 모두 ‘차세대 플래그십’을 가리키고 있습니다.

주목할 점은 옴니가 기존의 영상 모델 Veo 3.1과 별도의 영역으로 노출되었다는 점입니다. 즉 Veo 3.1이 API·엔터프라이즈에서 계속 사용되는 동안, 제미나이 앱·소비자 제품에는 ‘옴니’라는 새 브랜드와 모델이 들어가는 ‘이원화 전략’일 가능성이 높습니다. 이는 구글이 ‘개발자용 Veo’와 ‘일반 사용자용 옴니’를 분리해, 제미나이 앱의 멀티모달 경험을 한층 단순화하려는 의도로 보입니다.

유출 경위 — UI 문자열 ‘Powered by Omni’

이번 유출의 시작은 2026년 5월 2일이었습니다. X 사용자 @Thomas16937378이 제미나이의 영상 생성 탭 내부에서 “Start with an idea or try a template. Powered by Omni”라는 안내 문자열을 발견해 공유했고, 구글 내부 변경을 빠르게 추적하는 매체 TestingCatalog가 즉시 후속 보도를 게재했습니다. 이 문자열은 개발자 빌드나 숨겨진 코드가 아닌 실제 사용자에게 노출된 라이브 UI 안에서 발견됐다는 점에서 단순한 코드 유출과는 무게가 다릅니다.

5월 11일에는 일부 레딧 사용자들이 제미나이 앱 안에서 ‘Omni’ 모델 카드에 접근할 수 있었다고 보고했습니다. 이들은 “Create with Gemini Omni — our new video model”이라는 안내 문구와 함께, 실제 영상을 두 차례 생성한 결과 Google AI Pro 일일 한도의 86%가 소비됐다고 밝혔습니다. 이 데이터는 옴니가 ‘프리미엄 고비용 모델’이라는 사실과, 구글이 이미 본격적인 A/B 테스트 단계에 진입했음을 동시에 보여 줍니다.

확인된 기능과 초기 테스트 결과

1) 텍스트 → 영상 생성

옴니의 가장 기본 기능은 텍스트 프롬프트에서 10초 길이의 영상을 생성하는 것입니다. 초기 테스트에서 한 사용자는 “수학 칠판 앞에서 강의하는 교수” 같은 추론 기반 프롬프트를 입력했고, 옴니는 단순히 그림을 그리는 것이 아니라 실제로 풀이 과정을 인식한 듯한 자연스러운 카메라 워크와 함께 영상을 생성했다고 보고됐습니다. 다만 칠판 글자가 행동과 어긋나거나 결말부에서 글자가 사라지는 등의 AI 특유 결함도 함께 관찰됐습니다.

2) 영상 편집 — 워터마크 제거·오브젝트 교체

옴니가 단순 ‘영상 생성기’가 아니라 ‘영상 에디터’로도 작동한다는 것이 가장 큰 차별점입니다. 초기 시연에서는 영상 클립을 업로드한 뒤 채팅 명령으로 워터마크 제거, 영상 내 특정 오브젝트 교체, 장면 전체 재작성까지 가능했다고 보고됐습니다. 즉, 사용자는 별도의 편집 툴을 열 필요 없이 “이 클립에서 빨간 풍선을 파란 풍선으로 바꿔 줘”처럼 자연어로 영상을 수정할 수 있습니다.

3) 템플릿·리믹스

옴니 UI에는 “try a template”, “remix your videos” 같은 표현이 함께 노출되었습니다. 이는 사용자가 직접 프롬프트를 처음부터 짜지 않아도 되는 프리셋 기반 제작과, 기존 클립을 ‘리믹스(remix)’해 새로운 영상으로 재구성하는 SNS 친화적 기능이 함께 들어간다는 것을 시사합니다. 짧은 영상이 주류인 인스타그램 릴스·유튜브 쇼츠·틱톡 환경을 정조준한 설계입니다.

4) 향상된 음성·립싱크

여러 매체는 옴니가 영상과 동기화된 음성·대사·효과음을 함께 생성하는 능력을 갖췄으며, 이전 세대 대비 음성 품질과 립싱크 정확도가 크게 개선되었다고 평가했습니다. 인물의 얼굴 표정과 입 모양이 대사와 자연스럽게 맞물려, 단순한 무음 영상이 아니라 ‘완성된 짧은 영상물’에 가깝습니다.

세 가지 해석 — 리브랜딩·신모델·진짜 옴니

업계에서는 옴니의 정체에 대해 크게 세 가지 해석이 경쟁하고 있습니다. 어느 해석이 맞느냐에 따라 구글 AI 전략의 무게중심이 완전히 달라집니다.

해석 1) ‘Veo의 리브랜딩’

가장 보수적인 해석은 옴니가 사실상 Veo 3.x 또는 Veo 4를 제미나이 앱 전용 브랜드로 리브랜딩한 것이라는 시나리오입니다. 이 경우 ‘옴니’는 일반 사용자에게 친근한 마케팅 명칭일 뿐, 내부 모델은 Veo 라인업의 연장선입니다. 구글이 ‘제미나이=옴니=영상’이라는 단일 브랜드 메시지를 강화하려는 의도라고 볼 수 있습니다.

해석 2) ‘제미나이 기반 신규 영상 모델’

두 번째 해석은 옴니가 제미나이 아키텍처를 기반으로 영상 특화 파인튜닝이 이루어진 신규 모델이라는 시나리오입니다. Veo 라인업은 그대로 API·엔터프라이즈에서 사용되고, 옴니는 제미나이 앱 안에서 ‘영상 전용 멀티모달 분기’로 작동합니다. 모델 ID에 video_generation_omni가 명시된 점이 이 해석의 강력한 근거입니다.

해석 3) ‘진짜 옴니 모델’ — 텍스트·이미지·영상·음성 단일 모델

가장 야심 찬 해석은 옴니가 텍스트·이미지·영상·음성을 모두 단일 모델로 처리하는 진정한 ‘omni-model’이라는 시나리오입니다. 이 경우 구글은 OpenAI의 GPT-4o/5.5 인스턴트, Sora를 한 모델로 압도할 수 있는 ‘대형 멀티모달 통합 모델’ 카드를 꺼내 든 것입니다. 만약 이 해석이 맞다면 옴니는 네이티브 영상 출력을 지원하는 최초의 주류 옴니 모델이 되며, AI 영상 시장의 판도가 단숨에 재편될 가능성이 있습니다.

제미나이 옴니 vs Veo 3.1 vs OpenAI Sora 비교

현재 시점(2026년 5월 16일)을 기준으로, 시장에서 직접 비교 대상이 되는 영상 AI 모델은 Veo 3.1(구글 딥마인드)과 OpenAI Sora 2입니다. 제미나이 옴니는 아직 정식 출시 전이지만, 유출된 정보를 토대로 핵심 항목별로 비교해 보면 다음과 같습니다.

항목	제미나이 옴니 (유출)	Veo 3.1	OpenAI Sora 2
제공 형태	제미나이 앱 내 통합	API·엔터프라이즈·일부 앱	ChatGPT 내 통합
최대 길이	10초(초기 한도)	8~15초(엔터프라이즈 확장)	최대 60초 이상
해상도	미공개(1080p 이상 추정)	최대 4K 일부 지원	최대 1080p
음성 동기화	대사·효과음 통합 가능	네이티브 오디오 생성	대사·효과음 동기화
채팅 기반 편집	제공(워터마크 제거·오브젝트 교체 등)	제한적	제한적
요금(추정)	Google AI Pro 한도 소모 큼	$0.40/초(스탠다드)	ChatGPT Plus $20/월, Pro $200/월
강점	채팅 통합·편집·옴니 멀티모달	오디오·물리 리얼리즘	장면 일관성·창의적 해석

표에서 드러나는 가장 중요한 차이는 ‘채팅 기반 편집’입니다. Veo 3.1과 Sora 2는 ‘생성한 영상을 그대로 받아 쓰는’ 흐름에 가깝지만, 옴니는 같은 채팅창에서 영상을 만들고 → 즉시 편집하고 → 다시 리믹스하는 ‘대화형 영상 워크플로’를 표방합니다. 이는 비전공자에게 가장 큰 차별점이 될 것으로 보입니다.

한국에서의 사용 시점·요금

제미나이는 이미 2025년 한국 정식 서비스가 시작되었고, 2026년 5월 현재 한국어를 포함한 멀티 언어 환경에서 정상 동작합니다. 따라서 옴니가 정식 공개되면 한국 사용자도 별도의 VPN 없이 접근할 수 있을 가능성이 큽니다. 다만 ‘영상 생성·편집’ 기능 자체는 무료 플랜이 아닌 Google AI Pro / Ultra 유료 구독에서 우선 제공될 것으로 예상됩니다.

현재 한국에서 운영 중인 Google AI 요금제는 크게 Plus / Pro / Ultra 3단계입니다. 일반 사용자에게 가장 합리적인 선택은 월 단위 Pro 구독이며, 통신사 결합 할인이나 연간 결제 할인을 활용하면 월 9,000~10,000원대까지 비용을 낮출 수 있습니다. 옴니는 ‘2회 생성에 일일 한도 86% 소모’ 수준의 고비용 모델이므로, 본격적인 영상 작업을 계획하시는 분은 Ultra 플랜의 추가 한도 가입을 권장드립니다.

구글 I/O 2026 키노트에서 무엇이 공개될까

옴니가 ‘유출 단계를 졸업하고’ 공식 무대에 오를 가장 유력한 시점은 구글 I/O 2026 키노트(현지시각 5월 19일)입니다. I/O 2026 공식 어젠다에는 제미나이 차세대 업데이트와 안드로이드 17, 안드로이드 XR 글래스, ‘제미나이 인텔리전스’ 기반 OS 통합 시연이 포함돼 있으며, 옴니는 그 가운데 ‘영상·멀티모달’ 챕터의 메인 카드로 등장할 가능성이 높습니다.

예상되는 발표 흐름은 다음과 같습니다. 우선 키노트 초반에 제미나이 차세대 모델 라인업이 정리되고, 중반에 ‘옴니’가 별도 챕터로 공개되며, 후반에 안드로이드 17 / 안드로이드 XR / 워크스페이스 통합이 이어지는 구조입니다. 옴니가 ‘Veo 리브랜딩’이라면 키노트의 비중이 비교적 작아지겠지만, ‘진짜 옴니 모델’이라면 GPT-5.x 인스턴트·Sora 2를 정면 겨냥하는 구글의 2026년 최대 발표가 됩니다. 더 자세한 I/O 미리보기는 안드로이드 쇼 2026 미리보기 글과 제미나이 인텔리전스 2026 정리를 함께 참고하시기 바랍니다.

시장에 미치는 영향 — 영상 AI 판도 변화

1) OpenAI Sora·런웨이·픽토리에 대한 압박

옴니가 ‘제미나이 앱 안에서 무료/저가 멀티모달로 동작’하기 시작하면, 별도의 영상 AI 서비스에 월 20~200달러를 지불해 온 사용자에게는 ‘하나의 앱이 모든 걸 해 주는’ 경쟁자가 등장하는 셈입니다. 특히 일반 사용자·중소 크리에이터 시장에서 Sora·런웨이·픽토리 등 전문 영상 AI 서비스에 강한 가격 압박이 예상됩니다.

2) 짧은 영상 플랫폼의 콘텐츠 폭발

10초 단위 영상은 인스타그램 릴스·유튜브 쇼츠·틱톡에 그대로 어울리는 길이입니다. 옴니의 채팅 기반 편집·템플릿·리믹스가 결합되면, 비전문가도 30분 만에 ‘오늘의 쇼츠’를 5편 만들 수 있는 환경이 됩니다. 콘텐츠 공급이 폭발적으로 늘면서 플랫폼 알고리즘과 광고 단가 모두 영향을 받을 가능성이 큽니다.

3) 한국 크리에이터·마케터에게 주는 시사점

한국 1인 크리에이터·소상공인·마케터 입장에서 옴니는 ‘영상 외주 비용을 0으로 낮춰주는 카드’가 될 수 있습니다. 제품 홍보 영상, SNS 광고용 짧은 클립, 강의 인트로 같은 비핵심 영상 자원을 ‘옴니로 직접 제작’하는 흐름이 빠르게 자리 잡을 것입니다. 다만 저작권·딥페이크 규제 리스크가 함께 커지므로, 실사 인물·상표·음악 사용에는 사전에 안전한 가이드라인을 마련해 두는 것이 좋습니다.

자주 묻는 질문(FAQ)

Q1. 제미나이 옴니, 일반 사용자가 지금 당장 쓸 수 있나요?

현재(2026년 5월 16일) 기준 옴니는 공식 출시 전 단계이며, 일부 사용자에게만 UI가 노출되고 있는 A/B 테스트 상태입니다. 5월 19일 구글 I/O 키노트에서 정식 공개될 가능성이 가장 높으므로, 일반 사용자의 본격 사용은 2026년 5~6월 사이가 될 것으로 예상됩니다.

Q2. 무료 플랜에서도 사용할 수 있나요?

유출된 데이터에서 Google AI Pro 일일 한도가 2회 생성에 86% 소모된 점을 고려하면, 옴니는 고비용·고성능 모델로 보입니다. 따라서 옴니 전체 기능은 Google AI Pro / Ultra 같은 유료 플랜에서 우선 제공되고, 무료 플랜에는 ‘낮은 해상도·짧은 길이·횟수 제한 버전’이 단계적으로 풀릴 가능성이 큽니다.

Q3. 영상 길이는 10초가 끝인가요?

현재 모델 ID에는 10초 한도가 설정돼 있지만, 이는 출시 초기 한도일 가능성이 높습니다. Veo 3.1이 엔터프라이즈에서 더 긴 영상으로 확장되는 것처럼, 옴니도 정식 출시 후 Pro·Ultra 등급에서 길이 한도를 단계적으로 늘릴 것으로 예상됩니다.

Q4. Veo 3.1과 옴니, 어느 쪽이 더 좋나요?

Veo 3.1은 API·엔터프라이즈 영역의 정밀 제어·고해상도 영상에 강점이 있고, 옴니는 일반 사용자가 채팅으로 빠르게 만들고 편집하는 워크플로에 강점이 있을 것으로 보입니다. 즉 두 모델은 ‘대체재’보다는 ‘분업 관계’에 가깝습니다.

Q5. OpenAI Sora 2 사용자가 옴니로 갈아탈 만한가요?

현 시점 Sora 2는 ‘60초 이상 장면 일관성’과 ‘창의적 해석’에서 여전히 강점이 있습니다. 따라서 ‘짧은 SNS 영상·반복 제작’이 중심이라면 옴니가, ‘긴 호흡의 영상·시네마틱 컷’이 중심이라면 Sora 2가 더 적합합니다. 옴니가 정식 공개된 뒤 직접 1주일 정도 비교 사용해 보시는 것을 권장합니다.

AI가 생성한 영상이라도 실존 인물·상표·기존 영상이 그대로 들어가면 저작권·초상권 침해가 발생할 수 있습니다. 특히 옴니의 ‘워터마크 제거’, ‘오브젝트 교체’ 기능은 강력한 만큼 오·남용 리스크도 큽니다. 상업적 용도로 활용하실 때는 원본 소재의 라이선스를 반드시 사전 확인하시고, 의료·법률·금융 정보가 포함된 영상은 별도 전문가 검토를 받으시기 바랍니다.

마치며 — ‘영상으로 답하는 AI’ 시대의 신호탄

제미나이 옴니의 유출이 흥미로운 이유는, 단순히 ‘새 영상 모델 하나가 더 나왔다’가 아니라 “이제 AI가 글이 아니라 영상으로 답하기 시작했다”라는 시그널이기 때문입니다. 메시지창에서 묻고, 영상으로 응답을 받고, 같은 창에서 다시 편집을 요청하는 흐름. 그것이 옴니가 시사하는 ‘다음 단계의 채팅’입니다. 구글 I/O 2026이 사흘 앞으로 다가온 만큼, 5월 19일 키노트에서 공개될 진짜 옴니의 모습을 함께 지켜보시면 좋겠습니다.

네르드로그에서는 구글 I/O 2026 키노트 발표 직후 옴니의 정식 사양·요금·한국 출시 일정이 확정되는 대로 후속 정리 기사를 빠르게 업데이트하겠습니다. 함께 보면 좋은 글로 제미나이 인텔리전스 2026 정리와 안드로이드 XR 글래스 2026 정리를 추천드립니다.

흥미로운 관찰. 텍스트와 이미지를 넘어 영상까지 하나의 모델로 묶으려는 시도가 이번 옴니의 핵심이다. 멀티모달 경쟁에서 구글이 가진 가장 큰 무기는 결국 유튜브라는 거대한 영상 데이터인데, 옴니가 그 자산을 얼마나 정교하게 학습에 녹였는지가 실제 품질을 가를 것이다. 데모가 매끄러워 보여도 실사용에서 지연과 비용이 어떻게 잡히는지가 진짜 승부처다.

※ 본문은 정보 제공 목적의 정리 기사이며, 기능 명칭·요금·지원 기기·출시 일정은 구글 공식 발표 시점에 변동될 수 있습니다. 의료·법률·재무 의사결정은 반드시 해당 분야 전문가와 별도 상담하시기 바랍니다.