Google представила модель для генерации видео со звуком и поиск с чат-ботом

Google представила модель для генерации видео со звуком и поиск с чат-ботом

22 мая 2025, 18:30

Прошедшая ежегодная конференция Google I/O 2025 была практически полностью посвящена новыми инструментам и продуктам на основе моделей машинного обучения. Среди них третье поколение генеративной модели Veo 3, которая может создавать видеоролики со звуком, платформа для создания фильмов Flow, новый режим поисковика с встроенным чат-ботом AI Mode, а также платформа Android XR для очков и гарнитур дополненной реальности. Также компания анонсировала новую модель Gemini Diffusion, которая использует диффузионный метод для создания текста. Презентации транслировались в прямом эфире на YouTube.

Позитив Технолоджис

Veo 3: модель для создания видео со звуком

Мультимодальная модель Veo 3, разработанная Google DeepMind, способна создавать видеоролики на основе текстовых запросов и изображений. В отличие от модели предыдущего поколения она может генерировать не только визуальный ряд, но и сопровождающие его звуки, включая речь персонажей, синхронизированную с движением губ, звуковые эффекты и окружающие шумы. Модель понимает композицию сцены, дает возможность управлять параметрами и движением камеры, учитывает законы монтажа и жанровые особенности, позволяя создавать сложные сцены со звуком по текстовому описанию и раскадровке.

Доступ к модели будет в ближайшее время на территории США для подписчиков тарифного плана Google AI Ultra (250 долларов в месяц) через мобильное приложение Gemini, инструмент для создания видеоконтента с помощью генеративных моделей Google Flow и для пользователей Vertex AI. Предыдущая "беззвучная" версия модели Veo 2 также получила обновление, включающее управление камерой, возможность добавлять и удалять объекты, а также редактировать границы кадра. Veo 2 доступна подписчикам Google AI Pro (20 долларов в месяц), что делает её более доступной по сравнению с Veo 3.

Новый режим поиска AI Mode

Google / YouTube

AI Mode — новый режим поисковика Google в формате диалога с языковой моделью, в котором пользователь вместо списка ссылок получает ответы, сформулированные на основании собранной информации в виде связного текста со ссылками. При этом можно задавать уточняющие вопросы, добавлять детали, а система будет продолжать поиск и отвечать с учетом контекста. В основе AI Mode лежит специализированная версия модели Gemini 2.5 Pro, которая анализирует запрос, разбивая его на подзапросы (метод query fan-out) и собирая информацию из различных источников, включая веб-сайты, базы данных и актуальные данные о товарах и услугах.

Постепенно Google планируют добавлять в поиск новые функции вроде Deep Search (глубокий анализ сложных запросов с расширенным ответом), возможности показывать поисковику свое окружение с помощью камеры телефона и задавать вопросы о видимых в кадре предметах (Search Live), интеграции с Gmail, рекомендаций по покупкам, бронированию ресторанов и билетов, а также генерации графиков и таблиц. Кроме этого планируется добавить возможности AI-агента (Project Mariner): по запросу пользователя система найдет подходящие варианты, сама сравнит их, покажет цены и даже заполнит необходимые для бронирования или покупки формы. Одежду из онлайн-магазина можно будет "примерить" на свое фото. Все это будет постепенно внедряться сначала в экспериментальном режиме, а позже — в основную версию поиска. Часть функций будет доступны только пользователям с подпиской AI Ultra. На старте AI Mode пока будет доступен только пользователям в США.

Gemini Diffusion

Google

Gemini Diffusion — экспериментальная языковая модель, основанная на диффузионном методе, который до сих пор применялся в основном для генерации изображений и видео. В отличие от обычных языковых моделей, которые создают текст слева направо токен за токеном, Gemini Diffusion начинает с "шума" и затем шаг за шагом улучшает его, превращая в текст. Это похоже на то, как генерируются изображения с помощью моделей вроде Stable Diffusion, но применительно к языку.

Модель очень быстрая: по заявлению Google, она в пять раз быстрее самой быстрой из обычных моделей Gemini 2.5 Flash Lite, но не уступает ей в качестве генерации. Модель подходит для математических задач и написания кода, а также для задач, где нужно редактировать и исправлять ошибки. Она умеет быстро пересчитывать варианты и дорабатывать решение по ходу генерации. В демонстрации показано, как Gemini Diffusion решает задачу по математике, проверяет правильность и при необходимости сама вносит исправления.

В данный момент Gemini Diffusion находится в стадии тестирования и доступна только ограниченному числу тестировщиков. Google предлагает записаться в список ожидания, чтобы получить доступ к демоверсии.

Android XR

Google / YouTube

Android XR — это платформа для очков и гарнитур дополненной реальности, которая объединяет возможности операционной системы Android и языковой модели Gemini. Устройства с Android XR будут "видеть" и "слышать" то же, что и пользователь, поэтому смогут генерировать персонализированные подсказки с учетом контекста окружения, при этом руки пользователя останутся свободными. Ассистент в очках сможет, например, подсказать дорогу, ответит на вопросы об объектах, которые видит пользователь, или переведет речь другого человека в режиме реального времени. Android XR совместима с уже существующими приложениями Google Play, например, YouTube позволит смотреть видео на большом виртуальном экране, а приложение с картами позволит изучать местность в интерактивном режиме и задавать вопросы об объектах и достопримечательностях. Для управления интерфейсом платформа использует голосовые команды, жесты рук и отслеживание взгляда.

nplus1.ru