Битва за ИИ между Google и OpenAI (команда, стоящая за ChatGPT) накаляется, и обе компании выпускают новые продукты, функции и обновления в этом месяце. Теперь Google DeepMind, исследовательская лаборатория Google в области ИИ, нацелилась на победу над OpenAI в игре по созданию видео — и, возможно, ей это удастся, по крайней мере, на какое-то время.
DeepMind представила Veo 2, ИИ-генератор видео следующего поколения и преемника Veo, который поддерживает различные продукты в линейке Google. Veo 2 может создавать клипы длительностью более двух минут с разрешением до 4K (4096 x 2160 пикселей). Это в четыре раза больше разрешения и в шесть раз больше продолжительности Sora от OpenAI, который совсем недавно стал доступен пользователям.
Однако это преимущество все еще теоретическое. В экспериментальном видеоинструменте Google VideoFX, где Veo 2 в настоящее время является эксклюзивом, видео ограничены разрешением 720p и длиной всего восемь секунд. (Sora, с другой стороны, может создавать 20-секундные видео с разрешением 1080p.)
В настоящее время VideoFX находится в списке ожидания, но Google увеличивает число пользователей, которые могут получить к нему доступ на этой неделе. Компания планирует внедрить его в большее количество своих продуктов, включая YouTube Shorts, в следующем году. Подобно оригинальному Veo, Veo 2 может создавать видео из простого текстового запроса или комбинации текста и опорного изображения.
Итак, чем отличается Veo 2? DeepMind утверждает, что эта новая модель лучше «понимает» физику и элементы управления камерой, что приводит к «более четким» кадрам. Под «более четкими» они подразумевают более четкие текстуры и изображения, особенно в сценах с действием.
Что касается элементов управления камерой, Veo 2 теперь может точнее позиционировать виртуальную камеру и перемещать ее, чтобы снимать людей и объекты с разных ракурсов.
Он также может имитировать различные объективы и кинематографические эффекты, придавая видео более отточенный, похожий на кино. Кроме того, говорят, что он улавливает более тонкие человеческие выражения. DeepMind поделился несколькими тщательно отобранными образцами, и я думаю, что они выглядят довольно впечатляюще для кадров, созданных с помощью ИИ. Тем не менее, еще предстоит проделать некоторую работу. Взгляните на странно скользкую дорогу на кадрах выше или на пешеходов на заднем плане, сливающихся вместе. Итак, для тех, кто беспокоится, что ИИ может взять верх, он добился огромных успехов, но ему все еще далеко до замены человеческих знаний и навыков.
Veo 2 обучался на куче видео, что довольно стандартно для моделей ИИ. Получая бесчисленные примеры данных, эти модели начинают распознавать закономерности, которые позволяют им генерировать новый контент. Хотя DeepMind не раскрывает точные источники видео, используемых для обучения Veo 2, YouTube является вероятным кандидатом, учитывая, что он принадлежит Google.
Как и другие модели изображений и видео Google, Veo 2 встраивает невидимый водяной знак SynthID в свои выходные данные, чтобы пометить их как сгенерированные ИИ, что призвано помочь предотвратить дезинформацию и неправильную атрибуцию. Но давайте будем реалистами — большинство людей, вероятно, не проверяют наличие водяного знака перед тем, как поделиться видео, что все еще оставляет место для распространения дезинформации.
Наряду с Veo 2, Google DeepMind также представила обновления Imagen 3, своей модели генерации изображений. Новая версия Imagen 3 теперь доступна пользователям ImageFX, инструмента создания изображений Google, начиная с этого понедельника. Обновленная модель обещает предоставлять «более яркие, лучше скомпонованные» изображения и фотографии в различных стилях, включая фотореализм, импрессионизм и аниме.
Битва за ИИ между Google и OpenAI (команда, стоящая за ChatGPT) накаляется, и обе компании выпускают новые продукты, функции и обновления в этом месяце. Теперь Google DeepMind, исследовательская лаборатория Google в области ИИ, нацелилась на победу над OpenAI в игре по созданию видео — и, возможно, ей это удастся, по крайней мере, на какое-то время.
DeepMind представила Veo 2, ИИ-генератор видео следующего поколения и преемника Veo, который поддерживает различные продукты в линейке Google. Veo 2 может создавать клипы длительностью более двух минут с разрешением до 4K (4096 x 2160 пикселей). Это в четыре раза больше разрешения и в шесть раз больше продолжительности Sora от OpenAI, который совсем недавно стал доступен пользователям.
Однако это преимущество все еще теоретическое. В экспериментальном видеоинструменте Google VideoFX, где Veo 2 в настоящее время является эксклюзивом, видео ограничены разрешением 720p и длиной всего восемь секунд. (Sora, с другой стороны, может создавать 20-секундные видео с разрешением 1080p.)
В настоящее время VideoFX находится в списке ожидания, но Google увеличивает число пользователей, которые могут получить к нему доступ на этой неделе. Компания планирует внедрить его в большее количество своих продуктов, включая YouTube Shorts, в следующем году. Подобно оригинальному Veo, Veo 2 может создавать видео из простого текстового запроса или комбинации текста и опорного изображения.
Итак, чем отличается Veo 2? DeepMind утверждает, что эта новая модель лучше «понимает» физику и элементы управления камерой, что приводит к «более четким» кадрам. Под «более четкими» они подразумевают более четкие текстуры и изображения, особенно в сценах с действием.
Что касается элементов управления камерой, Veo 2 теперь может точнее позиционировать виртуальную камеру и перемещать ее, чтобы снимать людей и объекты с разных ракурсов.
Он также может имитировать различные объективы и кинематографические эффекты, придавая видео более отточенный, похожий на кино. Кроме того, говорят, что он улавливает более тонкие человеческие выражения. DeepMind поделился несколькими тщательно отобранными образцами, и я думаю, что они выглядят довольно впечатляюще для кадров, созданных с помощью ИИ. Тем не менее, еще предстоит проделать некоторую работу. Взгляните на странно скользкую дорогу на кадрах выше или на пешеходов на заднем плане, сливающихся вместе. Итак, для тех, кто беспокоится, что ИИ может взять верх, он добился огромных успехов, но ему все еще далеко до замены человеческих знаний и навыков.
Veo 2 обучался на куче видео, что довольно стандартно для моделей ИИ. Получая бесчисленные примеры данных, эти модели начинают распознавать закономерности, которые позволяют им генерировать новый контент. Хотя DeepMind не раскрывает точные источники видео, используемых для обучения Veo 2, YouTube является вероятным кандидатом, учитывая, что он принадлежит Google.
Как и другие модели изображений и видео Google, Veo 2 встраивает невидимый водяной знак SynthID в свои выходные данные, чтобы пометить их как сгенерированные ИИ, что призвано помочь предотвратить дезинформацию и неправильную атрибуцию. Но давайте будем реалистами — большинство людей, вероятно, не проверяют наличие водяного знака перед тем, как поделиться видео, что все еще оставляет место для распространения дезинформации.
Наряду с Veo 2, Google DeepMind также представила обновления Imagen 3, своей модели генерации изображений. Новая версия Imagen 3 теперь доступна пользователям ImageFX, инструмента создания изображений Google, начиная с этого понедельника. Обновленная модель обещает предоставлять «более яркие, лучше скомпонованные» изображения и фотографии в различных стилях, включая фотореализм, импрессионизм и аниме.