Vision Banana: ИИ для генерации изображений научился понимать пространство

Google DeepMind представила новую визуальную модель Vision Banana. Разработчики взяли за основу существующую модель генерации Nano Banana Pro и дообучили ее на небольшом объеме данных. В итоге нейросеть научилась выполнять сложные задачи визуального анализа, такие как измерение глубины и распознавание 3D-поверхностей.

Особенность модели заключается в том, что все задачи по анализу пространства она решает через процесс генерации изображения по текстовому запросу.

Нейросеть показывает результаты лучше, чем специализированные ИИ, хотя для нее не создавали отдельные узкопрофильные инструменты.

Успех модели доказывает, что продвинутые генераторы изображений уже обладают глубоким пониманием физической структуры мира.

Результаты Vision Banana намечают тренд на объединение технологий. Раньше для беспилотников или роботов требовалось множество разных систем визуального анализа. Теперь эти функции могут быть интегрированы в одну генеративную модель. Это делает процесс анализа окружения более целостным и эффективным для будущих инженерных разработок.

Подписывайтесь на Telegram Ринат Шакиров | Промпты для Midjourney | ChatGPT |.