OpenAI представила Images 2.0 – точные тексты, высокая детализация и генерация сложных изображений

Культура | Сегодня, 11:26

OpenAI представила Images 2.0 – точные тексты, высокая детализация и генерация сложных изображений

Компания OpenAI выпустила обновленную модель генерации изображений ChatGPT Images 2.0, существенно улучшающую читабельность надписей и уровень детализации. Новый инструмент позволяет быстро создавать сложные изображения (от постеров и презентаций до комиксов и интерфейсных макетов UI) всего за несколько минут. Об этом пишет TechCrunch .

Новое поколение генерации изображений заметно уменьшает разницу между результатами, созданными человеком и искусственным интеллектом. Если еще несколько лет назад модели часто ошибались в текстах и ??сочиняли некорректные надписи, то Images 2.0 уже способна формировать изображения, которые выглядят целостно и пригодны для реального использования без очевидных дефектов.

Кроме того, системы генерации изображений имели проблемы с точностью текста из-за использования диффузионных моделей, которые восстанавливают картинку шума и хуже прорабатывают мелкие элементы. Однако в новой модели существенно повысилось качество и точность результатов.

Компания OpenAI не раскрывает техническую архитектуру Images 2.0, однако сообщает, что у модели есть так называемые "возможности мышления" (режим "thinking"). Они разрешают анализировать запрос, проверять собственные результаты. Кроме того, добавлена ??возможность создавать несколько вариантов изображения по одному запросу, а также поддержку разных форматов и размеров для адаптации под разные платформы.

Также модель демонстрирует улучшенную работу с нелатинскими языками (на японском, корейском, хинди и бенгальском). В то же время, ее учебная база ограничена данными до декабря 2025 года, что может влиять на актуальность отдельных визуальных результатов.

В компании добавили, что Images 2.0 обеспечивает беспрецедентный уровень точности и детализации. Она способна не только концептуализировать более сложные изображения, но и эффективно воплощать их, следуя инструкциям, сохраняя детали и воспроизводя мелкие элементы, обычно "ломающие" модели: мелкий текст, иконки, UI-элементы, сложные композиции и тонкие стилистические ограничения - вплоть до разрешения 2K.

Инструмент уже доступен всем пользователям ChatGPT и Codex, в то время как платные подписчики получат доступ к расширенным возможностям. Для разработчиков открыт доступ к модели через API под названием gpt-image-2, а цена зависит от качества и разрешения изображений. Он позволяет генерировать и редактировать изображения, а также работать с разными уровнями разрешения, включая высокодетализованные варианты.

OpenAI позиционирует ChatGPT Images 2.0 как последующий этап развития собственных зрительных моделей после диффузионных систем.

20 апреля пользователи во многих мировых странах сообщили о сбое в работе AI-моделей – Gemini, Claude, Copilot, ChatGPT . Это зафиксировал Downdetector, отслеживающий перебои в работе сервисов.

В начале апреля в Минцифре анонсировали появление искусственного интеллекта , который будет консультировать украинцев на горячей линии Минцифры. Этот сервис будет доступен всем и круглосуточно.

По материалам: kp.ua