OpenAI во вторник официально выпустила ChatGPT Images 2.0, что не только значительно повышает точность генерации текста, но и улучшает дизайнерскую привлекательность на постерах и портретах. Эта модель впервые также вводит «режим мышления», благодаря которому генерация изображений получает возможности сетевого поиска и пакетного вывода нескольких изображений, вплотную приближаясь к сценариям коммерческого применения.
(Canva объявила о глубокой интеграции Claude, позволяя преобразовывать AI-черновики в готовые дизайнерские продукты)
От выдумывания с нуля до идеального меню: AI наконец научился писать без ошибок
Вспомните два года назад: слабые места моделей генерации изображений на основе текста были почти всем очевидны. Если в подсказке были требования к тексту, результаты часто изобиловали абсурдными орфографическими ошибками или даже выдумками. В неанглоязычных языках, таких как китайский, японский и корейский, эта проблема была еще более выраженной.
Официальный анонс: схематичный пример корейского постера
Сегодня ChatGPT Images 2.0 уже может генерировать рекламный постер, который можно сразу использовать поставщикам, а текст получается четким и точным. Исследователи в последние годы активно изучают новые архитектуры с самообращением, такие как (Autoregressive Models), и благодаря этому заметно улучшились логика работы, понимание текста, а также возможности генерации и верификации.
Режим мышления запущен: подключенный поиск и согласованность композиции — все на месте
Самое ключевое обновление ChatGPT Images 2.0 — это «режим мышления (Thinking Capabilities)». Сейчас он доступен оплачивающим пользователям ChatGPT Plus, Pro, коммерческой версии и корпоративной версии. После включения модель может в реальном времени выполнять сетевой поиск информации для поддержки генерации изображений, а также создавать соответствующие визуальные пояснительные изображения на основе файлов, загруженных пользователем, и перед официальным выводом проводить самопроверку и оптимизацию содержимого изображений.
При пакетной генерации в режиме мышления одна подсказка максимум позволяет за один раз вывести до восьми изображений, и между ними сохраняются согласованные образы персонажей, стили объектов и общий художественный стиль. Это подходит для раскадровок комиксов, серийных иллюстраций и текстов для социальных сетей, а также даже для план-схем всех помещений в интерьерном дизайне.
Официальный анонс: схематичный пример раскадровки комикса
По разрешению новая модель поддерживает вывод до 2K и добавляет различные варианты соотношения сторон от 3:1 до 1:3, еще больше удовлетворяя разные коммерческие потребности.
Значительное улучшение для азиатских языков — китайско-японско-корейным пользователям повезло!
Помимо английского, OpenAI особо отмечает, что Images 2.0 серьезно улучшили работу с текстом на азиатских языках: в японском, корейском и китайском — везде есть явные улучшения.
Тестовая статья, распространявшаяся несколько дней назад в китайских технологических сообществах, также подтвердила эту новость. Несколько авторов с Zhihu тогда провели практические сравнения GPT-Image-2 и конкурирующего продукта Google Nano Banana Pro, включая различные сценарии: дизайн китайских постеров, обложки для e-commerce, интерфейсы соцсетей и оцифрованные диаграммы.
Тест статьи Zhihu: GPT-Image 2.0
Результаты тестов показывают, что GPT-Image-2 заметно превосходит в эстетике шрифтов для китайских иероглифов, иерархии верстки и общем ощущении дизайна. Сгенерированные постеры по стилю ближе к реальным коммерческим материалам, а не к шаблонным выводам с явным «AI-ощущением». В статье также указано, что GPT-Image-2 демонстрирует более высокую точность деталей и при воссоздании интерфейсов — например, (как кадры из игр или скриншоты из мессенджеров) — а также в восстановлении сцен с реальными портретами.
ChatGPT Images 2.0 полностью открыта, API также запущен
На данный момент ChatGPT Images 2.0 с этого вторника уже бесплатно доступна для всех пользователей ChatGPT и Codex, а платные пользователи могут разблокировать более продвинутые эффекты вывода. Параллельно OpenAI также открыла GPT-Image-2 API. Цена рассчитывается по уровням качества вывода и разрешения, предоставляя компаниям и разработчикам гибкость для интеграции.
Важно отметить, что у новой модели дата окончания знаний — декабрь 2025 года. Для подсказок по генерации изображений, связанных с самыми свежими событиями, точность может быть ограничена. Кроме того, скорость генерации сложных композиций также не может быть такой же мгновенной, как у обычных текстовых вопросов и ответов, но все равно занимает всего несколько минут.
Эта статья: ChatGPT Images 2.0 выходит в свет! Существенно повышена точность генерации текста, легко создавать маркетинговые постеры — впервые появилась в Цепных новостях ABMedia.
Связанные статьи
Google Cloud запускает чипы TPU8T и TPU8I для приложений искусственного интеллекта
Robinhood Ventures Fund Инвестирует $75M в OpenAI: Розничные инвесторы получают доступ к ИИ-гиганту
На создателей AI16Z и ELIZAOS подали в суд по обвинениям в мошенничестве на $2,6 млрд; падение токена на 99,9% от пика
Tencent и Alibaba обсуждают инвестиции в DeepSeek, оценка превышает $200 миллиардов