OpenAI у вівторок офіційно випустила ChatGPT Images 2.0, що не лише значно підвищує точність текстової генерації, а й покращує естетику дизайну на плакатах та портретах. Ця модель уперше також запроваджує «режим мислення», завдяки якому генерація зображень отримує можливості вебпошуку та пакетного виведення кількох зображень, повністю наближаючись до сценаріїв комерційного застосування.
(Canva оголосила про глибоку інтеграцію Claude, реалізувавши перетворення AI-чернеток на готові дизайнерські матеріали)
Від вигадування з нуля до ідеального меню: AI нарешті навчилась друкувати слова
Згадаємо дворічний давності момент: слабкі місця моделей генерації зображень із текстом майже всім відомі. Поки в запиті (prompt) присутня потреба в тексті, результат зазвичай рясніє абсурдними орфографічними помилками або навіть вигаданими фрагментами. У неангломовних мовах, як-от китайська, японська та корейська, це ще більш проблематично.
Показовий приклад корейського постера з офіційного оголошення
Наразі ChatGPT Images 2.0 здатна згенерувати один постер, який можна одразу використовувати постачальникам, причому текст — чіткий і точний. Дослідники останніми роками активно вивчали нові архітектури, зокрема автогенеративні моделі (Autoregressive Models) та інші. Завдяки цьому помітно покращилися логіка роботи, розуміння тексту, можливості генерації та верифікації.
Режим мислення вийшов у мережу: підключення до пошуку, узгодженість композиції — усе на місці
Найголовніше оновлення ChatGPT Images 2.0 — це «режим мислення (Thinking Capabilities)». Наразі його доступно для платних користувачів ChatGPT Plus, Pro, комерційної версії та корпоративного видання. Після ввімкнення модель може в реальному часі підключатися до вебпошуку, щоб допомагати генерації зображень, а також створювати відповідні візуальні пояснювальні ілюстрації на основі файлів, завантажених користувачем, і перед офіційним виведенням самостійно перевіряти та оптимізувати вміст зображень.
У пакетній генерації в режимі мислення один промпт може вивести за один раз до восьми зображень, і між ними можна зберігати узгоджені образи персонажів, стилі об’єктів та загальну стилістику. Це підходить для розкадровок коміксів, серій зображень і тексту для соцмереж, а також для схем планування різних просторових зон у дизайні інтер’єру.
Показовий приклад розкадровки з офіційного оголошення
Щодо роздільної здатності, нова модель підтримує виведення до 2K, а також додає різні варіанти співвідношення сторін від 3:1 до 1:3, що додатково задовольняє різні комерційні потреби.
Азійські мови значно оптимізовано — радійте, користувачі з Китаю, Японії та Кореї!
Крім англійської, OpenAI окремо підкреслила суттєве покращення Images 2.0 для азійських мов: у японській, корейській і китайській — усюди видно явні покращення.
Тестова стаття, яку кілька днів тому активно поширювали в китайських технологічних спільнотах, також підтвердила цю інформацію. Кілька творців контенту на Zhihu тоді провели порівняльні практичні тести GPT-Image-2 і Google Nano Banana Pro від конкурентів. Вони охопили різні сценарії, зокрема дизайн китайських постерів, обкладинки для електронної комерції, інтерфейси для соцмереж та оцифровані графіки й діаграми.
Показ тестування статті на Zhihu для GPT-Image 2.0
Результати тестів показали, що GPT-Image-2 помітно краще за всіма параметрами: естетика шрифтів для китайських ієрогліфів, ієрархія розмітки та загальне відчуття дизайну. Згенеровані постери за стилем ближчі до реальних комерційних матеріалів, а не до шаблонного виведення, яке має явне «AI-почуття». У статті також зазначено, що GPT-Image-2 демонструє вищу точність деталей і під час відтворення (вигляду, як у ігрових екранах або скріншотах месенджерів), а також під час відтворення реальних сцен із живими людьми.
ChatGPT Images 2.0 повністю відкрито, API також запущено
Наразі ChatGPT Images 2.0 з цього вівторка безкоштовно надає базові функції всім користувачам ChatGPT і Codex; платні користувачі можуть розблокувати ще більш просунуті ефекти виводу. Паралельно OpenAI також синхронно відкрила GPT-Image-2 API. Ціни розраховуються за рівнями якості виводу та роздільної здатності, надаючи підприємствам і розробникам гнучкість для інтеграції.
Варто зазначити, що гранична дата знань для нової моделі — грудень 2025 року. Тому для генерації зображень із промптами, що стосуються найсвіжіших новин, точність може бути певною мірою обмежена. Крім того, швидкість генерації складних композицій не може бути такою ж миттєвою, як у звичайних текстових відповідях на запитання, але все одно займає лише кілька хвилин.
Ця стаття «ChatGPT Images 2.0 дебютує! Точність текстової генерації значно зростає, легко створюйте маркетингові постери» — вперше з’явилася на «Ланцюгових новинах ABMedia».
Пов'язані статті
DeepSeek Зрізає Ціни на Вхідний Кеш до 1/10 Від Ціни Запуску; V4-Pro Падає до 0,025 Юаня за Мільйон Токенів
OpenAI Рекрутує найкращі таланти з корпоративного софту, оскільки агенти на передньому краї змінюють індустрію
Baidu Qianfan запустила підтримку Day 0 для DeepSeek-V4 із API-сервісами
Стэнфордський курс з AI у поєднанні з галузевими лідерами Дженсінгом Хуаном (黃仁勳) і Альтманом кидає виклик: створити цінність для всього світу за 10 тижнів!
Anthropic 派 Claude Mythos проходить 20 годин психіатричної оцінки: оборонна реакція лише 2%, встановлено історичний мінімум серед усіх поколінь
AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI