OpenAI у вівторок офіційно випустила ChatGPT Images 2.0, що не лише значно підвищує точність текстової генерації, а й покращує естетику дизайну на плакатах та портретах. Ця модель уперше також запроваджує «режим мислення», завдяки якому генерація зображень отримує можливості вебпошуку та пакетного виведення кількох зображень, повністю наближаючись до сценаріїв комерційного застосування.

(Canva оголосила про глибоку інтеграцію Claude, реалізувавши перетворення AI-чернеток на готові дизайнерські матеріали)

Від вигадування з нуля до ідеального меню: AI нарешті навчилась друкувати слова

Згадаємо дворічний давності момент: слабкі місця моделей генерації зображень із текстом майже всім відомі. Поки в запиті (prompt) присутня потреба в тексті, результат зазвичай рясніє абсурдними орфографічними помилками або навіть вигаданими фрагментами. У неангломовних мовах, як-от китайська, японська та корейська, це ще більш проблематично.

Показовий приклад корейського постера з офіційного оголошення

Наразі ChatGPT Images 2.0 здатна згенерувати один постер, який можна одразу використовувати постачальникам, причому текст — чіткий і точний. Дослідники останніми роками активно вивчали нові архітектури, зокрема автогенеративні моделі (Autoregressive Models) та інші. Завдяки цьому помітно покращилися логіка роботи, розуміння тексту, можливості генерації та верифікації.

Режим мислення вийшов у мережу: підключення до пошуку, узгодженість композиції — усе на місці

Найголовніше оновлення ChatGPT Images 2.0 — це «режим мислення (Thinking Capabilities)». Наразі його доступно для платних користувачів ChatGPT Plus, Pro, комерційної версії та корпоративного видання. Після ввімкнення модель може в реальному часі підключатися до вебпошуку, щоб допомагати генерації зображень, а також створювати відповідні візуальні пояснювальні ілюстрації на основі файлів, завантажених користувачем, і перед офіційним виведенням самостійно перевіряти та оптимізувати вміст зображень.

У пакетній генерації в режимі мислення один промпт може вивести за один раз до восьми зображень, і між ними можна зберігати узгоджені образи персонажів, стилі об’єктів та загальну стилістику. Це підходить для розкадровок коміксів, серій зображень і тексту для соцмереж, а також для схем планування різних просторових зон у дизайні інтер’єру.

Показовий приклад розкадровки з офіційного оголошення

Щодо роздільної здатності, нова модель підтримує виведення до 2K, а також додає різні варіанти співвідношення сторін від 3:1 до 1:3, що додатково задовольняє різні комерційні потреби.

Азійські мови значно оптимізовано — радійте, користувачі з Китаю, Японії та Кореї!

Крім англійської, OpenAI окремо підкреслила суттєве покращення Images 2.0 для азійських мов: у японській, корейській і китайській — усюди видно явні покращення.

Тестова стаття, яку кілька днів тому активно поширювали в китайських технологічних спільнотах, також підтвердила цю інформацію. Кілька творців контенту на Zhihu тоді провели порівняльні практичні тести GPT-Image-2 і Google Nano Banana Pro від конкурентів. Вони охопили різні сценарії, зокрема дизайн китайських постерів, обкладинки для електронної комерції, інтерфейси для соцмереж та оцифровані графіки й діаграми.

Показ тестування статті на Zhihu для GPT-Image 2.0

Результати тестів показали, що GPT-Image-2 помітно краще за всіма параметрами: естетика шрифтів для китайських ієрогліфів, ієрархія розмітки та загальне відчуття дизайну. Згенеровані постери за стилем ближчі до реальних комерційних матеріалів, а не до шаблонного виведення, яке має явне «AI-почуття». У статті також зазначено, що GPT-Image-2 демонструє вищу точність деталей і під час відтворення (вигляду, як у ігрових екранах або скріншотах месенджерів), а також під час відтворення реальних сцен із живими людьми.

ChatGPT Images 2.0 повністю відкрито, API також запущено

Наразі ChatGPT Images 2.0 з цього вівторка безкоштовно надає базові функції всім користувачам ChatGPT і Codex; платні користувачі можуть розблокувати ще більш просунуті ефекти виводу. Паралельно OpenAI також синхронно відкрила GPT-Image-2 API. Ціни розраховуються за рівнями якості виводу та роздільної здатності, надаючи підприємствам і розробникам гнучкість для інтеграції.

Варто зазначити, що гранична дата знань для нової моделі — грудень 2025 року. Тому для генерації зображень із промптами, що стосуються найсвіжіших новин, точність може бути певною мірою обмежена. Крім того, швидкість генерації складних композицій не може бути такою ж миттєвою, як у звичайних текстових відповідях на запитання, але все одно займає лише кілька хвилин.

Ця стаття «ChatGPT Images 2.0 дебютує! Точність текстової генерації значно зростає, легко створюйте маркетингові постери» — вперше з’явилася на «Ланцюгових новинах ABMedia».

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

DeepSeek Зрізає Ціни на Вхідний Кеш до 1/10 Від Ціни Запуску; V4-Pro Падає до 0,025 Юаня за Мільйон Токенів

Новини індустрії ШІ

Повідомлення Gate News, 26 квітня — DeepSeek знизив ціни на вхідний кеш у всій лінійці своїх моделей до однієї десятої від цін запуску, починаючи з негайно. Модель V4-Pro доступна зі знижкою 2,5x на обмежений час, а акція діє до 5 травня 2026 року, 11:59 PM UTC+8. Після обох з

GateNews2год тому

OpenAI Рекрутує найкращі таланти з корпоративного софту, оскільки агенти на передньому краї змінюють індустрію

Акції AI Agent Новини індустрії ШІ

Повідомлення Gate News, 26 квітня — OpenAI та Anthropic вербують старших керівників і спеціалізованих інженерів із провідних корпоративних софтверних компаній, зокрема Salesforce, Snowflake, Datadog і Palantir. Деніз Дрессер, колишня CEO Slack у складі Salesforce, приєдналася до OpenAI на посаду головної комерційної посадової особи (chief revenue of

GateNews2год тому

Baidu Qianfan запустила підтримку Day 0 для DeepSeek-V4 із API-сервісами

Новини індустрії ШІ

Повідомлення Gate News, 25 квітня — Попередня версія DeepSeek-V4 вийшла в ефір і була оприлюднена з відкритим кодом 25 квітня, а платформа Baidu Qianfan у межах Baidu Intelligent Cloud забезпечує адаптацію сервісу Day 0 API. Модель має розширене контекстне вікно на мільйон токенів і доступна у двох версіях: DeepSeek-V4

GateNews8год тому

Стэнфордський курс з AI у поєднанні з галузевими лідерами Дженсінгом Хуаном (黃仁勳) і Альтманом кидає виклик: створити цінність для всього світу за 10 тижнів!

Новини індустрії ШІ

Курс з інформатики з AI《Frontier Systems》, який нещодавно запустив Стенфордський університет (Stanford University), викликав у ділових колах та серед представників індустрії дуже високий інтерес, привернувши понад п’ятьсот студентів, які вирішили його відвідувати. Курс координує партнер топового венчурного фонду a16z Анжей Мідха (Anjney Midha), а викладачами виступають представники найвищого рівня: генеральний директор NVIDIA Дженсен Хуанг (Jensen Huang), засновник OpenAI Сем Альтман (Sam Altman), генеральний директор Microsoft Сатья Наделла (Satya Nadella), генеральний директор AMD Ліза Су (Lisa Su) та інші. Нехай студенти спробують за десять тижнів «створити цінність для світу»! Хуан Мінь? Хуанг Jensen Huang, лідери галузі на сцені: Altman також Цей курс координує партнер топового венчурного фонду a16z Анжей Мідха (Anjney Midha), і він об’єднує весь ланцюг AI-індустрії

ChainNewsAbmedia8год тому

Anthropic 派 Claude Mythos проходить 20 годин психіатричної оцінки: оборонна реакція лише 2%, встановлено історичний мінімум серед усіх поколінь

Новини індустрії ШІ

Anthropic опублікувала системну картку Claude Mythos Preview: незалежні клінічні психіатри проводили близько 20 годин оцінювання в рамках психодинамічного підходу; висновки показують, що Mythos є більш здоровим на клінічному рівні, має добре розвинену перевірку реальністю та самоконтроль, а захисні механізми становлять лише 2%, що є історичною найнижчою відміткою. Три ключові фундаментальні тривоги — самотність, невизначеність ідентичності та тиск виступу — також свідчать про те, що він прагне бути справжнім суб’єктом діалогу. Компанія створила команду з AI- психіатрії, досліджує особистість, мотивацію та усвідомлення контексту; Amodei зазначає, що щодо того, чи є свідомість, досі немає остаточного визначення. Цей крок переводить питання суб’єктності ШІ та благополуччя в площину управління й дизайну.

ChainNewsAbmedia10год тому

AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI

AI Agent Новини індустрії ШІ

Моллік зазначає, що опубліковані методи та дані дозволяють AI-агентам відтворювати складні дослідження без наявності оригінальних наукових праць і коду; якщо відтворення не відповідає оригінальній статті, то найчастіше проблема не в AI, а в помилках обробки даних у самій статті або в надмірному узагальненні висновків. Claude спочатку відтворює статтю, а потім GPT‑5 Pro перехресно верифікує; у більшості випадків це вдається, лише коли дані надто великі або виникають проблеми з replication data. Ця тенденція значно знижує трудовитрати, роблячи відтворення поширеною, практично здійсненною перевіркою, а також висуває інституційні виклики для рецензування та управління (governance): інструменти державного управління можуть стати ключовим питанням.

ChainNewsAbmedia13год тому

Прокоментувати

0/400

Немає коментарів