Градиент обреченный

Скачки нарисованных лошадей

Еще весной модель для генерации картинок gpt-image от OpenAI будоражила умы, выдавая тонны полезных картинок в стиле аниме Ghibli, логотипов и подобного контента. Модель лично меня поразила, особенно то, что можно было накидать несколько картинок и объединить их в одну фоточку, например, так. Это был скачок, модель вырвалась вперед.

Затем скакнул Google, чья Nano Banana завирусилась, так как в ней можно не просто нагенерировать что-то прикольное, но и редактировать в pixel perfect режиме (части, которые не редактируются, остаются неизменными) в большинстве случаев. Особенно порадовало, что в обучении явно участвовали данные, широко описывающие мировую культуру. Модель и советские мультики знает и даже Васю Ложкина.

Еще она генерирует надписи на русском и других языках, даже если это чертеж турбины в разрезе. Опять-таки иногда сбивается и опять-таки это очередной скачок.

Тут бесплатная интеграция моего хорошего знакомого Макса Купрашевича и его команды, которая среди прочего пилит модель Malvina для попиксельного редактирования картинок и которую можно попробовать в GigaChat'е.

И вот OpenAI спешит нам напомнить, что у неё тоже есть достойная модель, зарелизив GPT Image 1.5. В глаза бросается то, что надписи стали генерироваться лучше, в том числе на русском. Мне особенно нравится кейс, когда нашел хорошую инфографику для презы и хочется ее перевести, а часть легенды убрать/переделать.

Скорость тоже стала выше, раза в 2-3. Качество вообще улучшилось в разы, но, кмк, до гугловской модели пока недотягивает. Кажется, что Gemini понимает инструкцию чуть получше (экспертное мнение, сделанное по пяти картинкам).

Тестируем, ждём GPT Image 2.0 Pro+

https://openai.com/index/new-chatgpt-images-is-here/

❤20👍7⚡3😁2👾1

3.6K viewsSergei Averkiev, 07:54