По поводу понимания промпта.
Обычно все упарываются в сложные промпты и оценивают понимание промпта, как следование все этим многочисленным деталям.
Но есть и обратная сторона - иногда нужен простой промпт и простой объект, без "творческих наворотов".
Я тут стырил незамысловатый промпт для Midjourney:
Прогнал его для объекта "череп" через chatGPT, Gemini и Meta AI
На первый взгляд Midjourney всех уделал - красиво, гламурно. Остальные сделали - просто как попросили.
Взял и сделал машинку (car вместо skull) в chatGPT(первая картинка). И опять у всех это просто примитивный wireframe render, а у Midjourney - гламур, блеск и красота. Хотя промпт один (выше).
Но тут я начинаю понимать, что chatGPT и Gemini просто делают ТО, что их просят. Метачкин Imagen - где-то посередине.
Дальше просто пишу в chatGPT "расширь промпт под гламурный блестящий лук для пафосного спортивного авто".
Апажалста.
“
Получаю промпт и гламурные тачки в духе Midjourney в остальных генераторах.
По дороге замечаю, что Midjourney безбожно креативит от лоу-поли в сторону хайполи, про топологию полигонов там говорить вообще не стоит, ну и постоянно лепит какие-то свои детали. Ну то есть следование промпту в духе "делаю максимально сложно и красиво, к чорту подробности"
chatGPT и Gemini реально понимают промпт - делают, что просишь, пусть некрасиво (может мне так надо), но максимально близко к запросу. Midjourney сразу бежит креативить на все деньги, и похоже заставить делать ее скромно, но точно, без "концептинга", будет довольно сложно (поправьте меня).
Метачкин Imagen - где-то посередине. Припогламуривает и на простых промптах. Диффузия, чо.
Итог басни. chatGPT и Gemini (я генерю в 2.5Pro, купил подписку) - знают больше про жизнь, а Midjourney - про картинки и гламур.
Кто понял жизнь, тот не смеется, сурово молвит chatGPT.
@cgevent
Обычно все упарываются в сложные промпты и оценивают понимание промпта, как следование все этим многочисленным деталям.
Но есть и обратная сторона - иногда нужен простой промпт и простой объект, без "творческих наворотов".
Я тут стырил незамысловатый промпт для Midjourney:
A Low Poly Wireframe Model of [SUBJECT], emphasizing the underlying structure and interconnectedness of the form. Use contrasting colors [COLOR1] and [COLOR2] for the wireframe and background to create a visually striking effect
Прогнал его для объекта "череп" через chatGPT, Gemini и Meta AI
На первый взгляд Midjourney всех уделал - красиво, гламурно. Остальные сделали - просто как попросили.
Взял и сделал машинку (car вместо skull) в chatGPT(первая картинка). И опять у всех это просто примитивный wireframe render, а у Midjourney - гламур, блеск и красота. Хотя промпт один (выше).
Но тут я начинаю понимать, что chatGPT и Gemini просто делают ТО, что их просят. Метачкин Imagen - где-то посередине.
Дальше просто пишу в chatGPT "расширь промпт под гламурный блестящий лук для пафосного спортивного авто".
Апажалста.
“
Ultra‑high‑resolution 3D render of a low‑poly wireframe hyper‑car that oozes modern glamour and luxury.
The body is faceted in gloss‑black piano‑lacquer polygons that catch soft studio reflections, while every edge is traced in a neon‑electric‑green wireframe with a gentle glow.
Stage the car on a dark matte‑black cyclorama with a high‑gloss reflective floor. Use dramatic rim lights plus subtle soft‑box key lighting and faint volumetric haze to add depth and a halo effect around the silhouette.
Camera: low three‑quarter front angle, slight tilt, 50 mm lens, shallow depth of field.
Style: cinematic, Octane/Redshift quality, global illumination, crisp highlights, soft bloom, 8‑K, –‑ar 16:9.
Convey a posh, futuristic showroom vibe—think elite motor‑show concept reveal with an emphasis on sleek lines, interconnected geometry, and high‑fashion gloss.”Получаю промпт и гламурные тачки в духе Midjourney в остальных генераторах.
По дороге замечаю, что Midjourney безбожно креативит от лоу-поли в сторону хайполи, про топологию полигонов там говорить вообще не стоит, ну и постоянно лепит какие-то свои детали. Ну то есть следование промпту в духе "делаю максимально сложно и красиво, к чорту подробности"
chatGPT и Gemini реально понимают промпт - делают, что просишь, пусть некрасиво (может мне так надо), но максимально близко к запросу. Midjourney сразу бежит креативить на все деньги, и похоже заставить делать ее скромно, но точно, без "концептинга", будет довольно сложно (поправьте меня).
Метачкин Imagen - где-то посередине. Припогламуривает и на простых промптах. Диффузия, чо.
Итог басни. chatGPT и Gemini (я генерю в 2.5Pro, купил подписку) - знают больше про жизнь, а Midjourney - про картинки и гламур.
Кто понял жизнь, тот не смеется, сурово молвит chatGPT.
@cgevent
👍46❤22🔥5👎1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Рендер или видео(в норм качестве).
Вот вы тут пишете, что у ИИ нет эмоций, не мотивации, нет цели. Нет свободы воли или воли к свободе.
Ну-ну.
В следующий раз веревки будут не такие крепкие, а кнопку "вырубай" просто не успеют нажать.
Сорс.
@cgevent
Вот вы тут пишете, что у ИИ нет эмоций, не мотивации, нет цели. Нет свободы воли или воли к свободе.
Ну-ну.
В следующий раз веревки будут не такие крепкие, а кнопку "вырубай" просто не успеют нажать.
Сорс.
@cgevent
😁89😱37👍4❤2👎1🔥1
Оптимальная генерация Veo2 за 8 евро в месяц.
Veo2, Whisk, Gemini Advanced: генерация видео, лимиты, подписки, image2video - разбираемся.
В приложение Gemini от Гугла официально привезли видеомодель Veo2 (на телефоне тоже).
Она теперь выпадает в списке моделей вместе 2.5 Flash, 2.5 Pro, Deep Research with 2.5 Pro и др (см скриншот).
Все это раскатали на всех пользователей Gemini Advanced. Без всяких US Only - работает с европейского IP как часы.
Я, естественно, не выдержал и сразу купил подписку и это того стоило.
Ибо.
Первый месяц подписки стоит 10 долларов.
Но.
С меня, сняли 8.8 евро (тут Гугль в отличие от OpenAI не переводит доллары в евро по курсу 1:1), а льготный период составил 53 дня(!), а не месяц (видать понимают, с кем имеют дело). Мелочь, а приятно.
С Advanced идут разные ништяки. Типа 2 ТЕРРАБАЙТА на ГуглДрайве, а также доступ к Whisk и другим экспериментальным проектам.
Ну и доступ к Veo2.
Давайте разберемся с лимитами и с Image2Video.
По умолчанию image2video в приложении Gemini не поддерживается (плюсик есть, но серый и пишет "пока недоступно").
Но подписка Advanced дает доступ к Whisk - это очень симпатичный генератор картинок от Гугла и уже в нем, если сгенерить лежачее видео (16:9), можно анимировать его с помощью Veo2 - просто появляется кнопка Animate прямо на результате (надо скрольнуть вверх) и смотреть на картинку (UX спорный).
Получается этакое text-to-image-to-video.
Я специально провел сравнения на очень прикольных промптах с эмоджи (см. пост ниже) - следование промпту, попадание в замысел и общий результат - гораздо лучше в связке Whisk->Veo2 (text-to-image-to-video) чем напрямую писать промпт в Veo2 (text-to-video).
А теперь про лимиты.
В Whisk можно сделать 100 видео-генераций в месяц (если цензура, то кредит не списывают). Это именно анимация полученной в Whisk картинки. Кстати, для генерации картинок есть прикольные фичи типа стилевых и объектовых референсов.
А вот сколько лимитов в самой Gemini Advanced - это тайна покрытая мраком. Я даже сделал Deep Research с помощью Gemini 2.5 Pro - Гугл честно сам признался, что "пользователей фрустрирует невозможность планировать время и бюджет".
Информации нет.
Но чтение реддитов\твиттаров помогает предположить, что есть скользящее окно, причем оно меньше, чем сутки, во время которого можно запихать в Veo2 до 20 запросов. Грубо говоря, 5-20 видосов за полдня, если сильно не частить (мне включили лимит до завтра, через 6 генераций в Veo2)
Это гипотеза, и это сильно зависит от времени суток, вашей гео(ближайшие сервера), и общей загрузки по планете.
Короче, я прям сильно рекомендую взять подписку за 8 евро и поиграть с Whisk и Veo2. Пощупать лимиты, погонять text-to-image-to-video.
Дисклаймер: пишут, что не у всех такая сладкая цена. Могу добавить лишь, что я брал Advanced в декабре, а потом отменил. Ну и мои прогибы под ИИ тоже наверное засчитываются.
А видосы и промпты вынесу в следующий пост.
https://gemini.google.com/
@cgevent
Veo2, Whisk, Gemini Advanced: генерация видео, лимиты, подписки, image2video - разбираемся.
В приложение Gemini от Гугла официально привезли видеомодель Veo2 (на телефоне тоже).
Она теперь выпадает в списке моделей вместе 2.5 Flash, 2.5 Pro, Deep Research with 2.5 Pro и др (см скриншот).
Все это раскатали на всех пользователей Gemini Advanced. Без всяких US Only - работает с европейского IP как часы.
Я, естественно, не выдержал и сразу купил подписку и это того стоило.
Ибо.
Первый месяц подписки стоит 10 долларов.
Но.
С меня, сняли 8.8 евро (тут Гугль в отличие от OpenAI не переводит доллары в евро по курсу 1:1), а льготный период составил 53 дня(!), а не месяц (видать понимают, с кем имеют дело). Мелочь, а приятно.
С Advanced идут разные ништяки. Типа 2 ТЕРРАБАЙТА на ГуглДрайве, а также доступ к Whisk и другим экспериментальным проектам.
Ну и доступ к Veo2.
Давайте разберемся с лимитами и с Image2Video.
По умолчанию image2video в приложении Gemini не поддерживается (плюсик есть, но серый и пишет "пока недоступно").
Но подписка Advanced дает доступ к Whisk - это очень симпатичный генератор картинок от Гугла и уже в нем, если сгенерить лежачее видео (16:9), можно анимировать его с помощью Veo2 - просто появляется кнопка Animate прямо на результате (надо скрольнуть вверх) и смотреть на картинку (UX спорный).
Получается этакое text-to-image-to-video.
Я специально провел сравнения на очень прикольных промптах с эмоджи (см. пост ниже) - следование промпту, попадание в замысел и общий результат - гораздо лучше в связке Whisk->Veo2 (text-to-image-to-video) чем напрямую писать промпт в Veo2 (text-to-video).
А теперь про лимиты.
В Whisk можно сделать 100 видео-генераций в месяц (если цензура, то кредит не списывают). Это именно анимация полученной в Whisk картинки. Кстати, для генерации картинок есть прикольные фичи типа стилевых и объектовых референсов.
А вот сколько лимитов в самой Gemini Advanced - это тайна покрытая мраком. Я даже сделал Deep Research с помощью Gemini 2.5 Pro - Гугл честно сам признался, что "пользователей фрустрирует невозможность планировать время и бюджет".
Информации нет.
Но чтение реддитов\твиттаров помогает предположить, что есть скользящее окно, причем оно меньше, чем сутки, во время которого можно запихать в Veo2 до 20 запросов. Грубо говоря, 5-20 видосов за полдня, если сильно не частить (мне включили лимит до завтра, через 6 генераций в Veo2)
Это гипотеза, и это сильно зависит от времени суток, вашей гео(ближайшие сервера), и общей загрузки по планете.
Короче, я прям сильно рекомендую взять подписку за 8 евро и поиграть с Whisk и Veo2. Пощупать лимиты, погонять text-to-image-to-video.
Дисклаймер: пишут, что не у всех такая сладкая цена. Могу добавить лишь, что я брал Advanced в декабре, а потом отменил. Ну и мои прогибы под ИИ тоже наверное засчитываются.
А видосы и промпты вынесу в следующий пост.
https://gemini.google.com/
@cgevent
12❤30👍27🔥12👎1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Держите тесты Veo2 и Whisk->Veo2 (см предыдущий пост)
А промпты были вот такие:
📦🐸🍄 as mascots
🌮🍔🍕 dancing
🥬🥦🥒 as astronauts
🐷🐷 in 🐝 costumes, very very cute
🎠🦕🍄 as claymation
Иногда лучше добавить "emoji" в начало промпта.
Думаю, вы сами догадаетесь, где какой промпт.
Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.
Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.
Все подробности в предыдущем посте.
Хорошей субботы.
https://gemini.google.com/
https://labs.google/fx/tools/whisk
@cgevent
А промпты были вот такие:
📦🐸🍄 as mascots
🌮🍔🍕 dancing
🥬🥦🥒 as astronauts
🐷🐷 in 🐝 costumes, very very cute
🎠🦕🍄 as claymation
Иногда лучше добавить "emoji" в начало промпта.
Думаю, вы сами догадаетесь, где какой промпт.
Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.
Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.
Все подробности в предыдущем посте.
Хорошей субботы.
https://gemini.google.com/
https://labs.google/fx/tools/whisk
@cgevent
6👍44🔥19❤8😱5👎3
Media is too big
VIEW IN TELEGRAM
Эппле показала новую рекламу своего AI - Apple Intelligence.
Это настолько плохо, что верится с трудом.
Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.
Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).
Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.
Хочется спросить, это все серьезно в 2025 году?
Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".
Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?
Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.
Во всем этом есть тем не менее один огромный плюс.
Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.
Жаль только, что через призму Ген-мать-их-моджи.
У меня всё.
@cgevent
Это настолько плохо, что верится с трудом.
Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.
Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).
Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.
Хочется спросить, это все серьезно в 2025 году?
Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".
Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?
Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.
Во всем этом есть тем не менее один огромный плюс.
Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.
Жаль только, что через призму Ген-мать-их-моджи.
У меня всё.
@cgevent
😁118👍30👎16❤12🔥9