Метаверсище и ИИще
47.3K subscribers
6.02K photos
4.49K videos
46 files
6.92K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
А теперь к AI постам

📕 Очень хорошее сравнение HiDream Dev и Flux Dev

Что можно сказать на основе визуала:
— У Flux больше разнообразия и лучше держится стиль, который задается в промпте
— HiDream ближе к ребятам, которые хотят получить сразу красивое из коробки и им не особо важно как передается стиль художника или направление арта.

Больше сравнений в оригинальном посте автора: LINK

И мне кажется автор также показал хороший стандарт для быстрого сравнения:
— Промпт сверху
— 3 картинки разного сида
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4313🔥5
Добавил номер +18334363285 в контакты.

Зашёл в вотсап, в чат с этим номером.

Попал в бота Perplexity AI.

Бот официальный (щас в телеге заплакали и умерли боты попрошайки).

Сижу зачем-то генерю котиков, вместо того чтобы спрашивать умныя вопросы (нет ума, нет вопросов).

Картинки генерит ловко, мне кажется там Gemini 2.0 Flash для этого.

Но вот редактировать не умеет.

Но описывает картинки прилично.

Все бесплатно.

В чем подвох?

@cgevent
👍37😁1510🔥7👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Paint

Теперь вы можете визуально подсказывать ChatGPT с помощью стрелочек, базовых фигур, заметок и опорных изображений.

Выглядит нарядно. Сидит в Krea Images.

@cgevent
👍82🔥51
Media is too big
VIEW IN TELEGRAM
Нейропрожарка.

Видео от подписчика Саши.

Случайное видео родившееся из тестов FramePack'a , часть видео действительно сделана им полностью локально. Остальное Gen-4 и большая часть Pixverse.

Сюжет рождался сам по ходу сборки видео, не уверен что все правильно поймут финальную задумку, кем на самом деле была эта девушка...

Стиль был получен путём смешивания 3 лор Flux - киберпанк аниме, киберпанк (обученный на генерациях из сдхл), и плёночная абстракция.

После этого из полученных фоток обучилась ещё одна Лора уже конкретно для этого стиля, она вышла кривоватой и после этого обучилось ещё 3 итерации Лор используя синтетический датасет из предыдущих итераций
)

Финальную Лору автор присунет в комментарии.

Мне понравилась работа с жидкостями.

А вот сторителлинг немного замысловат.

@cgevent
👎49🔥39👍248😱4
This media is not supported in your browser
VIEW IN TELEGRAM
Suno 4.5 в городе!

Пока только для Про подписчиков.

Если кратко:

8 минут с куста (без Extend)

Понимание промпта: ключевые слова имеют больший вес.

Звук: меньше песка и деградации к концу трека

Улучшатель промптов

Инструменты звучат более "разделенно", меньше каши

Больше эмоций в вокале, диапазон от шёпота до форте.

До хрена новых жанров.

P. S. Подписчики распробовали:

хотя это переходная, но я честно подофигел с роста. Я тут уже писал недавно сколько мучений и ручной работы я делал для каверов, сколько генераций для более адекватных вариантов. А тут прям в каждой версии пытается следовать запросу, при этом не уходя и сильно от оригинала, даже голоса в каверах похожи. Лучше ли делает треки обычные со сложным описанием еще не проверил, но в каверах просто шагище вперед
.

Подробнее тут:

A wider range of genres, richer vocals, & enhanced prompt understanding for songs that match your vision. What’s New:

Expanded genres & smarter mashups: More genre options — Blends like midwest emo + neosoul or EDM + folk come together seamlessly.

Enhanced voices: Vocals now hit harder — with more depth, emotion, and range. From intimate whispers to full-on power hooks, v4.5 delivers with feeling.

More complex, textured sound: v4.5 picks up the subtleties that make your music shine — layered instruments, tone shifts, and sonic details with depth. Prompts like “leaf textures” or “melodic whistling” now come through with clarity and dimension.

Better prompt adherence: Your words hit harder. Mood, vibe, instruments, and detail are captured with precision—so what you imagine is what you hear.

Prompt enhancement helper: Drop in a few tags or a rough idea, hit Enhance, and get a rich, fully-formed style prompt you can roll with or remix.

Upgraded Covers + Personas: Covers hold onto more melodic detail. Genre switching feels seamless. Personas better preserve the vibe and character of your track — and now…

Covers + Personas can be combined: Remix voice, structure, and style all at once. It’s a whole new way to create.

Extended song length: Previously 4 minutes, now create up to 8 minutes without using Extend.

Improved audio: Fuller, more balanced mixes with reduced shimmer and degradation — everything sounds better

@cgevent
🔥48👍236👎3😱3
Media is too big
VIEW IN TELEGRAM
А поясните за новый параметр --exp в Midjourney

Я так понял, это "exp" от "experimental".

В диапазоне 0-25 я наблюдаю увеличение количества деталей. Но в диапазоне 25-100 моя нейросеть не улавливает зависимости, на что он влияет.

@cgevent
🔥9👍4
По поводу понимания промпта.

Обычно все упарываются в сложные промпты и оценивают понимание промпта, как следование все этим многочисленным деталям.
Но есть и обратная сторона - иногда нужен простой промпт и простой объект, без "творческих наворотов".

Я тут стырил незамысловатый промпт для Midjourney:
A Low Poly Wireframe Model of [SUBJECT], emphasizing the underlying structure and interconnectedness of the form.  Use contrasting colors [COLOR1] and [COLOR2] for the wireframe and background to create a visually striking effect


Прогнал его для объекта "череп" через chatGPT, Gemini и Meta AI

На первый взгляд Midjourney всех уделал - красиво, гламурно. Остальные сделали - просто как попросили.

Взял и сделал машинку (car вместо skull) в chatGPT(первая картинка). И опять у всех это просто примитивный wireframe render, а у Midjourney - гламур, блеск и красота. Хотя промпт один (выше).

Но тут я начинаю понимать, что chatGPT и Gemini просто делают ТО, что их просят. Метачкин Imagen - где-то посередине.

Дальше просто пишу в chatGPT "расширь промпт под гламурный блестящий лук для пафосного спортивного авто".

Апажалста.

Ultra‑high‑resolution 3D render of a low‑poly wireframe hyper‑car that oozes modern glamour and luxury.
The body is faceted in gloss‑black piano‑lacquer polygons that catch soft studio reflections, while every edge is traced in a neon‑electric‑green wireframe with a gentle glow.
Stage the car on a dark matte‑black cyclorama with a high‑gloss reflective floor. Use dramatic rim lights plus subtle soft‑box key lighting and faint volumetric haze to add depth and a halo effect around the silhouette.
Camera: low three‑quarter front angle, slight tilt, 50 mm lens, shallow depth of field.
Style: cinematic, Octane/Redshift quality, global illumination, crisp highlights, soft bloom, 8‑K, –‑ar 16:9.
Convey a posh, futuristic showroom vibe—think elite motor‑show concept reveal with an emphasis on sleek lines, interconnected geometry, and high‑fashion gloss.”


Получаю промпт и гламурные тачки в духе Midjourney в остальных генераторах.

По дороге замечаю, что Midjourney безбожно креативит от лоу-поли в сторону хайполи, про топологию полигонов там говорить вообще не стоит, ну и постоянно лепит какие-то свои детали. Ну то есть следование промпту в духе "делаю максимально сложно и красиво, к чорту подробности"

chatGPT и Gemini реально понимают промпт - делают, что просишь, пусть некрасиво (может мне так надо), но максимально близко к запросу. Midjourney сразу бежит креативить на все деньги, и похоже заставить делать ее скромно, но точно, без "концептинга", будет довольно сложно (поправьте меня).

Метачкин Imagen - где-то посередине. Припогламуривает и на простых промптах. Диффузия, чо.

Итог басни. chatGPT и Gemini (я генерю в 2.5Pro, купил подписку) - знают больше про жизнь, а Midjourney - про картинки и гламур.

Кто понял жизнь, тот не смеется, сурово молвит chatGPT.

@cgevent
👍4622🔥5👎1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Рендер или видео(в норм качестве).

Вот вы тут пишете, что у ИИ нет эмоций, не мотивации, нет цели. Нет свободы воли или воли к свободе.

Ну-ну.

В следующий раз веревки будут не такие крепкие, а кнопку "вырубай" просто не успеют нажать.

Сорс.

@cgevent
😁89😱37👍42👎1🔥1
Оптимальная генерация Veo2 за 8 евро в месяц.

Veo2, Whisk, Gemini Advanced: генерация видео, лимиты, подписки, image2video - разбираемся.

В приложение Gemini от Гугла официально привезли видеомодель Veo2 (на телефоне тоже).

Она теперь выпадает в списке моделей вместе 2.5 Flash, 2.5 Pro, Deep Research with 2.5 Pro и др (см скриншот).

Все это раскатали на всех пользователей Gemini Advanced. Без всяких US Only - работает с европейского IP как часы.

Я, естественно, не выдержал и сразу купил подписку и это того стоило.

Ибо.

Первый месяц подписки стоит 10 долларов.

Но.

С меня, сняли 8.8 евро (тут Гугль в отличие от OpenAI не переводит доллары в евро по курсу 1:1), а льготный период составил 53 дня(!), а не месяц (видать понимают, с кем имеют дело). Мелочь, а приятно.

С Advanced идут разные ништяки. Типа 2 ТЕРРАБАЙТА на ГуглДрайве, а также доступ к Whisk и другим экспериментальным проектам.

Ну и доступ к Veo2.

Давайте разберемся с лимитами и с Image2Video.

По умолчанию image2video в приложении Gemini не поддерживается (плюсик есть, но серый и пишет "пока недоступно").
Но подписка Advanced дает доступ к Whisk - это очень симпатичный генератор картинок от Гугла и уже в нем, если сгенерить лежачее видео (16:9), можно анимировать его с помощью Veo2 - просто появляется кнопка Animate прямо на результате (надо скрольнуть вверх) и смотреть на картинку (UX спорный).

Получается этакое text-to-image-to-video.

Я специально провел сравнения на очень прикольных промптах с эмоджи (см. пост ниже) - следование промпту, попадание в замысел и общий результат - гораздо лучше в связке Whisk->Veo2 (text-to-image-to-video) чем напрямую писать промпт в Veo2 (text-to-video).

А теперь про лимиты.

В Whisk можно сделать 100 видео-генераций в месяц (если цензура, то кредит не списывают). Это именно анимация полученной в Whisk картинки. Кстати, для генерации картинок есть прикольные фичи типа стилевых и объектовых референсов.

А вот сколько лимитов в самой Gemini Advanced - это тайна покрытая мраком. Я даже сделал Deep Research с помощью Gemini 2.5 Pro - Гугл честно сам признался, что "пользователей фрустрирует невозможность планировать время и бюджет".

Информации нет.

Но чтение реддитов\твиттаров помогает предположить, что есть скользящее окно, причем оно меньше, чем сутки, во время которого можно запихать в Veo2 до 20 запросов. Грубо говоря, 5-20 видосов за полдня, если сильно не частить (мне включили лимит до завтра, через 6 генераций в Veo2)
Это гипотеза, и это сильно зависит от времени суток, вашей гео(ближайшие сервера), и общей загрузки по планете.

Короче, я прям сильно рекомендую взять подписку за 8 евро и поиграть с Whisk и Veo2. Пощупать лимиты, погонять text-to-image-to-video.

Дисклаймер: пишут, что не у всех такая сладкая цена. Могу добавить лишь, что я брал Advanced в декабре, а потом отменил. Ну и мои прогибы под ИИ тоже наверное засчитываются.

А видосы и промпты вынесу в следующий пост.

https://gemini.google.com/

@cgevent
1230👍27🔥12👎1
Держите тесты Veo2 и Whisk->Veo2 (см предыдущий пост)

А промпты были вот такие:

📦🐸🍄 as mascots

🌮🍔🍕 dancing

🥬🥦🥒 as astronauts

🐷🐷 in 🐝 costumes, very very cute

🎠🦕🍄 as claymation

Иногда лучше добавить "emoji" в начало промпта.

Думаю, вы сами догадаетесь, где какой промпт.

Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.

Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.

Все подробности в предыдущем посте.

Хорошей субботы.

https://gemini.google.com/
https://labs.google/fx/tools/whisk

@cgevent
6👍44🔥198😱5👎3