Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати там Джеймс Камерон выпустил третьего Аватара из пяти запланированных. Первый вышел в 2009, второй в 2022, третий сейчас, четвёртый нас ждёт в 2029, а пятый где-то за горизонтом событий примерно в 2031.

В рамках свежих интервью он делится мыслями о кинопроизводстве, и в том числе об участии AI в нём. На каждый фильм серии уходит много лет, а ему сейчас 71 и он не хотел бы следующие ~8 лет пилить только Аватаров.

Потенциально он рассматривает AI как инструмент для ускорения процесса, но ему важно, чтобы нейронки не заменяли актёров. И больше похоже, что он беспокоится за сохранение сторителлинга через связь режиссёр-актёр, а не из-за того, что AI может заменить актёров.

На его взгляд текущие инструменты пока годны для соцсетей и не доросли до уровня кино. Нужный в продакшене инструментарий ещё предстоит создать. Собственно он какое-то время назад присоединился к Stability, но больше в контексте с ними он нигде особо не фигурировал. Возможно он замутит свою компанию для этого как Тай Шеридан сделал с Wonder Studio (Спилберг в инвесторах).

Я первого Аватара смотрел многократно с друзьями + родными, в обычном кино и IMAX. Тогда на большом экране он оставил грандиозное впечатление. Второго я смотрел уже в почти полном кинотеатре где-то в ковидные времена, и меня не оставляло ощущение, что этот фильм должен был выйти максимум в 2011, недалеко от оригинала. Визуально фильм хорош, но ты всё это уже видел, а основная проблема как обычно в самой истории — она не дотягивает. Третьего в кино посмотреть нет варика, как будет в цифре так глянем.

В общем, Джеймс, как все тебе и говорят — завязывай с Аватарами. Хочется от тебя уже увидеть другие интересные истории. И похоже он сам это понимает, желает ускориться, и перейти к съёмке новых фильмов.

YouTube
Тем временем Нолан выпустил трейлер своей Одиссеи, которая выйдет летом... и тут же на следующий день вышла AI-переделка, но с доспехами бронзового века по музейным фоткам реальных экспонатов, арт-рефам, и описаниям из той эры. Кстати вот вам раз и два видео для ознакомления с историей.

Если обычно в твиттере и комментах ютуба многие бурлят про AI, то тут в целом народ поприветствовал такое решение как более близкое к истории.

Причём доспехи хорошо сидят на персонажах, картинка стабильная и артефакты не бросаются в глаза (но тут и движения мало), а лицо Мэтта Деймона всё также узнаваемо там, где оно не перекрывается доспехами. Кристиан Бейл — циклом, эпичен!

Больше качества картинки меня на самом деле впечатляет как быстро это видео вышло на свет.

По ощущениям использовался Kling O1, Runway Aleph или что-то типа того. Ваши ставки?

Трейлер
AI-переделка
С наступающим Новым Годом, котаны!

За 2025 стало нормой редактирование картинок и видео текстом/рефами, использование AI-агентов для автоматизации пайплайнов, создание годных 3D моделей (где-то даже с сегментацией). Не говоря уже о том, что качество видео местами стало неотличимым от реальности.

В тоже время дефицит железа для компьюта становится острее, а облака то и дело падают, не справляясь с нагрузкой. Поэтому можно ожидать сильных оптимизаций под актуальное и старое железо, больше пользы от встройки (iGPU), больше проектов на основе распределённых вычислений, и возможно новых игроков на рынке GPU / NPU в пользовательском сегменте.

Думаю в 2026 мы увидим:
* Более гранулированный контроль кадра (точные движения персонажа / камеры, детали одежды, мимика) с удобными инструментами в простом интерфейсе на стыке с генерацией миров: 3D управление камерой, создание/изменение/ удаление объектов в трёхмерном пространстве внутри сцены, итд.
* Коммерческие заходы в 4D с возможностью пользователя стопить кадр, менять угол обзора, или летать по видео и осматриваться.
* Новые подходы к монетизации генеративного контента.
* Примеры массовых успешных игр из инди и ААА, сделанных больше чем на половину, а то и целиком, из генератива.
* Генерация крупных стабильных игровых миров по тексту/картинке/видео с возможностью делиться ими и, возможно, зарабатывать.
* Использование нейрорендера для смены сеттинга сплата реальности / игрового мира, или генерации реалистичной графики поверх low-poly моделей.
* Активная роботизация и внедрение AI агентов
* Рост сервисов на связке 3D генерации с сегментацией и 3D принтинга.
* Хотелось бы весомую ответочку Suno и Udio, желательно в открытых моделях, чтобы Producer и Tunee не скучно было.
* Рынок будет укрупняться, но коммерсам некогда будет щелкать — опенсорс не дремлет.

Успехов друзья с реализацией ваших креативных и бизнес проектов в 2026 году!
3
Meshy: вытащили из превью V6 своего 3D-генератора.

Что нового:
* Более плавная, анатомически-корректная геометрия персонажей и органических моделей;
* Более чистая общая структура механических и геометрических моделей, а также повышенная точность краёв.
* Low Poly режим для разработчиков игр в таком стиле

Просто из картинки с котом в полный рост генерить меш в Т-позе на бесплатном тарифе не даёт, а если вкинуть как есть, то руки будут "прилипшими" к брюкам. В Qwen IE побырику сгенерил варик в T-позе и скинул в Meshy.

Генерит довольно шустро (1-2 мин). На выходе из одной картинки довольно детальный меш в 300к+ полигонов. Подать на вход сразу несколько картинок как в Tripo для конкретизации видов с разных сторон тут нельзя (по крайне мере бесплатно).

Полученный меш можно тут же текстурировать и анимировать. Однако нетекстурированному можно приделать риг (скелет) сразу, а текстурированному только после ремеша до 10к полигонов. Далее на выбор даётся как пачка бесплатных анимаций, так и вагон платных.

С котом человеческие элементы вроде рук и ног хорошо анимируются, а частности в виде хвоста и ушей уже с артефактами. Тем не менее, генеративное 3D движется вперёд.

Сайт
Твит
Forwarded from Ai molodca (Dobrokotov (в отпуске))
Хиггсфилд и Рождественский Гринч: что известно.

Пока вы готовили оливье, Higgsfield готовил массовые баны. Подписчик @generatio_ai в Threads провел расследование, плюс вы накидали в комментарии — получается интересно.

Официальная версия: виноваты посредники и "серые/чёрные методы оплаты". Мол, 99% — рефанды от мошенников.

🔨 Что не сходится:

1) Банят людей с личных карт. Конкретный кейс: человек полгода платил месячные с виртуальной карты — всё норм. Купил годовую Ultimate за 200 баксов — бан в час ночи. Испанцу снесли аккаунт без права восстановления — какими посредниками он пользовался?

2) Волна началась ~20 декабря с иностранцев (европейцы, всё есть в их дискорде). Основной удар — ночь с 25 на 26.

3) Посредники дорожат репутацией — выгоднее держать клиента в долгосрок, чем кинуть один раз. Сейчас они делают возвраты за свой счёт и уходят в минус. Некоторые пришли в дискорд Хиггсфилда и прямо назвали обвинения клеветой.

4) Появилась "батарейка" — плати ещё, чтобы дальше пользоваться безлимитом, который ты уже купил.

🤔 Теория из комментов: просчитали нагрузку, поняли что подписки убыточны, и начали выкашивать самых активных пользователей. Ещё одна причина бана — "автоматизация": якобы люди слишком активно пользуются безлимитом.

😮 Напоминание: последние 3-4 месяца при попытке оплатить месячную подписку людям втихую оформляли годовую. Это широко не обсуждалось — до вчерашнего дня.

🤒 Поддержка: ИИ-ассистент через три сообщения теряет контекст, обещает перевести на человека — и тишина. Квитанции об оплате не приходят (при том что уведы "оцените нас" — приходят). А теперь их требуют как пруф.

🤨 Бонус: с 30 августа в политике прописано, что Хиггсфилд может использовать ваши входы и выходы не только для обучения моделей, но и в маркетинге. Лицензия безотзывная, бессрочная, с правом передачи третьим лицам. То есть твоя работа может оказаться в их рекламе — и ты ничего не сделаешь.

Итого: некоторым вернули возможность зайти в аккаунт — но генерация всё ещё недоступна. Разбаном это назвать сложно.

Пишите в дискорд, на Trustpilot, везде — это единственная причина, по которой они начали шевелиться. Ну и держитесь от этого сервиса подальше.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs: выпустили Scribe 2 Realtime для генерации текста из речи.

Модель заточена работать в реальном времени на 90 языках, и подходит для агентов с голосовым режимом, получения субтитров, перевода, итд. Но фокус на агентах.

В отличие от предыдущей модели в линейке Scribe 2 Realtime лучше справляется с паузами, дыханиями, и шумами присущими человеческой речи.

Уже завезли в API.

Сайт
Анонс
Media is too big
VIEW IN TELEGRAM
Suno: генератор музыки обновил Studio до v 1.1.

Что нового:
* Появился эквалайзер, которым можно влиять на звучание дорожки, регулируя частоты и громкость.
* Стемы вытаскиваются из треков за ~10 сек вместо ~2 минут.
* Можно менять стиль (cover) определённой области стема, позволяя преобразовать свои завывания в целевой инструмент, или, скажем, пианино в гитарку.

Сайт
YouTube
Media is too big
VIEW IN TELEGRAM
Ещё любопытное от Suno.

Они на главной сделали вкладку Labs, куда запихнули свои экспериментальные проекты:

* Explore — музыкальное "поле чудес", где ты крутишь барабан и открываешь для себя новые жанры музыки, включая чисто сгенерированные. Обожают этот UI/UX.
* Sunoverse — галактических размеров карта, где звёздами отображаются треки сгенерированные в Suno, а в межзвёздном пространстве ютятся названия жанров.
* Live Radio — радиостанция, где народ голосует ноток какого жанра добавить в потоковое вещание, чтобы повлиять на общее звучание музыки. Так сказать какой шум подмешать в бесконечный латентный шумный эфир, лишённый шума кожаных новостей и трёпа.

По сути все три это исследование и поиск альтернативного UI/UX для потребления музыкального контента во времена переизбытка информации.

Из этих трёх я как-то только сейчас заметил Sunoverse. Кликанье на рандомные звёзды и резвый зум с воспроизведением неизведанного интересно не сильно долго, ибо зачастую треки в паблике ещё сгенерированы в древних версиях Suno и "качественно" режут слух. Просто брожение по карте не сильно затягивает тоже, в том числе и потому что границы условны и близлежащие треки могут быть сильно разными. Если ты знаешь чего хочешь, есть поиск и ты можешь вбить 90s nu-metal, чтобы метнуться и потыкать пару другую треков. Но прослушанные композиции с карты не заменяются новыми, а запоминать что ты слушал и где так себе идея. Скорость и доступность это ключевое.

Заодно вот вам ещё пару карт для исследования музыкального пространства (спс @JohnDoe171):

* Ishkur's Guide to Electronic Music
* Every Noise at Once

В любом случае Suno, в отличие от традиционный части музыкальной индустрии (пусть они к ней теперь ближе), пробуют и экспериментируют. Что уважаемо!

Сайт
Tencent: выпустили мультимодальный генератор картинок Хуньянь Image 3 Instruct.

В отличие от базовой версии выпущенной ранее, Instruct сфокусирован на редактировании картинки текстом и генерации изображений на основе нескольких рефов. Наличие CoT рассуждений перед генерацией помогает улучшить итоговые результаты.

Модель огромная — 80B MoE из которых 13B активных, так что это облачное решение. Но можно залогиниться у них на сайте переключившись на английский и погонять пока не упрёмся в лимиты.

Промту следует хорошо. Кота вписал в окружение с четким пересчётом освещения и с сохранением деталей одежды, аксессуаров и надписей. Может пригодиться когда банана не под рукой или кончились кредиты. В Comfy, Fal, Replicate и ко пока не видно.

Демо
Анонс
Invoke с октября как-то не выпускали обновлений и пропали с радаров. Оказалось их купил Adobe и команда Invoke перешла к ним, закрыв коммерческую часть проекта и твиттер аккаунт.

Однако опенсорсная часть выжила под названием Community Edition и на гитхабе мейнтейнеры те же. Это значит, что проект продолжит развиваться, но обновления будут выходить реже.

И вот впервые за долгое время появился апдейт. В нём добавили поддержку моделей Z-image, PBR карт, указания веса слова в промте, экспорт выделенного маской региона, и не только.

Если у вас аллергия на вермишель и вы искали привычный интерефейс для генерации картинок, то Invoke вам может подойти. А при желании с Comfy-лапшой можно поработать и в нём, перейдя в раздел workflow.

Сайт
Гитхаб
3D контроль камеры для Qwen Image Edit 2511. До этого в демо была 2509 версия.

Мультикам лору натренировали Fal, она на хаггинге.

Comfy воркфлоу у них на гитхабе для шаблонов.

Ноду можно поставить через менеджер когда импортируете воркфлоу или с гитхаба. Если будет ругаться на каналы ставьте не nightly версию ноды а какую-нибудь из номерных стабильных под ней.

Демо
Хаггинг
Воркфлоу
Гитхаб
Comfy: в своём облаке увеличили количество контента, которое можно сгенерить за ту же цену подписки.

Я правда не пойму как они считают ибо цифры из поста не бьются с указанными на их сайте. Там ещё и если нажать на детали, то выясниться что время для генерации прикинуто из расчёта, что мы будем генерить 640х640, 16 fps, 4-шаговой лорой... а будет не так.

Но учитывая, что в большинстве случаев новые модели стартуют с ворками для Comfy, API ноды быстро добавляются, есть импорт моделей с Hugging Face и CivitAI, а гоняется всё на RTX6000 с 96 ГБ VRAM, предложение может быть интересным для тех, кто ищет всё в одном месте. Тем более, что упрощённый Simple интерфейс есть пока только в облачной версии.

А если чувствуешь, что подписку за месяц не израсходуешь или мощная машина уже есть, то можно обойтись оплатой только за API вызовы в локальном Comfy.

Кто-то уже пробовал их подписку/оплату за API вызовы с компа?

Сайт
Твит
Про Comfy Cloud