Psy Eyes
6.79K subscribers
1.45K photos
1.58K videos
5 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.

Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.

Сайт Freepik
Сайт Packshot
1
Кстати в Recraft тоже можно делать мокапы.

А ещё они добавили стили на векторное лого. Чтобы воспользоваться:

* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.

Сайт Recraft
Твит
Media is too big
VIEW IN TELEGRAM
Babylon.js: до версии V 8 обновился бесплатный опенсорсный фреймворк для разработки 3D-графики, игр, интерактивных сцен и визуализаций в вебе.

Что нового:

* Поддержка IBL теней для реалистичного затенения и областных источников света (Area Lights).
* Легковесный просмотрщик 3D объектов для интеграции в сайт/веб-апу.
* Node Render Graph — новая система для управления рендерингом, упрощает настройку сложных эффектов.
* Поддержка WebGPU Compute Shaders для ускорения вычислений на GPU и комплексных симуляций.
* и не только.

Анонс
Сайт
Гитхаб
1
Натренировал Wan на своём компе по фоткам с собой.

Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.

Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.

Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.

Что по скоростям:

На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.

Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин

Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек

Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.

На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.

Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.

Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.

Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.

Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.

Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.

Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.

🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13
This media is not supported in your browser
VIEW IN TELEGRAM
У Nvidia появился конкурент на рынке видюх. Причём работает как в консьюмерском сегменте так и в серверном. И совместим со многими фичами Nvidia, хотя дешевле.

И это не AMD, Intel, или китайский <Unknown Device>.

На днях выложу пост.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Сконвертировал часть Telegram подарков на TON и выставил на продажу на Fragment.

Владельцы получат скидку 10% при тренировке лоры в Wan. Опробуем гейтинг.

Минты:
1) Jingle Bells #37993 (SOLD)
2) Jingle Bells #38012 (SOLD)
3) Jingle Bells #38014 (SOLD)
4) Jingle Bells #38015 (SOLD)
5) Jingle Bells #38016 (SOLD)
6) Jingle Bells #38017 (SOLD)
7) Jingle Bells #38018 (SOLD)
8) Jingle Bells #38020 (SOLD)
9) Jingle Bells #38021 (SOLD)
10) Jingle Bells #38023 (SOLD)
11) Jingle Bells #38024 (SOLD)
12) Jingle Bells #38025 (SOLD)
13) Jingle Bells #38026 (SOLD)
14) Jingle Bells #38027 (SOLD)
15) Jingle Bells #38028 (SOLD)
16) Jingle Bells #38029 (SOLD)
17) Jingle Bells #38046 (SOLD)
18) Jingle Bells #38047 (SOLD)
19) Jingle Bells #38048 (SOLD)
20) Jingle Bells #9006 (SOLD)
21) Lunar Snake #93385 (SOLD)

Позже, когда порешаю с брендингом, выпущу свои коллекционки на TON. Это даст больше свободы к пришиванию функционала. И вторичку никто не отменял.

UPD: Всем спасибо, SOLD OUT.
This media is not supported in your browser
VIEW IN TELEGRAM
Pika: добавили мульти-фрейм генерацию.

Теперь можно делать видео из 5 кейфремов длинной до 25 сек.

Сайт
Твит
Недавно в твиттере наткнулся на самопальную 4090 с 48 ГБ VRAM, собранную братьями китайцами в полу-подвальных условиях. Видео с ней выложил покупатель, но кроме запуска GPU-Z и того факта, что корпус у него с ручкой, мол он постоянно перемещается, на видео смотреть нечего. Тестов он не предоставил. Нотариально-заверенный скриншот меня мало убеждает.

И тут мне в рекомендациях ютуба попадается видос от Мой Компьютер, где Михаил гоняет тоже 4090 с 48 ГБ VRAM, но уже от других китайцев, с отлаженным производственным пайплайном, и наглядно всё тестирует. В нейронках тестов мало, только LM Studio и Forge (думается Comfy он открыл и закрыл), но хоть так.

Обычная 4090 сейчас стоит 300к+, если найдёшь, а тут 375к через поставщика в РФ. Вот только ревёт она бешено, как турбина самолёта. Так что это только в серверную стойку.

PS: и нет, это не тот конкурент Nvidia, про которого я говорил.

YouTube
Davinci Resolve: обновился в бете до версии V 20. Апдейт крупный, больше 100 фич.

Что нового:
* Отдельная панель для редактирования кейфреймов.
* UI для работы с вертикальными видео.
* Анимированные нейронкой субтитры, как в тиктоках или шортсах.
* IntelliScript — закидываешь видео в медиапул и выбираешь их. Тыкаешь создать таймлайн на основе сценария, написанного хоть в блокноте. Таймлайн сам собирается.
* Multicam SmartSwitch — AI собирает таймлайн из видосов, основываясь на том, кто сейчас говорит.
* Тренировка AI на своём голосе, для замены голоса с оригинального футажа на свой, и наоборот, например, чтобы твой голос звучал с акцентом с футажа. Работает не так чисто как у ElevenLabs, но оно в родном UI видеоредактора, а качество будет становиться лучше. Тем более если скормить больше данных.
* Voice Assistant — нет, не для вайбэдитинга... это нормализатор уровня голоса под целевую платформу.
* Расширение музыки как в Udio или Suno, только здесь ещё и можно на таймлайне задать до куда расширять.
* Есть ещё изолятор голоса, Music Remixer, и много чего ещё.

Нашёл ютуб видео с обзором, раз Davinci не заморачиваются.

Пока говорят много вылетов и косяков, но на то она и бета. Зато можно скачать бесплатно напрямую с сайта.

Анонс
Скачать бету

YouTube обзор
Media is too big
VIEW IN TELEGRAM
Runway: уже выкатили Turbo версию Gen-4.

Выдаёт 10 секундное видео за 30 сек.

С релиза базовой модели прошла уже неделя. Делитесь впечатлениями и тестами в комментах.

Твит
Сайт
Хоспаде, ДА!

Третий сезон закончили на очень высокой ноте с Jibaro. И Тим Миллер (шоураннер / соавтор) говорил мол скорее всего это последний банкет. Очень неожиданно и приятно, что к столику продолжают приносить вкуснятину.

В кадрах мелькают кусочки по стилю близкие к Zima Blue. Будет отрадно увидеть этих авторов снова в деле.

https://www.youtube.com/watch?v=fnvke44Rps4
Дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: запустили в альфа-режиме V7 генератора картинок. По качеству отзывы пока смешанные. Посмотрим, что будет на полном релизе. Также из новых фич: быстрый черновой режим за полцены, голосовое управление, и персонализация по умолчанию.

LTX: добавили в LTX Studio тренировку актёров для стабильной генерации лиц, пришили апскейлер и дистиллированную модель, а также генерацию по начальному кадру для переноса стиля как в Runway.

Runway: открыли API для своего видеогенератора Gen-4 Turbo.

Krea: Добавили на сайт рестайл видео как в Runway и LTX, и обновленный инструментарий для генерации 3D. Также запустили программу поддержки авторов.

Luma: ускорили API генератора картинок Photon (~10 сек) и Photon Flash (~5 сек). Плюс добавили шаблоны на движения камеры.

Remade: объединили редактирование картинки промтом с эффектами как в Pika/Wan.

SkyReels: выпустили SkyReels-A2, модель для композиции видео из нескольких референсных картинок как у Kling, Pika, Hailuo. Модель сделана на основе Wan. Уже завезли в Comfy и Kijai замутил сборку.

TTT-Video: генерация 1 минутных видосов на основе CogVideoX 5B.

UNO: смастерили UNO генератор картинок на основе Flux с композицией по нескольким рефам.

InstantX: сделали лору на Flux для генерации в стиле Ghibli. Или вот прям онлайн AI-приложение для применения стиля Гибли.

Генератор анаглифного 3D. Нужно две картинки - для левого и правого глаза.

Microsoft: сделали Quake 2 на основе Muse AI.

🎸 ЗВУК 🎸

JEN: генератор музыки на лицензионном контенте обновился до V 1.6. Качества звука немного стало лучше, но в целом пока также плохо.

Udio: выкатили фичу Styles для перекладывания стиля рем музыки на демку и сделали гайд по работе с ней.

Riffusion: обновили главную, чтобы было легче найти новую музыку.

Hailuo: обновили генератор речи Speech-02. Можно скармливать файлики и ссылки для получения аудио прочтением до 200к символов. Также повысилось качество звука, уменьшили глюки, запинания при переключении между языками в одном тексте, а голос стал лучше работать с басом и эмоциональностью. На русском пашет.

DigitalOcean: маленькая и шустрая модель Dolphin ASR для распознавания речи от одного из крупнейших облачных провайдеров Китая. Русский понимает.

Bytedance: выпустили MegaTTS3, маленький клонер речи на инглише и китайском.

ElevenLabs: замутили свой MCP сервер. Также представили возможность в непонравившихся генерациях речи самому произносить как должно быть, при этом стиль/акцент с генерации сохранится.

🤖 ЧАТЫ 🤖

OWUI: в V 0.6 опенсорсного UI для чата с языковыми моделями (LLM) добавили вызов внешних инструментов через OpenAPI (доступ к тысячам sdk, тулзов, итд), работу с MCP серверами, принудительный режим временных чатов для залогинившихся, улучшили дизайн UI, и ещё много чего.

Ollama: добавлена поддержка Mistral Small 3.1, улучшена работа Gemma 3.

LMStudio: обновили движки для поддержки ламы 4 и улучшения работы с Gemma 3.

Nvidia: выпустили cuML для ускорения в десятки раз scikit-learn алгоритмов без изменений в коде.

Jan: в этом UI для чата с ллм улучшили дизайн и работу с API.

Yandex: релизнули в опенсорс претрейн-версию YandexGPT5-Lite размером 8B и контекстом 32к.

Agentica: выпустили превью версию рассуждающей модели DeepCoder 14B, которая заточена на коде и хорошо себя показывает на бенчах. Контекст 24к.

Qwen: сделали демо для мультимодалки Qwen2.5 Omni 7B.

Microsoft: добавили агентный режим в VS Code, плюс поддержку MCP и Github MCP сервер. Также запустили свой поисковик Copilot Search, встроенный в Bing.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Google: запустил Firebase Studio — свой Cursor с AI-агентами и блекджеком Gemini, для быстрого создания и развертывания приложений.

Новый инструмент объединяет бэкенд Firebase с возможностями AI от Google в едином интерфейсе. Разработчики могут визуально проектировать веб, десктоп, и мобильные приложения, а также напрямую интегрировать модели Gemini и подключаться к сервисам Firebase (Auth, Firestore, Storage).

На старте есть 60 шаблонов, включая AI-агента для прототипирования, которому помимо промта можно кормить скриншоты, схемы, наброски на салфетке, итд и он поможет с разработкой UI, API, и AI-пайплайна.

Есть ещё агенты для миграции кодовой базы, тестирования, общения по документации, и другие. Например, можно в Firebase App Distribution задать агенту цель по тестированию мобильного приложения.

После закидывания промта Gemini попросит утвердить план действий и примется за разработку. В этом плане процесс разработки на Firebase схож с Replit.

На тесте создания музыкального плеера Replit показал себя лучше с одного промта. Так-то Gemini по своему огромному контексту и способностям на данный момент лучшая модель в коде, поэтому будет продолжать играться.

Сайт
Анонс
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM