Psy Eyes

Немного крутых работ с дискорда Banodoco.

Дискорд

2.77K viewsedited 17:17

This media is not supported in your browser

Luma: добавили image-2-video для видеогенератора Ray2.

Позже в режим добавят начальный/конечный кейфреймы, расширение, и зацикливание видео.

Сейчас доступно владельцам Unlimited подписок. Другим раскатают на днях.

Сайт
Твит

9.93K viewsedited 17:42

Psy Eyes

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

POV: нейронка с Civitai получает промт

5.16K views08:58

Psy Eyes

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Телега ещё на шаг ближе к функционалу ютуба. Обложки для видео, расшаривание с таймкодом, продолжение просмотра там, где остановился....

Осталось только монетизацию через рекламную сеть Telegram Ads подрубить, или за звёзды/TON со списанием пропорционально просмотру.

Ещё бы телега сама кропила и поджимала видосы под автовоспроизведение, было бы супер.

Сайт

2.43K views13:02

Psy Eyes

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Прогресс примерно за 2 года.

Скоро ранние артефакты будут восприниматься с ностальгией, как VHS гличи, и появятся инструменты добавляющие такой "эффект старины". Я и сейчас нахожу нечто притягательное в упоротых GAN генерациях.

2.45K views18:10

Psy Eyes

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Хуньянь image-2-video, но не от них самих, а от SkyReels.

SkyReels-V1, это генератор видео в i2v и t2v вариантах с фокусом на людях в кадре. Зафайнтюнен на 10 млн видосов высокого качества. Используется 3D реконструкция тел для улучшения взаимодействия объектов в кадре. Выдаёт 544px960p длиной 97 кадров при 24 к/с.

Заточено под мульти-гпу сетапы (распределенка), и говорят SkyReelsInfer, их фреймворк с оптимизацией, на 58% быстрее по генерации, чем XDiT при использовании четырёх 4090. Хорошо параллелится и на 8 GPU, причём 8x4090 (159 сек) не сильно отстают от 8xA800 (107 сек) с 80 ГБ VRAM каждая.

На одной 4090 пишут можно запустить, если генерить не более 4 сек. Тогда на одно видео уйдёт почти 15 мин. Но нужен линукс и triton.

Пока я это писал Kijai уже начал ваять это всё под Comfy. Mochi также начинал: сначала 4xH100, а в итоге оптимизировали под работу на 4090.

На гитхабе ни слова как генерить на основе картинок. Скорее всего вместо текста указать адрес к файлу. Скормил код Perplexity, говорит есть возможность переключения типа ввода между text или img. Попробовал по его примеру вбить команды, не завелось. Набор "Собери сам", кароч.

Альтернативно у них есть сайт, который вчера лежал, а теперь отлёг. Одну генерацию дают потестить. Кота нормально повернул, геометрия ок, глаза уже не наклейки на очках, цепочка фактурная. Даже мех ощущается. Текст правда на майке залип, но это скорее всего потому что он наложился на водяной знак, который должен держаться стабильно.

Сам сайт прям копипаста Kling и Hailuo: есть генерация видео, картинок, липсинк. Однако есть режим Storyboard, позволяющий генерить фрагменты, которые потом можно связать и режим Generate Drama, где по шагам, сначала закидываешь идею (текст, картинки), потом генеришь, создаёшь персонажей, и затем уже ваяешь раскадровки на основе этого.

Сайт
Гитхаб
Хаггинг
Kijai

9.12K views12:00

Psy Eyes

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Light-a-video: смена освещения на видео.

Пока мы ждём, когда lllsviel выложит в паблик IC-Light v2, другие чуваки пришивают релайтер на основе IC-Light v1 к видео. Ещё там под капотом animatediff и CogVideoX.

Код есть, но с лёту не завёлся. Генерация идёт через вызов в командной строке нужного yaml файла в папке configs. Промт и настройки задаются как раз через yaml файл. Делайте его копию, меняйте название, и настраивайте всё под себя.

После установки по командам с гитхаба, при запуске оно пожаловалось на numpy 2. Perplexity говорит удаляй его и ставь версию ниже.

Сделал раз
pip uninstall numpy

и два

 
pip install "numpy<2.0"

Далее оно посетовало, на Pytorch и CUDA. Поставил всё отсюда
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

Вот теперь завелось и скачало все нужные модели для генерации.

Сам входной видос должен быть 8 к/с и 512х512. Его надо положить в папку input_animatediff для обычного релайта, или в input_animatediff_inpaint, если фон надо сгенерить. На одну генерацию уходит примерно 8 мин на 4090. На втором прогоне было уже 10 мин. Сжирает все 24 ГБ VRAM моментально.

Итоговое видео будет в папке output. Дальше, чтобы повысить разрешение кидаем это в апскелер а-ля Topaz, а фреймрейт повышаем через Flowframes или что-ещё.

Сайт
Гитхаб

1.93K views14:50

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Black Forest Labs: выпустили ONNX версии Flux Dev, Schnell, Depth и Canny.

Microsoft: представили RAS, стратегию регионального диффузионного семплинга, ускоряющую генерации в ~2 раза без трени, plug&play.

Anim4gine: две аниме модели. Opt оптимизирована для обычных генераций, а Zero для тренировки лор и файнтюна.

Unity: WebGPU в Unity 6 теперь моно пощупать среди бета релизов. Я погонял шаблон FPS Micro, работкает.

Amazon: выпустили просмотрщик 3D сцен на Babylon.js (есть WebGPU). Будем крутить кроссовки в 3D?

MatAnyone: получение маски одного или нескольких человек на по ключевым точкам. Работает как с видео, так и картинкой.

Magic-1-for-1: новый видеогенератор, который сочетает в себе и text-2-image и image-2-video пайплайн для уменьшение потребления памяти и ускорения генерации. Короткие видео может выдавать за пару секунд. Поддерживает квантизации и другие оптимизации, если нет 30 ГБ VRAM.

FlashVideo: генерация 1080p видео в два захода: создание основы четко следующей промту в 270p используя большинство параметров, а затем через flow matching генерация в 1080p с меньшим количеством параметров. Так получается достичь точного следования промту, и эффективного потребления памяти.

Krea: пришили контроль камеры для видео и "блестящий" эффект в генерацию картинок. Можно попробовать в их недавно выпущенном Krea Chat.

Pika: выпустили инструмент для вкомпаживания объектов в видео Pikaddtitions и промт гайд к нему. Плюс апка на iOS и возможность делать мемы с селфи.

Luma: добавили Ray2 i2v в API.

Google: внедрили видеогенератор Veo 2 в YouTube для создания шортсов в US и ещё паре стран.

Хуньянь: сообщество наваяло комфи ноды HunyuanLoom для редактирования видео (например, замены объектов), используя FlowEdit. Плюс версию для запуска на 8-12 ГБ VRAM. Установка в Pinokio.

Neurogen: собрал портативный FastHunyuan, который со всеми улучшалками выдаёт видео за 80-90 сек на 4090. Плюс дипфейкер VisoMaster с обновлёнными CuDNN и TensorRT.

Pippo: генерация 360° видео с людьми (мультикам обзора) по одному фото.

Adobe: выпустили Firefly в публичной бете. Есть контроль кадра через кейфреймы, но качество сильно отстаёт от конкурентов.

Topaz: представили модель Starlingt для восстановления видео. Попробовать самому тут.

Phygital+: улучшения в апскейле картинок.

EAI-Lab: дропнули On-Device Sora, для генерации видео на iOS. Качество проходное

Lumina: генератор картинок Lumina-Image 2.0 с текстовым энкодером от Gemma 2 и VAE от Flux. Демо.

🎸 ЗВУК 🎸

Suno: добавили Fade Out в редактирование треков.

Zyphra: новый генератор речи (TTS) Zonos-0,1 beta, способный работать в реальном времени, есть клонирование голоса и детальные рульки для управления эмоциями, а также лицензия на коммерческое использование. Натренирован на 200к часов аудио, но про русский не сказано. На 4090 за 1 сек генерит 2 сек аудио. Минимум 6 ГБ VRAM. Есть демо.

Kokoro: эта TTS обзавелась браузерной версией (WebGPU).

Alibaba: выпустили генератор музыки InspireMusic. Работает как на основе текстового промта, так и как продолжатель скормленной демки/семпла. Локально может выдавать до 5 минут в 48 КГц. Коммерческая лицензия Apache 2. Нужно 16-24 ГБ VRAM.

Moonshine: почти реалтайм транскрибатор речи на WebGPU. Результат с таймнгами в txt можно потом скачать. На русском не пашет.

1.67K viewsedited 15:30

Psy Eyes

🤖 ЧАТЫ 🤖

OWUI: улучшен интерфейс и вызов функций, добавлен интерпретатор кода, режим использования контекста на полную при поиске в вебе, поддержка Kokoro для TTS, коннект с API локальных или приватных сервисов, и другие ништяки.

Ollama: улучшения в производительности на GPU и CPU за счет использования AVX инструкций.

Hugging.chat: добавил поддержку DeepSeek R1.

X: Илон выпустил Grok 3. В моменте показывает себя лучше всех других ллм. Если нет подписки в твиттере, можно погонять на арене. На сайте пока только Grok 2.

Anthropic: проводят багбаунти с призовым пулом $30к на поиск джейлбреков их языковых моделей (LLM).

DeepSeek: представили NSA, механизм внимания ускоряющий инференс лучше Flash Attention, и удешевляющий тренировку моделей с длинный контекстом.

HuggingFace: в песочнице появился агентный режим, где ты пишешь какое приложение хочешь сделать на основе Gradio и AI его собирает, попутно вправливая баги. Также в Gradio появился компонент для сайдбара и теперь можно делать мульти-страничные приложения.

Arch: фреймворк для работы с AI-агентами обзавёлся API для авторизации в сторонних сервисах. Как это выглядит.

Также от них вышла модель Arch-Function-3B с фокусом на вызове функций.

Zed: этот редактор кода выпустил в опенсорс модель Zeta, которую можно использовать в нём для автозаполнения. Подборка других кодовых редакторов.

Vercel: теперь AI Chatbot поддерживает артефакты, как OWUI или Claude. Гитхаб. Онлайн демо.

Windsurf: в версии V3 этого редактора кода AI-агент может сам выполнять команды в терминале, вызывать сторонние приложения, и табом двигать курсор к следующему месту правки.

Nous: выпустили DeepHermes 3, модель объединяющую в себе архитектуру обычной ллм и с размышлениями.

LLaDa: генерации текста не с лева-направо, а с помощью диффузии. Потенциально можно рендерить сразу страницы/файлы, вместо ожидания когда модель допишет.

IBM: выпустили Granite Vision 3.1, небольшой чат по визуалу (VLM) с коммерческой лицензией Apache 2.

OpenAI: поделились роадмапом на 4.5 и GPT-5, и расшарили гайд как лучше промтить их модели. Обычный поиск теперь работает без авторизации, а глубокий поиск раскатали на мобильное и десктопное приложение. Также увеличили размер памяти на 25% для платных подписчиков, o1 и o3-mini теперь могут принимать файлы, а лимиты o3-mini-high увеличены в 7 раз для владельцев плюсов (50/день).

Perplexity: на волне хайпа вышли с Deep Research, для глубокого поиска по сети и выпустили R1-1776, версию DeepSeek R1 без цензуры китайской коммунистической партии (you read that right, komrad). Заодно расшарили загрузку файлов бесплатным пользователям. Контекст 1М, можно скормить небольшую библиотеку.

Google: релизнули Gemini 2 (погонять на арене), дали ему память переписок, и раскатали свой Deep Research в паблик. Также запустили фонд для ускорения внедрения AI в веб. Поощряют WebGPU разработки, в частности для использования ллм в браузере. Сделали лекцию и глубокое техническое интро в эту технологию.

Microsoft: выпустили OmniParser, парсер экрана, конвертирующий UI в структурируемые элементы для улучшения работы AI-агентов со зрением.

Также их VS Code c версии 1.97 теперь из коробки имеет GitHub Copilot и появилась экспериментальная поддержка WebGPU.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views15:30

а Grok 3 хорош!

Сравнил его с последним Gemini 2 Pro на создании музыкального плеера.

Давай сделаем красивый музыкальный плеер на HTMX и Tailwind визуально похожий на Spotify. Что нужно:

1) возможность выбрать папку с музыкой
2) треки должны отображаться плейлистом
3) их порядок можно менять мышкой
4) не нужно запускать трек при смене его порядка мышкой
5) переключение на следующий или предыдущий трек
6) регулировка громкости

Оба столкнулись с одной и той же ошибкой. Но Грок сразу же её решил, а Gemini продолжал водить по улочкам-закоулочкам.

И у Грока сразу визуальный стиль плеера близкий к тому, что я просил. Причём он даже от себя добавил название артиста/трека слева внизу. Gemini максимально всё упростил, как и другие ллм, которые я пробовал до этого.

Нравится, что оба параллельно учат тебя, объясняя, что в коде происходит и дают советы, что можно улучшить.

Да, длительность трека справа отображается неправильно. Но для прототипа буквально за пару минут, весьма неплохо.

Пробуем сами на арене.

PS: заодно потестил функционал установки превью к видео в телеге. Работкает.

Анонс
Попробовать в Твиттере
Попробовать на сайте
iOS

1.81K viewsedited 07:20

Psy Eyes

Всевидящий @cgevent подсказал, что Grok 3 завезли погонять в сам твиттер.

От наплыва трафика меня переключило на другую модель, но авось вам повезёт больше.

Тем не менее, я скинул ему код со скрином, мол нужно чтобы длительность треков реальная показывалась, и обложки альбомов отображались где название артиста и трека. Без проблем ваншотнул задачу, и предложил варики как это можно сделать лучше.

Анонс
Попробовать в Твиттере
Попробовать на сайте
iOS

1.55K viewsedited 08:36

Psy Eyes

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

PlayCanvas: выпустили SuperSplat 2.

Что нового:
* Публикация своих 3D сплатов для шоукейса или ещё-чего. Они будут доступны на https://superspl.at
* Обновлённая анимация камеры по кейфреймам на таймлайне.
* Эксплорер публикаций других пользователей.
* Просмотр сплатов в AR/VR

Для публикации закидываете .ply файл в SuperSplat, далее File —> Publish.

Сайт
Гитхаб

1.78K views09:51

Psy Eyes

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Хаггинг всё больше обрастает функционалом соцсети вдобавок к AI-гитхабному гену. Можно зафолловить lllyasviel, Kijai, Black Forest Labs, DeepSeek, Qwen, итд и наблюдать когда что-то релизится или получать уведомления.

Такую ленту мы одобряем.

1.74K viewsedited 11:10

Psy Eyes

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Больше оптимизаций видеогена!

Hao AI Lab: выпустили STA (Sliding Tile Attention) для фреймворка FastVideo.

Этот метод ускоряет генерацию 720p в Хуньяне с 15 до 5 мин на H100 (сколько на 4090 не сообщается). Без ощутимой разницы в качестве и доп тренировки.

Ускорение достигается за счёт групповой обработки токенов, а не по отдельности.

Совместимо с TeaCache для ещё большей оптимизации.

Гитхаб
Анонс

1.66K views12:57

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Sakana: сделали AI CUDA Engineer.

Это система AI-агентов, которая может создавать высокооптимизированные ядра CUDA, достигающие 10-100-кратного ускорения по сравнению с обычными операциями машинного обучения в PyTorch.

Sakana верят, что эффективно улучшить AI может только другой AI. В прошлом году они представили эволюционную модель, комбинирующую разные LLM как лего, чтобы получить модель с лучшими качествами за меньшую стоимость. Также от них вышел AI Scientist, автоматизирующий процесс исследования и нахождения новых технологий.

Сначала код на PyTorch переводится в CUDA ядра. Затем, используя эволюцию, идёт оптимизация, где остаются только лучшие ядра. Потом CUDA Engineer создаёт архив инноваций, который используется для ускорения последующих исследований, за счёт накопленного опыта.

Сайт
Хаггинг

1.86K views15:25

About

Blog

Apps

Platform