Метаверсище и ИИще

Stable Diffusion Moment?

Тут вышла немного одиозная статья про то, что Алибаба бахнули Wan 2.1 и теперь мы все умрем.

https://www.404media.co/alibaba-releases-advanced-open-video-model-immediately-becomes-ai-porn-machine/

Авторы сетуют, что не прошло и 24 часа, как эти богомерзкие пользователи уже начали генерить богохульные картинки со всякими глупостями.

Никогда такого не было, и вот опять!

Я не поленился, метнулся на Civitai. Там даже отдельной категории\фильтра для Wan пока нет.

Можно выбирать фильтрах Others и LoRa, например.

Также уже есть тэг:
https://civitai.com/tag/wan

Либо можете посмотреть так:
https://civitai.com/search/models?sortBy=models_v9&query=Wan2.1
https://civitai.com/search/models?sortBy=models_v9&query=Wan%202.1

Что народ наворотил за сутки.

Есть и приличные вещи, типа:
Wan Video I2V - Upscaling & Frame Interpolation
или
WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

В основном это сетапы для комфи, но есть ссылки на пожатые модели, лоры и пр.

Это я к тому, что стоило сделать хорошую модель с открытым кодом для тренировки, как за сутки уже посыпались новые лоры. Как было со Stable Diffusion 1.5.

Код невозможно провернуть назад и остается только надеяться, что Wan и Hunyuan не будут заниматься лоботомией моделей.

А в это время chatGPT: я не могу сгенерить розу, это неприлично.

@cgevent

2🔥45👍19😁13❤10

7.8K viewsSergey Tsyptsyn ️️, edited 13:59

Метаверсище и ИИще

Что происходит с моделью после обучения

Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. Чтобы ближе познакомить вас с этим процессом, команда DeepSchool подготовила открытую онлайн-лекцию, на которой разберут, как выглядит путь модели после обучения!

Что вы узнаете на лекции:

- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс

Спикеры также расскажут о курсе, на котором вы сможете научиться самостоятельно создавать и деплоить DL-сервисы. Всем участниками лекции — скидки на обучение!🔥

🙋‍♂️Спикеры лекции:
— Дмитрий Раков — руководитель ML в НИИАС, делает percpetion-алгоритмы для беспилотных поездов
— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay

⏰Дата и время: 6 марта, чт, 18:00 мск (онлайн)

Регистрируйтесь по ссылке!

#промо

Путь модели после обучения | DeepSchool

Онлайн-лекция "Путь модели после обучения"

👍24👎11🔥9❤8😱2

8.41K viewsSergey Tsyptsyn ️️, 14:07

Метаверсище и ИИще

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

Тут у нас в коментах сравнение видеогенераторов.

Veo2 пока всех побивает.

Принес вам еще одно сравнение из твиттора.

Оно интересное тем, что там девушки красят губы. А это уже очень сложная задача.
Как пишут умные подписчики, с рисунками на асфальте почти никто справиться не может, а тут еще более сложные отношения между объектами.

В общем Runway и Sora что-то приподотстали.

А гугль, как обычно, исполняет в диверсити: у всех китайцев "person" - это, скажем так, не азиаты, а у гугла - азиатазиатка. Хорошо хоть не мужчина...

Prompt:

A person stands in a bright, airy room, bathed in soft natural light streaming through a large window adorned with sheer white curtains. As they gaze into a shimmering mirror, their hand, elegantly manicured with a deep crimson polish, lifts a glossy lip applicator towards their lips. Their outfit, a flowing pastel blouse paired with chic high-waisted trousers, exudes effortless style, complemented by delicate gold jewelry that sparkles subtly in the light.

@cgevent

4👍40🔥9❤8

9.38K viewsSergey Tsyptsyn ️️, edited 22:00

Метаверсище и ИИще

Forwarded from Нейросети и Блендер

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Контекстное окно для Wan подъехало

Теперь можно генерировать ролики любой длины, вот что пишет основатель Banodoco:

Kijai реализовал подход для сдвига контентного окна с Wan 14B, который показывает действительно хорошие результаты — если не обращать внимание на красную панду, пытающуюся оседлать маленького бегемота

🐱 Причем многие из этих наработок взяты из AnimateDiff, кажется Wan становится приемником AnimateDiff в опенсоурс буквально на глазах. Ждем ControlNetы и это будет новый расцвет видео опенсоурса над closed сообществом.

🐈‍⬛ Я уже сейчас не успеваю все потестить. Но обещаю адаптированные бенчи на следующей недели, в комменты покидаю небольшие результаты с Text2Video 14b модельки.

☺️ А еще и Лору очень хочется натренировать уже.

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥43❤9😱5👍3

7.34K viewsSergey Tsyptsyn ️️, 09:08

Метаверсище и ИИще

Вышел новый CogView 4

Опенсорсный генератор картинок с хорошей лицензией

Про CogView-3Plus-3B я писал в октябре

Да, вы не ошиблись, это команда, которая делает CogVideo.

Model weights: https://huggingface.co/THUDM/CogView4-6B
Github repo: https://github.com/THUDM/CogView4
HF Space Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Тут нужен китайский номер: https://modelscope.cn/studios/ZhipuAI/CogView4

Внимание, у них на гитхабе ссылка на старый демо спейс для третьей версии.

У меня пока нет времени накатить это.

Я чуть потыкал в их демо-спейс.
Да, понимание промпта просто атомное.
Качество тоже подтянулось по сравнению с версией 3.
Хорошо исполняет в лица.
Умеет сразу в 2048х2048.
По их же бенчмаркам побивает Flux.

Но с анатомией .. как обычно беда. В датасете маловато самых важных картинок.

И вам понадобится как минимум 16 гиг VRAM (если enable_model_cpu_offload ON и Text Encoder 4bit)
Но лучше запасайтесь 24 GB VRAM

Демоспейс у них безбожно висит. Присылайте в коменты свои картинки..

@cgevent

2👍29❤8🔥4

7.97K viewsSergey Tsyptsyn ️️, 10:54

Метаверсище и ИИще

В четверг, 6 марта буду делать умный ну или не очень вид тут (можно будет позадавать вопросы).

📹

Open Talks Special: Оттачиваем искусство коммуникации с AI

6 марта в 19:00 [МСК] обсудим

▶️ Как эффективно общаться с ИИ и извлекать максимум из взаимодействия с ним?

▶️ Как генеративный ИИ меняет подходы к коммуникации с машинами, и что это значит для будущего взаимодействия с AI?

Гости:

➡️

Сергей Марков
— автор Telegram-канала «Сергей Марков: машинное обучение, искусство и шитпостинг», ML-директор в SberDevices, автор книги «Охота на электроовец: большая книга искусственного интеллекта».

➡️

Сергей Цыпцын
— автор Telegram-канала «Метаверсище и ИИще», эксперт в компьютерной графике, ментор AI Talent Hub.

Ведущий

➡️

Павел Подкорытов
— сооснователь AI Talent Hub и CEO Napoleon IT.

Не увидел важного вопроса в анонсе?
▶️Регистрируйся и задай свой!

Приходите. Будет занятно. Подробнее тут. 💡

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥32👍21👎4🙏4❤2😱1

7.52K viewsSergey Tsyptsyn ️️, 15:44

Метаверсище и ИИще

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

А вы спрашивали, зачем учить антропоморфных робатов сортировке товара.

Чтобы после работы они ходили на тренировки.

Видео, кстати, без ускорения.

Все еще думаете, что это рендер? Тогда мы идем к вам.

Датасеты для тренировок таких робатов тут:
https://huggingface.co/unitreerobotics

https://x.com/UnitreeRobotics/status/1896859430517629292

720° Spin Kick - Hear the Impact! Kung Fu BOT Gameplay RAW. (No Speed-Up)
(Do not imitate, please keep a safe distance from the machine)

@cgevent

🔥43😱28😁4👍3❤1

8.75K viewsSergey Tsyptsyn ️️, 18:38

Метаверсище и ИИще

3:07

This media is not supported in your browser

VIEW IN TELEGRAM

Runway Video Restyle.

Только мы проворчались в комментах, что Рунвей давно не обновлялся, как они выкатили новую фичу.

Правда, скорее в духе Пика, чем в улучшение качества.

Но выглядит нарядно. Берете видео, например из Veo2, как в этом примере, прямо в интерфейсе говорите "взять первый кадр", отправляете его, например в Магнифик, где тоже появился новый рестайлер(хороший), получаете обратно картинку в совершенно новом стиле и говорите Рунвею: "а теперь бахни все видео в этом стиле".

Кто не понял, поглядите видео до конца, там со второй минуты инструкции для непользователей Комфи.

сурс

Внимание: available on early access for Creative Partners

@cgevent

👍37🔥8❤3👎2

9.95K viewsSergey Tsyptsyn ️️, edited 20:57

Гибридная реклама.

Мы тут в последнее время часто обсуждаем автомобильную рекламу, полностью сделанную на ИИ. Но почему это должен быть именно полностью генератив?

Взрослые мальчики уже экономят на съемках и посте (пишут, что 100К$) просто заменяя части материала, там где могут заменить.

Вот такой пример. Из интересного: тут живые съемки были в начале и в конце (в душе и в офисе) и было много подсъемок главного героя в разных позах, чтобы менять одежду в некоторых шотах и максимально держать лицо консистентным.

Остальное - генератив. И не важно в чем. Так примерно все китайские генераторы умеют.

Важно, что это не два дня, а два месяца работы.

А, и еще они пишут, что агенство довольно сильно ело им мозг, и что правок было много, поэтому у них была сделана система раскадровок и ключей для анимации:

we had to be very directable, so we built up a really cool workflow based on keyframes. We would create a really creative keyframe, but then spend a lot of time tweaking it to be character consistent, scene consistent etc and also having very specific wardrobe for each scene. Then once keyframes are all signed off we can start animating them, then finally joining the sections. It was a loot of work.

Помните вы ворчали "а вот придет заказчик и попросит переделать вашу ИИ-генерацию". Ну вот пришел, переделали, придумали как выкрутиться.

Пост, если что, про экономию денег. Просто прикиньте, сколько и как такое можно напилить в 3Д и композе.

Больше очень прикольных работ тут

@cgevent

👍104🔥36❤15👎6😱6🙏1

9.82K viewsSergey Tsyptsyn ️️, edited 08:48

Метаверсище и ИИще

Forwarded from Нейронавт | Нейросети в творчестве

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста

Но всего два языка - английский и китайский

Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже

Код
Демо

#music #text2music

👍20🔥7❤5👎1

6.78K viewsSergey Tsyptsyn ️️, 10:11

Метаверсище и ИИще

Forwarded from Neural Shit

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

Тем временем исследователи из University of Massachusetts Amherst и University of Michigan научили робопса кататься на скейте.

Хотя, конечно, главная цель была не в трюках ради лайков. Они решили одну из ключевых задач в робототехнике — научили робота самому понимать, когда и как переключаться между разными режимами движения. Без заранее прописанных сценариев, разметки траекторий и прочих нудных штук.

Например, в случае со скейтом — когда именно надо балансировать, когда отталкиваться лапами, а когда просто держать равновесие, пока доска катится. Это всё называется гибридной динамикой, когда у робота есть плавные движения, и резкие переключения между ними.

Для этого исследователи придумали подход DHAL — Discrete-time Hybrid Automata Learning. По сути, это такая обучающая схема на основе обучения с подкреплением, которая позволяет роботу самому находить моменты смены режимов и корректно на них реагировать.

Проверили всё это на симуляциях и на реальном робопсе, который теперь бодро гоняет на скейте.

Даже робо-собака смогла научиться, а я нет :(

Тут статья про метод обучения

👍30🔥22😁13❤2

6.13K viewsSergey Tsyptsyn ️️, 13:42

Метаверсище и ИИще

Рубрика крутые подписчики.

Главный плюс чата с коментами - наличие практических советов и возможность найти ответы на вопросы.

Вынесу сюда пример уровня коментариев у нас в чате (да, это не для всех, но для тех, кто в теме)

Вопрос: как присунуть сгенеренный где-нибудь голос в генератор музыки?

Kenan: Трените голос в Элевен или где вам удобно.
После я беру сгенеренный голос семплирую его под пропевки в классическом аудио редакторе. Fl Studio, Cubase и т.д. все что вам удобно. Я использую Reason Studio
После того как засемплируете голос, вам нужно написать ноты (партитуру) под которую будет идти пропевка. В моем случае я беру оригинал произведения на который делаю кавер, на слух подпираю мелодию в аудиоредакторе начинаю семплировать заранее озвученные слова или вокалайзеры под нужные ноты.

После того как треки готовы, заливаю их в Суно. НО! Суно не пускает вас сделать из загруженного даже вами авторского трека персону, начинаем колдовать с ремастерами и ищем тот вариант который меньше всего заремастериться чтобы не повредить то что вы сделали. У меня это занимает от 20 - 50 генераций ремастеров. После того как из ремастера и кавера получается сохранить персону, начинаете искать варианты в которых меньше всего бекграунд звуков. Тут все зависит от того на сколько хорошо вы пишите промпт и отрицательный промпт чтобы на фоне кроме вокала ничего не было.

Далее надо для вашего кавера точно также написать ноты для каждой дорожки. После эти дорожки тоже заливаются в Суно (тут я рекомендую писать звуки в полифоническом миди формате и сохранять их как МП3, так что Суно, что Юдио лучше их преобразуют в нужные инструменты), некоторые штуки лучше делаются в Юдио кстати. К пример Hammond Organ идеально сделал Юдио. Тут думаю уже ясно что надо писать кучу промптов чтобы добиваться соло партий для каждой дорожки.

Но я все равно их дочищаю в RipX или через Adobe Audition там есть классная тулза спектральный анализ звука. Но если у вас качественный звук на дорожке RipX уменьшает вашу боль в сотни раз.
После того как вы собрали пак из всех треков, возвращаетесь в свой аудиоредактор и начинаете мастерить все дорожки с вокалом. Иногда помогает замастеренный трек, залить обратно в Суно и сделать ремастер (именно ремастер, не кавер). Ну вот короче как-то так)

@cgevent

🔥64👍19❤9😱5👎2

7.02K viewsSergey Tsyptsyn ️️, 15:41

Метаверсище и ИИще

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

Похоже Wan всем настолько насыпал соли на FOMO, что Хуньянь и ЛТХ буквально зашевелились по всем фронтам.

Хуньянь пишет в Дискорде, что image2video уже-точно-зуб-даю. И флексит в твитторе.

А LTX два часа назад обновил код, веса, свой web-app и еще много чего.

И там обещаны прям сладкие ништяки:

- checkpoint v0.9.5 with improved quality
- keyframes and video extension (см ниже)
- higher resolutions
- improved prompt understanding (ну ну, ждем)
- improved VAE
- new online web app in LTX-Studio
- аutomatic prompt enhancement (авто улучшайзинг промптов, как у Вана)

Срочно шуруйте сюда:
https://github.com/Lightricks/LTX-Video

И там ниже по тексту есть две киллер-фичи для опенсорса:

Продолжение видео: Input video segments must contain a multiple of 8 frames plus 1 (e.g., 9, 17, 25, etc.), and the target frame number should be a multiple of 8.

А теперь, внимание:
Теперь вы можете генерировать видео, на которое можно влиять (conditioning) картинками и/или короткими видео. Просто укажите список путей к изображениям или видеофрагментам, на которые вы влиять, а также номера их целевых кадров в генерируемом видео. Вы также можете указать силу влияния для каждого элемента (по умолчанию: 1.0).

Вчера писал что в Рунвей можно взять Первый кадр входного видео, навалить на него фильтр\стиль и перегенерить все видео с этим стилем.

А тут выглядит так, что можно задавать Несколько и Непервых кадров, на которые можно влиять другими картинками или даже видосами.
Frame and sequence conditioning (beyond the first frame).

Звучит сложно, особенно, когда не в вебе, а вот так:

python inference.py --ckpt_path 'PATH' --prompt "PROMPT" --conditioning_media_paths IMAGE_OR_VIDEO_PATH_1 IMAGE_OR_VIDEO_PATH_2 --conditioning_start_frames TARGET_FRAME_1 TARGET_FRAME_2 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

Но мы же за это и любим опен-сорс?! Да? Да? За сложность в установке, write-only docs, говно и палки в репозиториях.

И за обновленную поддержку Комфи:

We have removed the custom model implementation.

Только нативная поддержка:

Frame Conditioning – Enables interpolation between given frames.
Sequence Conditioning – Allows motion interpolation from a given frame sequence, enabling video extension from the beginning, end, or middle of the original video.
Prompt Enhancer – A new node that helps generate prompts optimized for the best model performance. See the Example Workflows section for more details.

В общем, го раскрывать тему.

Кстати, у них на сайте можно бесплатно, чутка погенерить.

https://app.ltx.studio/

@cgevent

🔥27👍9❤1

7.28K viewsSergey Tsyptsyn ️️, edited 16:53

Метаверсище и ИИще

Разрабы LTX Studio так спешили выкатить в прод новую версию и код на гитхаб, что забыли включить на сайте цензуру. Совсем. И на входную картинку, и на результат.
Результат, как вы понимаете, я вам показать не могу (если только в коментах и за двести старзов).
Но вы и сами можете БЕСПЛАТНО порезвиться вот тут:
https://app.ltx.studio/motion-workspace

Куда катится мир?

@cgevent

422😁68❤8👍6👎3🔥1

8.58K viewsSergey Tsyptsyn ️️, 17:10

About

Blog

Apps

Platform