Метаверсище и ИИще
48.3K subscribers
6.07K photos
4.56K videos
47 files
6.98K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Вышел новый CogView 4

Опенсорсный генератор картинок с хорошей лицензией

Про CogView-3Plus-3B я писал в октябре

Да, вы не ошиблись, это команда, которая делает CogVideo.

Model weights: https://huggingface.co/THUDM/CogView4-6B
Github repo: https://github.com/THUDM/CogView4
HF Space Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Тут нужен китайский номер: https://modelscope.cn/studios/ZhipuAI/CogView4

Внимание, у них на гитхабе ссылка на старый демо спейс для третьей версии.

У меня пока нет времени накатить это.

Я чуть потыкал в их демо-спейс.
Да, понимание промпта просто атомное.
Качество тоже подтянулось по сравнению с версией 3.
Хорошо исполняет в лица.
Умеет сразу в 2048х2048.
По их же бенчмаркам побивает Flux.

Но с анатомией .. как обычно беда. В датасете маловато самых важных картинок.

И вам понадобится как минимум 16 гиг VRAM (если enable_model_cpu_offload ON и Text Encoder 4bit)
Но лучше запасайтесь 24 GB VRAM

Демоспейс у них безбожно висит. Присылайте в коменты свои картинки..

@cgevent
2👍298🔥4
В четверг, 6 марта буду делать умный ну или не очень вид тут (можно будет позадавать вопросы).

📹 Open Talks Special: Оттачиваем искусство коммуникации с AI

6 марта в 19:00 [МСК] обсудим

▶️ Как эффективно общаться с ИИ и извлекать максимум из взаимодействия с ним?

▶️ Как генеративный ИИ меняет подходы к коммуникации с машинами, и что это значит для будущего взаимодействия с AI?

Гости:

➡️Сергей Марков
— автор Telegram-канала «Сергей Марков: машинное обучение, искусство и шитпостинг», ML-директор в SberDevices, автор книги «Охота на электроовец: большая книга искусственного интеллекта».

➡️Сергей Цыпцын
— автор Telegram-канала «Метаверсище и ИИще», эксперт в компьютерной графике, ментор AI Talent Hub.

Ведущий➡️Павел Подкорытов
— сооснователь AI Talent Hub и CEO Napoleon IT.

Не увидел важного вопроса в анонсе?
▶️Регистрируйся и задай свой!

Приходите. Будет занятно. Подробнее тут. 💡
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍21👎4🙏42😱1
This media is not supported in your browser
VIEW IN TELEGRAM
А вы спрашивали, зачем учить антропоморфных робатов сортировке товара.

Чтобы после работы они ходили на тренировки.

Видео, кстати, без ускорения.

Все еще думаете, что это рендер? Тогда мы идем к вам.

Датасеты для тренировок таких робатов тут:
https://huggingface.co/unitreerobotics

https://x.com/UnitreeRobotics/status/1896859430517629292

720° Spin Kick - Hear the Impact! Kung Fu BOT Gameplay RAW. (No Speed-Up)
(Do not imitate, please keep a safe distance from the machine)

@cgevent
🔥43😱28😁4👍31
This media is not supported in your browser
VIEW IN TELEGRAM
Runway Video Restyle.

Только мы проворчались в комментах, что Рунвей давно не обновлялся, как они выкатили новую фичу.

Правда, скорее в духе Пика, чем в улучшение качества.

Но выглядит нарядно. Берете видео, например из Veo2, как в этом примере, прямо в интерфейсе говорите "взять первый кадр", отправляете его, например в Магнифик, где тоже появился новый рестайлер(хороший), получаете обратно картинку в совершенно новом стиле и говорите Рунвею: "а теперь бахни все видео в этом стиле".

Кто не понял, поглядите видео до конца, там со второй минуты инструкции для непользователей Комфи.

сурс

Внимание: available on early access for Creative Partners

@cgevent
👍37🔥83👎2
Media is too big
VIEW IN TELEGRAM
Гибридная реклама.

Мы тут в последнее время часто обсуждаем автомобильную рекламу, полностью сделанную на ИИ. Но почему это должен быть именно полностью генератив?

Взрослые мальчики уже экономят на съемках и посте (пишут, что 100К$) просто заменяя части материала, там где могут заменить.

Вот такой пример. Из интересного: тут живые съемки были в начале и в конце (в душе и в офисе) и было много подсъемок главного героя в разных позах, чтобы менять одежду в некоторых шотах и максимально держать лицо консистентным.

Остальное - генератив. И не важно в чем. Так примерно все китайские генераторы умеют.

Важно, что это не два дня, а два месяца работы.

А, и еще они пишут, что агенство довольно сильно ело им мозг, и что правок было много, поэтому у них была сделана система раскадровок и ключей для анимации:

we had to be very directable, so we built up a really cool workflow based on keyframes. We would create a really creative keyframe, but then spend a lot of time tweaking it to be character consistent, scene consistent etc and also having very specific wardrobe for each scene. Then once keyframes are all signed off we can start animating them, then finally joining the sections. It was a loot of work.

Помните вы ворчали "а вот придет заказчик и попросит переделать вашу ИИ-генерацию". Ну вот пришел, переделали, придумали как выкрутиться.

Пост, если что, про экономию денег. Просто прикиньте, сколько и как такое можно напилить в 3Д и композе.

Больше очень прикольных работ тут

@cgevent
👍104🔥3615👎6😱6🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста

Но всего два языка - английский и китайский

Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже

Код
Демо

#music #text2music
👍20🔥75👎1
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем исследователи из University of Massachusetts Amherst и University of Michigan научили робопса кататься на скейте.

Хотя, конечно, главная цель была не в трюках ради лайков. Они решили одну из ключевых задач в робототехнике — научили робота самому понимать, когда и как переключаться между разными режимами движения. Без заранее прописанных сценариев, разметки траекторий и прочих нудных штук.

Например, в случае со скейтом — когда именно надо балансировать, когда отталкиваться лапами, а когда просто держать равновесие, пока доска катится. Это всё называется гибридной динамикой, когда у робота есть плавные движения, и резкие переключения между ними.

Для этого исследователи придумали подход DHAL — Discrete-time Hybrid Automata Learning. По сути, это такая обучающая схема на основе обучения с подкреплением, которая позволяет роботу самому находить моменты смены режимов и корректно на них реагировать.

Проверили всё это на симуляциях и на реальном робопсе, который теперь бодро гоняет на скейте.

Даже робо-собака смогла научиться, а я нет :(

Тут статья про метод обучения
👍30🔥22😁132
Рубрика крутые подписчики.

Главный плюс чата с коментами - наличие практических советов и возможность найти ответы на вопросы.

Вынесу сюда пример уровня коментариев у нас в чате (да, это не для всех, но для тех, кто в теме)

Вопрос: как присунуть сгенеренный где-нибудь голос в генератор музыки?

Kenan: Трените голос в Элевен или где вам удобно.
После я беру сгенеренный голос семплирую его под пропевки в классическом аудио редакторе. Fl Studio, Cubase и т.д. все что вам удобно. Я использую Reason Studio
После того как засемплируете голос, вам нужно написать ноты (партитуру) под которую будет идти пропевка. В моем случае я беру оригинал произведения на который делаю кавер, на слух подпираю мелодию в аудиоредакторе начинаю семплировать заранее озвученные слова или вокалайзеры под нужные ноты.

После того как треки готовы, заливаю их в Суно. НО! Суно не пускает вас сделать из загруженного даже вами авторского трека персону, начинаем колдовать с ремастерами и ищем тот вариант который меньше всего заремастериться чтобы не повредить то что вы сделали. У меня это занимает от 20 - 50 генераций ремастеров. После того как из ремастера и кавера получается сохранить персону, начинаете искать варианты в которых меньше всего бекграунд звуков. Тут все зависит от того на сколько хорошо вы пишите промпт и отрицательный промпт чтобы на фоне кроме вокала ничего не было.

Далее надо для вашего кавера точно также написать ноты для каждой дорожки. После эти дорожки тоже заливаются в Суно (тут я рекомендую писать звуки в полифоническом миди формате и сохранять их как МП3, так что Суно, что Юдио лучше их преобразуют в нужные инструменты), некоторые штуки лучше делаются в Юдио кстати. К пример Hammond Organ идеально сделал Юдио. Тут думаю уже ясно что надо писать кучу промптов чтобы добиваться соло партий для каждой дорожки.

Но я все равно их дочищаю в RipX или через Adobe Audition там есть классная тулза спектральный анализ звука. Но если у вас качественный звук на дорожке RipX уменьшает вашу боль в сотни раз.
После того как вы собрали пак из всех треков, возвращаетесь в свой аудиоредактор и начинаете мастерить все дорожки с вокалом. Иногда помогает замастеренный трек, залить обратно в Суно и сделать ремастер (именно ремастер, не кавер). Ну вот короче как-то так)

@cgevent
🔥64👍199😱5👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже Wan всем настолько насыпал соли на FOMO, что Хуньянь и ЛТХ буквально зашевелились по всем фронтам.

Хуньянь пишет в Дискорде, что image2video уже-точно-зуб-даю. И флексит в твитторе.

А LTX два часа назад обновил код, веса, свой web-app и еще много чего.

И там обещаны прям сладкие ништяки:

- checkpoint v0.9.5 with improved quality
- keyframes and video extension (см ниже)
- higher resolutions
- improved prompt understanding (ну ну, ждем)
- improved VAE
- new online web app in LTX-Studio
- аutomatic prompt enhancement (авто улучшайзинг промптов, как у Вана)

Срочно шуруйте сюда:
https://github.com/Lightricks/LTX-Video

И там ниже по тексту есть две киллер-фичи для опенсорса:

Продолжение видео: Input video segments must contain a multiple of 8 frames plus 1 (e.g., 9, 17, 25, etc.), and the target frame number should be a multiple of 8.

А теперь, внимание:
Теперь вы можете генерировать видео, на которое можно влиять (conditioning) картинками и/или короткими видео. Просто укажите список путей к изображениям или видеофрагментам, на которые вы влиять, а также номера их целевых кадров в генерируемом видео. Вы также можете указать силу влияния для каждого элемента (по умолчанию: 1.0).

Вчера писал что в Рунвей можно взять Первый кадр входного видео, навалить на него фильтр\стиль и перегенерить все видео с этим стилем.

А тут выглядит так, что можно задавать Несколько и Непервых кадров, на которые можно влиять другими картинками или даже видосами.
Frame and sequence conditioning (beyond the first frame).

Звучит сложно, особенно, когда не в вебе, а вот так:

python inference.py --ckpt_path 'PATH' --prompt "PROMPT" --conditioning_media_paths IMAGE_OR_VIDEO_PATH_1 IMAGE_OR_VIDEO_PATH_2 --conditioning_start_frames TARGET_FRAME_1 TARGET_FRAME_2 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED


Но мы же за это и любим опен-сорс?! Да? Да? За сложность в установке, write-only docs, говно и палки в репозиториях.

И за обновленную поддержку Комфи:

We have removed the custom model implementation.

Только нативная поддержка:

Frame Conditioning – Enables interpolation between given frames.
Sequence Conditioning – Allows motion interpolation from a given frame sequence, enabling video extension from the beginning, end, or middle of the original video.
Prompt Enhancer – A new node that helps generate prompts optimized for the best model performance. See the Example Workflows section for more details.


В общем, го раскрывать тему.

Кстати, у них на сайте можно бесплатно, чутка погенерить.

https://app.ltx.studio/

@cgevent
🔥27👍91
Разрабы LTX Studio так спешили выкатить в прод новую версию и код на гитхаб, что забыли включить на сайте цензуру. Совсем. И на входную картинку, и на результат.
Результат, как вы понимаете, я вам показать не могу (если только в коментах и за двести старзов).
Но вы и сами можете БЕСПЛАТНО порезвиться вот тут:
https://app.ltx.studio/motion-workspace

Куда катится мир?

@cgevent
422😁688👍6👎3🔥1
У меня катнули GPT-4.5 в мой chatGPT Plus.

А у вас?

@cgevent
1👍65🔥11
Ну за влоггеров?

Тут вируcится новый (старый) проект captions.ai

Типа audio-to-video..

Пишете скрипт, а он вам выдает говорящую голову, которая читает все, что вы написали, либо переделывает ваши графоманские вирши в что-то более интересное и захватывающее.
А еще они делают из длинных видео короткие.

Но при ближайшем рассмотрении это оказывается простой сайт-попрошайка с оберткой над существующими сервисами. Голоса из Eleven Labs, тексты еще откуда-то, но самое главное, вы не можете выбрать своего влоггера (лицо), только библиотека из странных персонажей с арабско-индусским уклоном. Немногочисленная притом.

В общем, не ведитесь на видосы. Выглядит убого, я попробовал.
https://desktop.captions.ai/projects

Влоггеры выдыхают...

@cgevent
😱20😁11👍8🙏85🔥1