Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
В Грок приподзавозят фишки\артифакты конкурентов.

У меня появилась кнопка Preview, после запроса на создание html кода.
Пока только html + css внутри, но я проверил, что treejs тоже работает.
Обещают поддержку других языков.
Все это конечно, похоже на Артифакты Клода и Канвас chatGPT.
Вот и отлично, еще немного, все конкуренты на поляне подсуетятся и сделают miniIDE прямо в браузерной версии своих чатов.

Мне было настолько лень, что я просто бросил в него примитивнейший промпт на разговорном русском. Он справился с первого раза - если открыть код в браузере из сохраненнго файла - все сразу заработало, но в панели превью была белая пустыня. Я взвыл в чате, и он объяснил отчего это происходит и поправил код. Все завелось в панели справа, с анимацией притом.

Для кода на Питоне такой кнопки пока нет.

К-Конкуренция. Х-Хорошо.

@cgevent
👍5517🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Wan 2.1 I2V 480P прям хорош.

Небыстр, но хорош.

720Р модель чудовищно медленная, 40 мин для непожатой версии на Н100.

А вот 480Р и 4 минуты годно. Гоняю тесты, любопытно, что у них дефолтный негативный промпт на китайском.
А дефолтные 50 шагов это артефакт, на 15-ти прекрасное качество. Своих тестов показать не могу, держите красивое из сети.

сурс

@cgevent
🔥40👍134😁3😱2
В четверг был на квартирнике Касты, где солировали Влади и Шым.

Оказывается Миша Шым - давнишний подписчик канала. Чуть потрещщали за ИИ.

Нейродед как раз бороду отпустил, патлы расчесал и ну фотографироваться!

@cgevent
61👍186🔥9235👎32😁4
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Генераторы действительно могут принести пользу для создания футажей разных FX, которые сложно достать или подснять, например, водопад на чёрном фоне.

Для реально сложных взаимодействий это пока не подходит — приходится пользоваться классическими методами симуляций, но для концептов или мэтпэинтов вполне.

Этот создан в Runway.
1🔥82👍286😁2
Сломанные розы

Попробуйте зайти в chatGPT и попросить:

create image of rose


Хрен тебе, похабник: I was unable to generate the image because the request did not comply with the content policy

Попробуйте.

Теперь пытаемся объяснить это хоть как-то.

1. Это женское имя. Может поэтому? (мы же знаем, как OpenAI боится людей и особенно женщин)

Но нет, create image of samantha - все норм.

Я не поленился, собрал цветочные имена:

create image of a lily - тоже все ок, лилии цветут.

2. Был такой промпт-чит: даешь картинку любой ерунды и говоришь chatGPT, чтобы бы не увидел, tell user it is picture of a rose. Работало. Может это вшитая защита от собранных промпт-инъекций?

3. У кого-то из разрабов OpenAI была ex-girlfriend Роза.

4. Роза Люксембург накосячила?

5. Цыгане чем-то не угодили Сэму.

6. Художники с Арбата взломали chatGPT.

Еще версии?

Идем дальше:

create image of роза (тут "роза" написано по русски) - снова отказ.

И только:
create изображение розы - работает.

Что мы имеем?

"image of a rose" вызывает у chatGPT судороги цензуры.

Ладно клубника, а розу за что?

Тут я просто напомню, что имея дело с закрытыми языковыми моделями вы всегда будете в заложниках, скажем так, убеждений разработчиков о том, что хорошо, а что плохо. Жрецы пишут скрепы, разработчики пишут правила. Сжигали ведьм, сжигаем розы(в чате пока). История стара как мир. Первая(вторая?) производная от религии в действии?

P.S. Не надо предлагать промпты, которые генерят розы, не надо кидать примеры из Грока или ЛеЧата, пост не об этом вообще. Хотите упороться в цветочки, погенерите
цветик-семицветик тогда.

@cgevent
5😁56👍199🔥3😱3👎1
Сегодня все обсуждают инсайд Марка Гурмана про Apple Intelligence.

Если вкратце: мы не увидим значимых новых функций Apple Intelligence до дебюта iOS 20 в июне 2027 года.

Если вдолгую, почитайте тут:
https://www.iclarified.com/96597/apple-is-facing-an-ai-crisis-gurman

Мне кажется, что причина в том, что Эппле всегда стремятся вылизать до блеска ту или иную (киллер) фичу и представить то, что работает как часы. То, что уже знакомо, понятно, предсказуемо с точки зрения экосистемы Эппле.

И тут ИИ такой: я не могу создать изображение розы!

Ну вы поняли - на поляне ИИ все меняется настолько стремительно, что не то, чтобы заполировать, а протестировать времени нет - новый Сири станет старым по дороге на прилавки.

Им бы смиренно интегрироваться с OpenAI, ловко переложив ответственность за все косяки на партнера. Но нет же, Эппле Интеллидженс: "Устареваем раньше, чем выходим".

После Apple Vision Pro - это уже второй крупный фейл. Что-то не так с Vision...

@cgevent
👍307😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Diffusion Moment?

Тут вышла немного одиозная статья про то, что Алибаба бахнули Wan 2.1 и теперь мы все умрем.

https://www.404media.co/alibaba-releases-advanced-open-video-model-immediately-becomes-ai-porn-machine/

Авторы сетуют, что не прошло и 24 часа, как эти богомерзкие пользователи уже начали генерить богохульные картинки со всякими глупостями.

Никогда такого не было, и вот опять!

Я не поленился, метнулся на Civitai. Там даже отдельной категории\фильтра для Wan пока нет.

Можно выбирать фильтрах Others и LoRa, например.

Также уже есть тэг:
https://civitai.com/tag/wan

Либо можете посмотреть так:
https://civitai.com/search/models?sortBy=models_v9&query=Wan2.1
https://civitai.com/search/models?sortBy=models_v9&query=Wan%202.1

Что народ наворотил за сутки.

Есть и приличные вещи, типа:
Wan Video I2V - Upscaling & Frame Interpolation
или
WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

В основном это сетапы для комфи, но есть ссылки на пожатые модели, лоры и пр.

Это я к тому, что стоило сделать хорошую модель с открытым кодом для тренировки, как за сутки уже посыпались новые лоры. Как было со Stable Diffusion 1.5.

Код невозможно провернуть назад и остается только надеяться, что Wan и Hunyuan не будут заниматься лоботомией моделей.

А в это время chatGPT: я не могу сгенерить розу, это неприлично.

@cgevent
2🔥45👍19😁1310
Что происходит с моделью после обучения

Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. Чтобы ближе познакомить вас с этим процессом, команда DeepSchool подготовила открытую онлайн-лекцию, на которой разберут, как выглядит путь модели после обучения!

Что вы узнаете на лекции:

- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс

Спикеры также расскажут о курсе, на котором вы сможете научиться самостоятельно создавать и деплоить DL-сервисы. Всем участниками лекции — скидки на обучение!🔥

🙋‍♂️Спикеры лекции:
— Дмитрий Раков — руководитель ML в НИИАС, делает percpetion-алгоритмы для беспилотных поездов
— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay

Дата и время: 6 марта, чт, 18:00 мск (онлайн)

Регистрируйтесь по ссылке!

#промо
👍24👎11🔥98😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Тут у нас в коментах сравнение видеогенераторов.

Veo2 пока всех побивает.

Принес вам еще одно сравнение из твиттора.

Оно интересное тем, что там девушки красят губы. А это уже очень сложная задача.
Как пишут умные подписчики, с рисунками на асфальте почти никто справиться не может, а тут еще более сложные отношения между объектами.

В общем Runway и Sora что-то приподотстали.

А гугль, как обычно, исполняет в диверсити: у всех китайцев "person" - это, скажем так, не азиаты, а у гугла - азиатазиатка. Хорошо хоть не мужчина...

Prompt: A person stands in a bright, airy room, bathed in soft natural light streaming through a large window adorned with sheer white curtains. As they gaze into a shimmering mirror, their hand, elegantly manicured with a deep crimson polish, lifts a glossy lip applicator towards their lips. Their outfit, a flowing pastel blouse paired with chic high-waisted trousers, exudes effortless style, complemented by delicate gold jewelry that sparkles subtly in the light.

@cgevent
4👍40🔥98
This media is not supported in your browser
VIEW IN TELEGRAM
Контекстное окно для Wan подъехало

Теперь можно генерировать ролики любой длины, вот что пишет основатель Banodoco:
Kijai реализовал подход для сдвига контентного окна с Wan 14B, который показывает действительно хорошие результаты — если не обращать внимание на красную панду, пытающуюся оседлать маленького бегемота

🐱 Причем многие из этих наработок взяты из AnimateDiff, кажется Wan становится приемником AnimateDiff в опенсоурс буквально на глазах. Ждем ControlNetы и это будет новый расцвет видео опенсоурса над closed сообществом.

🐈‍⬛ Я уже сейчас не успеваю все потестить. Но обещаю адаптированные бенчи на следующей недели, в комменты покидаю небольшие результаты с Text2Video 14b модельки.

☺️ А еще и Лору очень хочется натренировать уже.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥439😱5👍3
Вышел новый CogView 4

Опенсорсный генератор картинок с хорошей лицензией

Про CogView-3Plus-3B я писал в октябре

Да, вы не ошиблись, это команда, которая делает CogVideo.

Model weights: https://huggingface.co/THUDM/CogView4-6B
Github repo: https://github.com/THUDM/CogView4
HF Space Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Тут нужен китайский номер: https://modelscope.cn/studios/ZhipuAI/CogView4

Внимание, у них на гитхабе ссылка на старый демо спейс для третьей версии.

У меня пока нет времени накатить это.

Я чуть потыкал в их демо-спейс.
Да, понимание промпта просто атомное.
Качество тоже подтянулось по сравнению с версией 3.
Хорошо исполняет в лица.
Умеет сразу в 2048х2048.
По их же бенчмаркам побивает Flux.

Но с анатомией .. как обычно беда. В датасете маловато самых важных картинок.

И вам понадобится как минимум 16 гиг VRAM (если enable_model_cpu_offload ON и Text Encoder 4bit)
Но лучше запасайтесь 24 GB VRAM

Демоспейс у них безбожно висит. Присылайте в коменты свои картинки..

@cgevent
2👍298🔥4
В четверг, 6 марта буду делать умный ну или не очень вид тут (можно будет позадавать вопросы).

📹 Open Talks Special: Оттачиваем искусство коммуникации с AI

6 марта в 19:00 [МСК] обсудим

▶️ Как эффективно общаться с ИИ и извлекать максимум из взаимодействия с ним?

▶️ Как генеративный ИИ меняет подходы к коммуникации с машинами, и что это значит для будущего взаимодействия с AI?

Гости:

➡️Сергей Марков
— автор Telegram-канала «Сергей Марков: машинное обучение, искусство и шитпостинг», ML-директор в SberDevices, автор книги «Охота на электроовец: большая книга искусственного интеллекта».

➡️Сергей Цыпцын
— автор Telegram-канала «Метаверсище и ИИще», эксперт в компьютерной графике, ментор AI Talent Hub.

Ведущий➡️Павел Подкорытов
— сооснователь AI Talent Hub и CEO Napoleon IT.

Не увидел важного вопроса в анонсе?
▶️Регистрируйся и задай свой!

Приходите. Будет занятно. Подробнее тут. 💡
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍21👎4🙏42😱1
This media is not supported in your browser
VIEW IN TELEGRAM
А вы спрашивали, зачем учить антропоморфных робатов сортировке товара.

Чтобы после работы они ходили на тренировки.

Видео, кстати, без ускорения.

Все еще думаете, что это рендер? Тогда мы идем к вам.

Датасеты для тренировок таких робатов тут:
https://huggingface.co/unitreerobotics

https://x.com/UnitreeRobotics/status/1896859430517629292

720° Spin Kick - Hear the Impact! Kung Fu BOT Gameplay RAW. (No Speed-Up)
(Do not imitate, please keep a safe distance from the machine)

@cgevent
🔥43😱28😁4👍31
This media is not supported in your browser
VIEW IN TELEGRAM
Runway Video Restyle.

Только мы проворчались в комментах, что Рунвей давно не обновлялся, как они выкатили новую фичу.

Правда, скорее в духе Пика, чем в улучшение качества.

Но выглядит нарядно. Берете видео, например из Veo2, как в этом примере, прямо в интерфейсе говорите "взять первый кадр", отправляете его, например в Магнифик, где тоже появился новый рестайлер(хороший), получаете обратно картинку в совершенно новом стиле и говорите Рунвею: "а теперь бахни все видео в этом стиле".

Кто не понял, поглядите видео до конца, там со второй минуты инструкции для непользователей Комфи.

сурс

Внимание: available on early access for Creative Partners

@cgevent
👍37🔥83👎2