Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Все, что вы хотели знать про CogView-3Plus-3B

Потрясающее понимание промпта и адское качество.

Да, и он очень быстрый. Завтра порендерю еще. NSFW в коментах..

Но зато код для тренировки обещают выложить скоро. Пока только инференс

https://github.com/THUDM/CogView3

Но это я вам еще картинки из Emu3 не показывал, там еще хуже.

@cgevent
👍20😁112😱2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Так и запишем: на чердаке больше не спрятаться

Robust Ladder Climbing with a Quadrupedal Robot

paper

@derplearning
😱32😁20🙏6🔥4👍2
Давайте я сегодня отстреляюсь с результатами тестирования разных опен-сорсных генераторов.
А то телега наваливает постоянно разные ссылки типа "гля чо появилось".
Надо сказать, что ведение канала помогает теперь уже "на глаз" примерно определять, что является прям интересной работой, а что - очередная китайская бумага с кодом, про которую все забудут через месяц. Пойдет это как инструмент для использования, или просто повод твитторнуть и набрать индексы цитирования и репосты.
В опен-сорсе очень много работ по типу "мы тут взяли код отсюда, присунули данные отсюда, покрутили на коэффициенты и получилось прикольно".
Но мы тут про инструменты все таки. Для графики в основном.

Для привлечения внимания в шапке пара примеров, как CogVideo-Fun-5B видит nsfw fun.

Потестировал. Сыровато, скажем так.

Итак, пара гиковато-диковатых постов сегодня чуть позже.

@cgevent
😱11👎8👍53😁3🔥2
Любовь, Реклама и Роботы.

В этом году начался дикий всплеск интереса к роботам. Но это скорее удел огромных компаний с бюджетами. Но что делать читателям канала?

Тут щас будет очень интересный твист. Как бы реклама, но вообще не реклама.
Ибо.
Когда-то ко мне на курсы по Maya пришел .. кузнец.
Я тогда умудрялся рассказать основы программирования за два дня (просто не знал, что так неможно)
И Стас на второй день (ничего не зная про программирование вообще) взял и написал калькулятор на mel в Maya. За ночь.
Гений в общем.
Потом он ушел в Гудини. Потом в Touchdesigner. По которому у него теперь целая школа Hou2Touch.
Так вот он с ::vtol:: замутил ну очень интересное мероприятие: От звука до робототехники за 15 недель

Курс по основам Max/MSP охватывает как изучение самого программного обеспечения, так и подходы к разработке различных проектов: от звуковых инсталляций до гибридных роботизированных систем. Особое внимание уделяется проектам, интегрирующим цифровой и физический миры через создание программно-аппаратных комплексов.

Ведущий курса — ::vtol::, он же Дмитрий Морозов, междисциплинарный художник и исследователь.

Программа включает:

- Изучение интерфейса программы
- Основы программирования логических процессов
- Основы синтеза звука и многоканальное аудио
- Внешние интерфейсы и интеграцию Max с другим программным обеспечением и оборудованием (OSC/MIDI/serial)
- Работу с внешними данными
- Основы использования графического движка Jitter
- Разработку аудио- и аудиовизуальных перформансов, инсталляций и интерфейсов
- Работу с Arduino: создание пользовательских интерфейсов, управление внешними электронными устройствами (моторы, датчики, освещение) из Max, создание интерактивных контроллеров
- Разработку студенческих проектов и концептуализацию работ

Курс проводится на английском языке с кураторской поддержкой.

Присоединиться можно до конца недели.

Для подписчиков канала — специальная скидка 10% по промокоду CGEVENT.

Залетайте по ссылке - тот случай, когда я лично люто плюсую, ибо знаю Стаса 23 года

@cgevent
👍27👎7🔥51
Итак, пара гиковато-диковатых постов, как обещал.

Вот мы тут обсуждали OmniGen
как уход от диффузии и переход на мультимодальные LLM, которые и шьют, и жнут, и картинки генерят.

Также я заприметил вот такую работу - Transfusion:
https://xn--r1a.website/cgevent/9533

"мы демонстрируем, что масштабирование нашего рецепта Transfusion до 7B параметров и 2T мультимодальных лексем позволяет получить модель, способную генерировать изображения и текст наравне с аналогичными по масштабу диффузионными и языковыми моделями, извлекая выгоду из обоих миров."

И тут я наткнулся в твитторе на Emu3 - похоже, китайцы взяли работу Метачки и статьи про Хамелеон и быстро собрали такой генератор без диффузии.
https://emu.baai.ac.cn/

В общем, я не устоял, хотя знал, что китайцы не пишут инструкций по установке.

На итоге оно завелось, и даже генерит. Но похоже, что:
- данных у них было мало
- компьюта у них было мало
- они зачем-то обучали (как мне показалось) на тэгоподобных промптах из SDXL, хотя у них там трансформер на блюдечке.
- как следствие промпта слушается плохо
- про качество вообще молчу
- в 1024на1024 генерит 1 картинку 13 минут(!) на H100. И похоже там баги, часть картинки не сходится.
- в 720на720 генерит 3 минуты на H100, артефактов меньше.


Но сам подход не оставляет меня равнодушным. Мы тут пляшем с этой диффузией три года, имея родовые травмы в виде кипения и полного отсутсвия консистентности (с костылями для ее преодоления).

Может есть другой путь?

Ждем кода OmniGen (в октябре). И ответачки от Метачки.

@cgevent
17😁7👍3🔥1
Продолжаем пару гиковато-диковатых постов.

Телегам принес новости про Ctrl-X
Это как бы ControlNet от Нвидии да еще и с исходным кодом.
https://genforce.github.io/ctrl-x/

На картинках все сладко. Иду тестировать.
Первое, что вижу - адовый интерфейс.
Шесть полей для картинок, странные подписи на них.

Второе, что вижу - это SDXL.

Пробую их же примеры - и после Флюкса это выглядит настолько архаично, что закрываю и забываю.

Даю второй шанс - кидаю своего вирусного Спикера - получаю адъ. Закрываю снова.

Хотя идея отличная. Пишут, что может работать лучше связки ControlNet+IP на сложных композициях. Может кому-то пригодится.

Такое бы добро во Флюкс.
А пока ставим на полку.
Скрины выше.

@cgevent
10
This media is not supported in your browser
VIEW IN TELEGRAM
А это я тестировал опенсорсный CogVideo в режиме image2video.

Тут ему полегче стартовать с высокой базы. Также я заметил, что он как рекс натренирован на эмбедингах типа dancing. Но jumping, shaking - все мимо. Видать Тикток - родовой датасет.

Пойду присуну это в FaceFusion 3.

@cgevent
😁43👍17🔥95👎5
Ну и вот примерно те чувства, которые я испытывал, тестируя, а точнее устанавливая все это опенсорсное адищще. Покрал картинку у Андрея, уж больно хороша и отзывается.

Кстати, ровно год назад писал мемуары, как порешать проблемы с картинки с помощью chatGPT. Повторю пожалуй ниже.
37😁37🔥2