Все, что вы хотели знать про CogView-3Plus-3B
Потрясающее понимание промпта и адское качество.
Да, и он очень быстрый. Завтра порендерю еще. NSFW в коментах..
Но зато код для тренировки обещают выложить скоро. Пока только инференс
https://github.com/THUDM/CogView3
Но это я вам еще картинки из Emu3 не показывал, там еще хуже.
@cgevent
Потрясающее понимание промпта и адское качество.
Да, и он очень быстрый. Завтра порендерю еще. NSFW в коментах..
Но зато код для тренировки обещают выложить скоро. Пока только инференс
https://github.com/THUDM/CogView3
Но это я вам еще картинки из Emu3 не показывал, там еще хуже.
@cgevent
👍20😁11❤2😱2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Так и запишем: на чердаке больше не спрятаться
Robust Ladder Climbing with a Quadrupedal Robot
paper
@derplearning
Robust Ladder Climbing with a Quadrupedal Robot
paper
@derplearning
😱32😁20🙏6🔥4👍2
Давайте я сегодня отстреляюсь с результатами тестирования разных опен-сорсных генераторов.
А то телега наваливает постоянно разные ссылки типа "гля чо появилось".
Надо сказать, что ведение канала помогает теперь уже "на глаз" примерно определять, что является прям интересной работой, а что - очередная китайская бумага с кодом, про которую все забудут через месяц. Пойдет это как инструмент для использования, или просто повод твитторнуть и набрать индексы цитирования и репосты.
В опен-сорсе очень много работ по типу "мы тут взяли код отсюда, присунули данные отсюда, покрутили на коэффициенты и получилось прикольно".
Но мы тут про инструменты все таки. Для графики в основном.
Для привлечения внимания в шапке пара примеров, как CogVideo-Fun-5B видит nsfw fun.
Потестировал. Сыровато, скажем так.
Итак, пара гиковато-диковатых постов сегодня чуть позже.
@cgevent
А то телега наваливает постоянно разные ссылки типа "гля чо появилось".
Надо сказать, что ведение канала помогает теперь уже "на глаз" примерно определять, что является прям интересной работой, а что - очередная китайская бумага с кодом, про которую все забудут через месяц. Пойдет это как инструмент для использования, или просто повод твитторнуть и набрать индексы цитирования и репосты.
В опен-сорсе очень много работ по типу "мы тут взяли код отсюда, присунули данные отсюда, покрутили на коэффициенты и получилось прикольно".
Но мы тут про инструменты все таки. Для графики в основном.
Для привлечения внимания в шапке пара примеров, как CogVideo-Fun-5B видит nsfw fun.
Потестировал. Сыровато, скажем так.
Итак, пара гиковато-диковатых постов сегодня чуть позже.
@cgevent
😱11👎8👍5❤3😁3🔥2
Любовь, Реклама и Роботы.
В этом году начался дикий всплеск интереса к роботам. Но это скорее удел огромных компаний с бюджетами. Но что делать читателям канала?
Тут щас будет очень интересный твист. Как бы реклама, но вообще не реклама.
Ибо.
Когда-то ко мне на курсы по Maya пришел .. кузнец.
Я тогда умудрялся рассказать основы программирования за два дня (просто не знал, что так неможно)
И Стас на второй день (ничего не зная про программирование вообще) взял и написал калькулятор на mel в Maya. За ночь.
Гений в общем.
Потом он ушел в Гудини. Потом в Touchdesigner. По которому у него теперь целая школа Hou2Touch.
Так вот он с ::vtol:: замутил ну очень интересное мероприятие: От звука до робототехники за 15 недель
Курс по основам Max/MSP охватывает как изучение самого программного обеспечения, так и подходы к разработке различных проектов: от звуковых инсталляций до гибридных роботизированных систем. Особое внимание уделяется проектам, интегрирующим цифровой и физический миры через создание программно-аппаратных комплексов.
Ведущий курса — ::vtol::, он же Дмитрий Морозов, междисциплинарный художник и исследователь.
Программа включает:
- Изучение интерфейса программы
- Основы программирования логических процессов
- Основы синтеза звука и многоканальное аудио
- Внешние интерфейсы и интеграцию Max с другим программным обеспечением и оборудованием (OSC/MIDI/serial)
- Работу с внешними данными
- Основы использования графического движка Jitter
- Разработку аудио- и аудиовизуальных перформансов, инсталляций и интерфейсов
- Работу с Arduino: создание пользовательских интерфейсов, управление внешними электронными устройствами (моторы, датчики, освещение) из Max, создание интерактивных контроллеров
- Разработку студенческих проектов и концептуализацию работ
Курс проводится на английском языке с кураторской поддержкой.
Присоединиться можно до конца недели.
Для подписчиков канала — специальная скидка 10% по промокоду CGEVENT.
Залетайте по ссылке - тот случай, когда я лично люто плюсую, ибо знаю Стаса 23 года
@cgevent
В этом году начался дикий всплеск интереса к роботам. Но это скорее удел огромных компаний с бюджетами. Но что делать читателям канала?
Тут щас будет очень интересный твист. Как бы реклама, но вообще не реклама.
Ибо.
Когда-то ко мне на курсы по Maya пришел .. кузнец.
Я тогда умудрялся рассказать основы программирования за два дня (просто не знал, что так неможно)
И Стас на второй день (ничего не зная про программирование вообще) взял и написал калькулятор на mel в Maya. За ночь.
Гений в общем.
Потом он ушел в Гудини. Потом в Touchdesigner. По которому у него теперь целая школа Hou2Touch.
Так вот он с ::vtol:: замутил ну очень интересное мероприятие: От звука до робототехники за 15 недель
Курс по основам Max/MSP охватывает как изучение самого программного обеспечения, так и подходы к разработке различных проектов: от звуковых инсталляций до гибридных роботизированных систем. Особое внимание уделяется проектам, интегрирующим цифровой и физический миры через создание программно-аппаратных комплексов.
Ведущий курса — ::vtol::, он же Дмитрий Морозов, междисциплинарный художник и исследователь.
Программа включает:
- Изучение интерфейса программы
- Основы программирования логических процессов
- Основы синтеза звука и многоканальное аудио
- Внешние интерфейсы и интеграцию Max с другим программным обеспечением и оборудованием (OSC/MIDI/serial)
- Работу с внешними данными
- Основы использования графического движка Jitter
- Разработку аудио- и аудиовизуальных перформансов, инсталляций и интерфейсов
- Работу с Arduino: создание пользовательских интерфейсов, управление внешними электронными устройствами (моторы, датчики, освещение) из Max, создание интерактивных контроллеров
- Разработку студенческих проектов и концептуализацию работ
Курс проводится на английском языке с кураторской поддержкой.
Присоединиться можно до конца недели.
Для подписчиков канала — специальная скидка 10% по промокоду CGEVENT.
Залетайте по ссылке - тот случай, когда я лично люто плюсую, ибо знаю Стаса 23 года
@cgevent
👍27👎7🔥5❤1
Итак, пара гиковато-диковатых постов, как обещал.
Вот мы тут обсуждали OmniGen
как уход от диффузии и переход на мультимодальные LLM, которые и шьют, и жнут, и картинки генерят.
Также я заприметил вот такую работу - Transfusion:
https://xn--r1a.website/cgevent/9533
"мы демонстрируем, что масштабирование нашего рецепта Transfusion до 7B параметров и 2T мультимодальных лексем позволяет получить модель, способную генерировать изображения и текст наравне с аналогичными по масштабу диффузионными и языковыми моделями, извлекая выгоду из обоих миров."
И тут я наткнулся в твитторе на Emu3 - похоже, китайцы взяли работу Метачки и статьи про Хамелеон и быстро собрали такой генератор без диффузии.
https://emu.baai.ac.cn/
В общем, я не устоял, хотя знал, что китайцы не пишут инструкций по установке.
На итоге оно завелось, и даже генерит. Но похоже, что:
- данных у них было мало
- компьюта у них было мало
- они зачем-то обучали (как мне показалось) на тэгоподобных промптах из SDXL, хотя у них там трансформер на блюдечке.
- как следствие промпта слушается плохо
- про качество вообще молчу
- в 1024на1024 генерит 1 картинку 13 минут(!) на H100. И похоже там баги, часть картинки не сходится.
- в 720на720 генерит 3 минуты на H100, артефактов меньше.
Но сам подход не оставляет меня равнодушным. Мы тут пляшем с этой диффузией три года, имея родовые травмы в виде кипения и полного отсутсвия консистентности (с костылями для ее преодоления).
Может есть другой путь?
Ждем кода OmniGen (в октябре). И ответачки от Метачки.
@cgevent
Вот мы тут обсуждали OmniGen
как уход от диффузии и переход на мультимодальные LLM, которые и шьют, и жнут, и картинки генерят.
Также я заприметил вот такую работу - Transfusion:
https://xn--r1a.website/cgevent/9533
"мы демонстрируем, что масштабирование нашего рецепта Transfusion до 7B параметров и 2T мультимодальных лексем позволяет получить модель, способную генерировать изображения и текст наравне с аналогичными по масштабу диффузионными и языковыми моделями, извлекая выгоду из обоих миров."
И тут я наткнулся в твитторе на Emu3 - похоже, китайцы взяли работу Метачки и статьи про Хамелеон и быстро собрали такой генератор без диффузии.
https://emu.baai.ac.cn/
В общем, я не устоял, хотя знал, что китайцы не пишут инструкций по установке.
На итоге оно завелось, и даже генерит. Но похоже, что:
- данных у них было мало
- компьюта у них было мало
- они зачем-то обучали (как мне показалось) на тэгоподобных промптах из SDXL, хотя у них там трансформер на блюдечке.
- как следствие промпта слушается плохо
- про качество вообще молчу
- в 1024на1024 генерит 1 картинку 13 минут(!) на H100. И похоже там баги, часть картинки не сходится.
- в 720на720 генерит 3 минуты на H100, артефактов меньше.
Но сам подход не оставляет меня равнодушным. Мы тут пляшем с этой диффузией три года, имея родовые травмы в виде кипения и полного отсутсвия консистентности (с костылями для ее преодоления).
Может есть другой путь?
Ждем кода OmniGen (в октябре). И ответачки от Метачки.
@cgevent
1❤7😁7👍3🔥1
Продолжаем пару гиковато-диковатых постов.
Телегам принес новости про Ctrl-X
Это как бы ControlNet от Нвидии да еще и с исходным кодом.
https://genforce.github.io/ctrl-x/
На картинках все сладко. Иду тестировать.
Первое, что вижу - адовый интерфейс.
Шесть полей для картинок, странные подписи на них.
Второе, что вижу - это SDXL.
Пробую их же примеры - и после Флюкса это выглядит настолько архаично, что закрываю и забываю.
Даю второй шанс - кидаю своего вирусного Спикера - получаю адъ. Закрываю снова.
Хотя идея отличная. Пишут, что может работать лучше связки ControlNet+IP на сложных композициях. Может кому-то пригодится.
Такое бы добро во Флюкс.
А пока ставим на полку.
Скрины выше.
@cgevent
Телегам принес новости про Ctrl-X
Это как бы ControlNet от Нвидии да еще и с исходным кодом.
https://genforce.github.io/ctrl-x/
На картинках все сладко. Иду тестировать.
Первое, что вижу - адовый интерфейс.
Шесть полей для картинок, странные подписи на них.
Второе, что вижу - это SDXL.
Пробую их же примеры - и после Флюкса это выглядит настолько архаично, что закрываю и забываю.
Даю второй шанс - кидаю своего вирусного Спикера - получаю адъ. Закрываю снова.
Хотя идея отличная. Пишут, что может работать лучше связки ControlNet+IP на сложных композициях. Может кому-то пригодится.
Такое бы добро во Флюкс.
А пока ставим на полку.
Скрины выше.
@cgevent
❤10
This media is not supported in your browser
VIEW IN TELEGRAM
А это я тестировал опенсорсный CogVideo в режиме image2video.
Тут ему полегче стартовать с высокой базы. Также я заметил, что он как рекс натренирован на эмбедингах типа dancing. Но jumping, shaking - все мимо. Видать Тикток - родовой датасет.
Пойду присуну это в FaceFusion 3.
@cgevent
Тут ему полегче стартовать с высокой базы. Также я заметил, что он как рекс натренирован на эмбедингах типа dancing. Но jumping, shaking - все мимо. Видать Тикток - родовой датасет.
Пойду присуну это в FaceFusion 3.
@cgevent
😁43👍17🔥9❤5👎5