Метаверсище и ИИще
47.1K subscribers
5.97K photos
4.43K videos
45 files
6.88K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Попробуйте такое сделать в SDXL...
Cascade радует. 8 картинок за 21 секунду.
🔥48👍10
К вопросу о новизне. И генерация уникальности.
Remix Mode в Midjourney уже показал, что можно делать картинки явно выходящие за рамки "да он ничего нового не может придумать".
Но кожаные все равно цепляются за идею, что раз его накормили картинками, он будет выдавать линейную интерполяцию картинок. А то, что там зашито кожаное восприятие и мышление через подписи и промпты их не трясет.

Тут вот исследователи пошли еще дальше и поставили задачу генерации новизны в приоритет.

Как мы можем сгенерировать новую, воображаемую концепцию, которая никогда не встречалась ранее? В этой статье мы представляем задачу творческой генерации текста в изображение, в которой мы стремимся создать новые примеры в широкой категории (например, создать домашнее животное, отличающееся от всех существующих домашних животных). Мы используем малоизученные модели диффузионных приоритетов и показываем, что задача креативной генерации может быть сформулирована как процесс оптимизации над пространством выходов диффузионного приоритета, что приводит к набору "предварительных ограничений". Чтобы сгенерированная нами концепция не сходилась с уже существующими, мы включаем в нее модель Vision-Language Model (VLM), которая адаптивно добавляет новые ограничения в оптимизационную задачу, побуждая модель открывать все более уникальные творения.

Генерация творчества, в общем.

P.S. Примеры в статье меня не очень впечатлили (построено на kandinsky2 library), но сам дерзкий подход к выходу за пределы привычных образов и генерации уникальности мне нравится.

https://kfirgoldberg.github.io/ConceptLab/

Код есть, можно пробовать.
👍30🔥7👎2
Forwarded from AI Happens (Alexey Hahunov)
я думаю вы прочли и в других канал про Sora, подъехало кое-что не менее интересное:

Neuralink: В понедельник вечером, на мероприятии X Spaces, организованном известной журналисткой Кэтрин Бродски, Илон Маск сделал поразительное заявление. Первый человек, получивший мозговой чип Neuralink, успешно восстановился после операции в январе!

Что произошло?
Сентябрь: Neuralink получает разрешение на эксперименты с пациентами для восстановления утраченных функций у парализованных.
Январь: Пациент получает мозговой чип Neuralink.
Сейчас: Пациент полностью выздоровел, без побочных эффектов!

Как это работает?
Маск говорит, что пациент теперь может управлять мышью компьютера, просто думая об этом. Это знаменательный момент для компании в её стремлении соединить мозг с компьютером напрямую.

Больше, чем две кнопки
Следующая цель Neuralink - достичь более сложного управления, включая такие действия, как удержание кнопки при перемещении мыши. Маск уверен в прогрессе, заявляя, что в конечном итоге они хотят перейти за рамки простого нажатия двух кнопок.

вы бы были готовы сделать себе операцию, чтобы внедрить чип через пару тройку лет? а если бы он умел передавать картинки из Sora напрямую в мозг?)
@aihappens
🔥40👍14👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Уже немного баян, но это очень смешно. 11 месяцев назад(всего!), у нас было вот такое качество ИИ-видео.
Сейчас мы лицезреем SORA.
Уилл Смит устал смотреть на свое кринжовое спагеттопоедание и записал видос у себя на кухне.

В принципе это начало нового жанра - кожаные снимают реальные видео, повторяющие ИИ-генератив.

Постметаирония? Цикл замкнулся?
🔥125👍20
Одеваторы, раздеваторы и переодеваторы.
Тема виртуальных примерочных горяча и будет перегреваться и дальше.
Ибо за спиной ритейл и массмаркет.
Я уже писал про одеваторы и раздеваторы. Сегодня попробовал опенсорсный переодеватор, суть примерочную:
https://github.com/levihsu/OOTDiffusion?tab=readme-ov-file

Ну в общем .. такое. Смотрите на вариант с тельняшкой (Guidance Scale не помог). Китайские товарищи бесхитростно лепят контролНет на два разных варианта - в полный рост и на поясной план.
То случай, когда код и демо есть, а статьи нет.
Я тут же пошел и скормил Виталика (и себя на заднем плане) в бот Slook (одеватор-разlеватор) и в Superlook.ai
Slook выдал мне идеальный латекс, а Superlook переодел Виталика лучшие дома Лондона и Парижа. И обратите внимание, как он бейджик перевесил! Вощекосмос.

Одно дело писать бумаги и демо, другое дело - пилить продукт. Даже на опен-сорсе.
Продукт не прощает ошибок, и тем хорош. А в бумагах можно обчерипикатся и никто слова не скажет.
В общем пробуйте сами, присылайте в коменты свои луки.
Переодеватор демо: https://ootd.ibot.cn/
Slook Bot одеватор: https://xn--r1a.website/SlookBot
Чемпион по примеркам: - https://superlook.ai/

Виталик с сиськами будет в коментах(если разрешит).
И кстати, Виталик шарит за генеративный арт и лихо рулит Stable Diffusion и After Effects. Если что пишите ему, он открыт для работы.
🔥30👍51
This media is not supported in your browser
VIEW IN TELEGRAM
Про DeemosTech, их Чатаватаров и Родена (Rodin GEN-1) я уже писал пару раз. Слежу за ними внимательно. У них там много народа, а не пара аспирантов.

Они выкатили демо нового Rodin GEN-1 для генерации 3Д из картинки. Выглядит нарядно, видно, что деталей стало больше, но видео явно черипикнутое и есть пара моментов.

1. Все равно объекты "мылятся" по краям и острым граням. Это родовая проблема неявных поверхностей, ведь задирать разрешение до мегасканов будет дорого. Эти фасочки всегда будут сглаживать любой объект, пока туда не придет ИИ и не скажет "вот тут угол", делаем по другому.

2. Гонку за деталями с таким подходом не выиграть у Гауссианов, которые благодаря свое микрополигонистости всегда будут впереди. Вон недавно вышли Гауссианы на стероидах с упором на детали:
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering.

А вот тут Гауссианами генерят целые сцены:
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting.

Но проблема в том, что из при попытке получить из Гауссианов полигональные меши, вы опять будете получать замыленные края.

Так что либо детали в неведомой гауссовой хрени, либо старые добрые, но обмылочные полигоны.

3. Я записался в вейтлист в Димос и написал им, что без ретопологии будет нещитово.

4. Ну и фу такими быть "The #Sora Moment in #3D has never been close" - пиариться на успехе Соры - ну такое.
Кроме того, очень может статься, что ответ SORA всем этим 3Д-ИИ-генераторам может быть очень жоским и в один день умрут вот эти вот все 2D-to-3D.

В общем на поляне генерации 3Д вот-вот будет интересный прорыв и придет он из геймдева.

Пока это улучшатели улучшателей.

Но DeemosTech интересные, поглядите за ними:

https://twitter.com/i/status/1760008401621483665
👍22🔥8
"Думают ли Ламы на английском? О скрытом языке многоязычных трансформеров"
Ух, интереснейшая работа.

Используют ли многоязычные LLM, обучающиеся в основном на английском языке, английский в качестве "внутреннего языка"?

Значит ли это, что Llama2 сначала вычисляет ответ на английском, а затем переводит его на китайский?

Все гораздо тоньше. Если присмотреться внимательнее, то можно предположить, что промежуточные эмбединги, выглядящие по-английски, на самом деле соответствуют абстрактным понятиям, а не конкретным лексемам.

В процессе послойного преобразования эмбеддингов они проходят 3 этапа:
1. "Входное пространство": модель "отменяет грехи" токенизатора(перевода слов в вектора).
2. "Концептуальное пространство": эмбеддинги живут в абстрактном концептуальном пространстве.
3. "Выходное пространство": понятия(вектора) отображаются обратно на лексемы, которые их выражают.

Гипотеза авторов:

Внутренним "лингва франка" Llama2 является не английский язык, а суть концепции - и, что очень важно, эти концепции "тяготеют" к английскому. Таким образом, английский язык все еще можно рассматривать как "внутренний язык", но в семантическом, а не в чисто лексическом смысле.

Семантическое тяготение к определенному языку - мне это напомнило очень интересную теорию о том, что язык носителя определяет мышление носителя. Ну или характер(character), наиболее часто встречающийся в популяции. На каком языке ты думаешь определяет очень многие твои черты, грубо говоря.

Воистину ИИ дает нам огромные шансы узнать, как мы устроены изнутри, о чем я регулярно приподвзвываю.

P.S. "лингва франка" - это язык, систематически используемый для коммуникации между людьми, родными языками которых являются другие.
https://arxiv.org/abs/2402.10588
https://twitter.com/cervisiarius/status/1759989584371298554
👍46🔥16
chroma.webm
8.2 MB
От Альпаки пришло приглашение попробовать Хрому - нет, это не векторная база, это новое web-приложение для рисования с помощью Stable Diffusion.

В 2024 году это смотрится очень и очень плохо. Такое впечатление, что чуваки застряли в конце 2022.

Попробуйте, может у вас что-то получится.

А я позже напишу, почему будущее за Креа и Визкомом, и почему у нас до сих пор такие адовые UI/UX в большинстве генераторов.

А Хрома мне через раз пишет "я тут сгенерила какое-то непотребство и тебе не покажу". Там стоит adult filtr видать.

А еще у Альпаки был плагин для фотошопа и Stable Diffusion.

https://www.alpacaml.com/
👍11
Помните я писал, что Reddit продает за 60 миллионов свои данные одной неназванной компании?

Сегодня стало известно, что это Гугл.

Мало ему своих....

https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/
👎26👍8🔥7
Комментария дня....
👍48🔥38