Метаверсище и ИИще
47.6K subscribers
6.03K photos
4.5K videos
46 files
6.94K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Сегодня все тестируем новую игрушку от Эппле. Редактирование фоток инструкциями, типа удали эти кожаные объекты за заднем плане и поставь туда роботов.

Guiding Instruction-based Image Editing
via Multimodal Large Language Models


Тема не новая, таких проектов уже много, но китайские товарищи просто взяли и пристегнули к распознаванию исходных картинок опен-сорсную мультимодальную LLaVA и потренировали ее помогать распознавать объекты на картинках.
Сам проект тут:
https://mllm-ie.github.io/
https://github.com/apple/ml-mgie
Но демо на Хаггинг фейсе лежит намертво, точнее надо ждать 5 минут, поэтому я вам принес ссылку на другой серверок, где это крутится очень быстро (3-5 сек у меня).
http://128.111.41.13:7122/
Ну и я конечно сразу засунул в соломорезку рельсу - дал ему свою фотку и попросил снять очки.
Ваши тесты присылайте в коменты: даете картинку и пишете, что надо с ней сделать. Словесный композ.

Кстати, справа внизу будет развернутая инструкция - это то, во что превращает ваши неуклюжие команды большая языковая модель. Тут принцип такой же как с генерацией картинок в chatGPT - ваш промпт превращается в развернутый промпт, которые модель использует для работы с картинкой
🔥16👍2👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, вот вам идея для стартапа.

Тренируете нейросетку снимать лыжную маску с головый пользователя Apple Vision Pro.
Ну то есть когда вы надели на голову эту байду и смотрите на соседа, который тоже в метаверсике от эппле, то нейросетка вам дает картинку его реального лица без маски.
И все делают вид, что эта байда на голове никому не мешает. И вообще ее нет. А есть только spatial computing.
По идее задача несложная, по идее у Эппле уже есть Face-ID и трехмерный скан личика. Это прям помогатор при тренировке нейросеточки.

Только как быть всем остальным, которые не могут развидеть этих машущих руками зомбаков на улицах и у себя на кухне?
🔥35👍9
Экспертный совет для картинок. Stable Diffusion Mixture of Experts

Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.

А теперь представьте такое же, только для картинок!

Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts

Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!

https://huggingface.co/blog/segmoe#what-is-segmoe

Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.

Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.

Код? Апажалста:
https://github.com/segmind/segmoe

Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE

Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
🔥20👍4
Forwarded from Венчурная Прожарка by Axevil
🔥 xAI: ИИ стартап Илона Маска

Все наверняка слышали про новый стартап Маска xAI. Его миссия — создать по-настоящему безопасный ИИ, от которого выиграет все человечество. Вне зависимости от размера кошелька и политических предпочтений

Формально xAI появился в марте 2023. Быстро собрали команду. За 4 месяца натренировали первую LLM модель Grok

К ноябрю ее апгрейднули и стала доступна в виде чатбота для пользователей Твиттера в США. Grok развивается на глазах, обучаясь на фидбеке юзеров соцсети, она сравнилась с лучшими open-source моделями (Llama2)

Казалось бы, зачем Маску идти в новый проект? Илон имеет на то веские причины. У него наболело. В этом есть огромный бизнес потенциал. Поясню

⚡️ Илон был одним из первых инвесторов, поддержавших сначала DeepMind в 2011, а потом и OpenAI в 2015. Он всегда хотел снизить риски формирования одного центра силы ИИ в лице Google

Но все шло против него. То Google поглотит DeepMind, то OpenAI сделает пивот в сторону коммерции и изменит своей open-source философии

Думаю, поэтому Илон решился на xAI. Причем у него есть реальные шансы добиться успеха. xAI объединяет в себе 3 ключевых преимущества:

1️⃣ Уникальный массив больших данных из экосистемы его компаний — посты в Твиттере, трафик Tesla, геоспутники SpaceX, нейроданные Neuralink…Если объединить все в одну систему, мы станем ближе к пониманию нашего мира. А затем и созданию безопасного ИИ

2️⃣ Одна из лучших ИИ команд мира — топ ML-инженеры во главе с Игорем Бабушкиным (ex-Google и OpenAI) и спецами Маска

3️⃣ Своя инфраструктура — 50% костов в датацентрах сегодня приходится на электричество. И у xAI есть к нему доступ. Tesla Gigafactory может генерировать его бесплатно от солнца и хранить излишки

⚡️ xAI поднял ажиотаж на рынке. Триггером стал документ в реестре SEC о продажи акций на $1 млрд в декабре. После пошли вбросы от Financial Times о готовящемся фандрейзинге на $6 млрд по оценке в $20 млрд! Их Илон отрицает. Блефует ли он? Пока что непонятно, слишком много шума. Будем следить и держать вас в курсе!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥18👎6
Вчера писал про идею для стартапа для удаления лыжных масок с лиц зомби.

В принципе на уровне плашечек и с помощью разговора по фейстайму это уже можно сделать прямо сейчас.

Смотрите, двое чуваков в одной комнате звонят друг другу и прислоняют окошко с аватаром к голове собеседника.

Вытеснение отрицательного лыжной маски из головы.
👍8🔥4
Stable Diffusion WebUI Forge

Тут вчера вышел полностью переписанный Automatic1111. Сделал это никто иной как Лвмин Жанг, автор ControlNet и Fooocus.

Просто взял и переписал этого монстра с целью оптимизации просчета на картах с небольшим количеством памяти. Веб-морда и привычный ацкий интерфейс остались на месте. Грубо говоря, он взял наработки из Фокуса по оптимизации просчета и вструмил их вместо ядра автоматика.
И теперь бодрый легкий автоматик заводится на картах типа 1060 и считает на них модели ветки SDXL, а полторашка там просто летает.
Обещана поддержка всех экстеншенов (есть некоторое визги по этому поводу на гитхабе - кое-что отваливается, кое-что (AnimDiff) в работе).
Более того, для нормальных людей есть просто однокнопочный инсталлер (скачиваешь архив, распаковываешь в папку, запускаешь update, потом run).
Это не решает проблему адового интерфейса Автоматика (да и Фокуса), но у меня все работает как будто я обновил комп - быстро, без тормозов.
Я напишу результаты тестов, он реально быстрее старого Автоматика, но не поддерживает оптимизацию sdp для карт с конским количеством памяти типа A100.
И самое приколькое оказалось, что туда уже нативно добавлена поддержка Stable Video Diffusion и Z123 от StabilityAI. Просто отдельные закладки. И даже можно генерить видосы у себя на лаптопе на карте с 8Гб видео-памяти.
Ну и там в интерфейс "прочищен", появились просто удобные легкие элементы, типа выключателя Refiner. Также там наворотили новых кунштюков в ControlNet, но это тема для отдельного поста.

А пока вот так.

Если вы используете обычный GPU, например 8GB vram, вы можете рассчитывать на 30~45% увеличение скорости вывода (it/s)

Для малохольного GPU, например с 6 Гбайт, вы можете рассчитывать на 60-75 % увеличение скорости

Для 4090 с 24 ГБ памяти, вы можете рассчитывать на 3~6% увеличение скорости

Если вы используете ControlNet для SDXL, максимальное количество ControlNetов увеличится примерно в 2 раза, скорость с SDXL+ControlNet увеличится примерно на 30~45%.

Забирайте отсюда
🔥51👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Погонял Stable Video Diffusion XT локально.
На A100, конечно, сладко. 4 секунды генерятся 20 секунд. Уже можно экспериментировать.
Не хватает X/Y/Z, чтобы ставить все в очередь - документации нет, труднопроизносимые параметры повсюду, только метод тыка и пристального взгляда.
Больше 4 секунд сгенерить в принципе ничего невозможно, либо закипает как в дефорумных видосах, либо разваливается. Контроля никакого, только эксперименты типа "а что будет если вот так".
Поменял разрешение - все разъезжается. Задрал fps - закипело. Все как с первыми картинками в Stable Diffusion.
Щас напишу еще про ИИ-видео.
Пишите про ваши уловки в коментах.
👍18🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-видео-новеллы.

Народ в интернете, тем не менее, основательно упарывается в ИИ-видео.
Как я уже писал тут - основная фишка этих видео - картинка из Midjourney. Именно она будет цеплят глаз. Не ваша гениальная работа с камерой или анимация в кадре (их нет в принципе). А легкий шевеляж картинки с очень хорошим визуальным контентом.
Помните лет 20 назад появились презентации и видосы, где фотки плавно зумировались и плавали в кадре.
Сейчас примерно также, только наряднее - ибо в кадре не фотки, а картинки из Midjourney и анимация камеры, чуть более ловкая, с шевеляжем фонов и параллаксами.
А еще помните лет несколько назад в мобайле взлетели "визуальные новеллы" - эдакие адовые истории в картинках (реинкарнация диафильмов), рассказанные под музыку или нарратив.

И то, что мы сейчас наблюдаем в интернетике, это те самые новеллы с эффектом параллакса и рандомными медленными движениями в кадре.

Картинка и нарратив - основа. В принципе можно было рассказать историю в шапке без анимации камеры, на одних картинках. Но пока есть эффект новизны - будет пользоваться успехом, как те самые плавающие фотки на видосах из прошлого. А когда надоест, придется подумать, где взять очередную новизну.
К тому времени ИИ что-то придумает...
👍22🔥9👎7
Вышла Гемини Ультра, про которую писал недавно.
Зная, как гугль шаманит с бенчмарками, я, пожалуй, обожду, апгрейдиться не буду. Сегодня ночью будет тонна отзывов от реальных людей. Пока мое общение с Бардом и генерация в нем картинок были очень удручающими экспериментами по сравнению с chatGPT.
👍12
Один из моих любимых сериалов - Better Call Soul.
Не скажу, что он круче Breaking Bad, он другой. Он невыносимо хорош, это все, что я скажу тут, чтобы не превращать пост в обсуждение сериалов.
А вот держите работу с невыносимо хорошим названием:

Better Call GPT!

Помните я тут писал, что средний американец (и не только) часто не может себе позволить даже первичную юридическую, медицинскую, налоговую или другую узкоспециализированную консультацию. А вот chatGPT может лихо ответить на 99% вопросов первичной консультации.

Теперь это взяли и подтвердили метриками.
В общем сравнили ответы LLM и младших юристов и аутсорсеров (Junior Lawyers and LPO).

Если вкратце: "Результаты показывают, что LLM демонстрируют сопоставимые, если не превосходящие, результаты в решении юридических вопросов по сравнению с младшими юристами и LPO"

В статье зачем-то (издевательски) сравнивается экономическая эффективность LLM - "С точки зрения затрат, LLM работают за небольшую часть цены, предлагая ошеломляющее снижение затрат на 99,97 процента по сравнению с традиционными методами"

Чем более стандартные контракты и договора, тем больше LLM-уделывают кожаных. Для сложных контрактов есть Seniour Lawyers - все как у программистов.

Тут некоторые могут потыкать в меня историей, когда адвокат перепутал chatGPT с Гуглом и привел в суде ответ ИИ, как аргумент. Ответ был некорректный, адвоката сильно нахлобучили.
Все верно, не надо путать ИИ и Гугл. Надо путать ИИ и младших юристов, которые тоже могут нести пургу за неимением опыта.

Вот за них и выпьем. Не чокаясь.

https://arxiv.org/pdf/2401.16212.pdf
👍29🔥6
Не используете AI — остаетесь в прошлом

2023 год стал настоящим прорывом в сфере AI. В 2024 инновации продолжатся — выйдут новые версии ChatGPT и Gemini, а мелкие open-source нейросети заполонят рынок. В этом новом мире каждый должен уметь хотя бы уметь писать промты, а лучше — регулярно обновлять свои знания, как это делает искусственный интеллект.

Сделать это можно на Epic AI Conference. С 12 по 14 марта эксперты на своем примере расскажут, как применять нейросети для реальной эффективности.

В программе три трека:
• AI в продукте
• AI в маркетинге
• AI для бизнеса и личных целей

Эксперты расскажут, как учить AI-ботов эмпатии, собирать данные с помощью нейросетей, автоматизировать 50% личных и рабочих задач и еще о многом другом.

Посмотреть билеты можно по ссылке. Идите не одни, а сразу всей командой — так будет больше пользы.

Реклама. ООО ЭПИК ГРОУЗ
Erid 2SDnjevR9jn
👎29👍6
Forwarded from тоже моушн
Media is too big
VIEW IN TELEGRAM
Ежик в тумане, 2024

Stable Video Diffusion очень неплохо имитирует поведение природных явлений - воды, огня, тумана, облаков. а также вполне четко считывает объем и улавливает предполагаемую динамику в кадре: без особого управления хорошо двигает камеру обычно в 2 случаях из 5

поэтому пайплайн чаще всего выглядит так: закинул картинку и жмешь 2-3 раза на генерацию, выбираешь лучший вариант

шевелить объекты не очень любит но иногда умеет. главное не переборщить с таким оживлением, иначе объекты ломаются

и к сожалению главное ограничение - всего 25 кадров за раз

картинки - mj
анимация - SVD 1.1
музыка - suno.ai

@тоже_моушн
🔥29👍15👎1
Удивительно все-таки, как ИИ следит за тобой и мягко подсовывывает тебе, скажем так, актуальную информацию. Я вот написал несколько постов про ИИ-видео, по дороге погуглив и поchatGPTив.
Теперь на меня валится информация по разным проектам из твитторов, гуглленты и других источников.

PIA:Personalized Image Animator
Держите еще один проект для оживления фотачек.
Работает даже пободрее, чем Stable Video Diffusion, есть управление промптом. Есть код, есть демо.
Сейчас такие проекты плодятся как грибы, причем их много, они с кодом - помните был взрыв сервисов по переносу стиля, сейчас бум проектов по анимации фоток.
Я бы не называл это ИИ-видео, это скорее эффекты для фото.
Эмоджи на стероидах. Добавление эмоций в изображения шевеляжем оных.
Тут мне понравилось, что я могу заставить хорька моргнуть.
И что демо работает быстро.

Вот тут есть все ссылки: https://github.com/open-mmlab/PIA?tab=readme-ov-file

Вот тут демо, го пробовать:
https://huggingface.co/spaces/Leoxing/PIA
🔥10👍1
Gemini Ultra

Я поглядел пяток обзоров от блоггеров, которым доверяю, все они ночью бахнули видео про Ультру. Некоторые уже давно в бете, а ночью сняли эмбарго на обзоры поэтому материалов много. Ну и всегда интересно кожаное мнение, а не загадочные бенчмарки, которые (почему-то) попадают в файнтюн новых моделей (это как знать номер билета на экзамене).

И давайте наведем порядок в терминологии.

Бывший Бард - это теперь просто Gemini.
Gemini Advanced - это Bard Plus, за который просят 20 баксов в месяц.

Также Gemini - это семейство моделей, которые под капотом у .. Gemini (бывшего Барда).

Старшая(модель) Gemini Ultra - под капотом у Gemini(чата) Advanсed
Средняя(модель) Gemini Pro - под капотом у Gemini(чата)

Так что вам постоянно нужно держать в голове контекст - речь идет о чате или о модели. У openAI это решено приставкой chat - chatGPT vs GPT.

Сначала закроем вопрос с картинками. Там все плохо. Точнее никак. Я уже сам тестировал Imagen2 в Барде, а распознавание картинок и разговор с ними в Gemini Advanced уступает chatGPT и GPT-4V.
Там пока ничего не прибавилось.

Также нельзя вгрузить свои пдфы или доки, как мы это делаем с chatGPT. Там нет аналога Code Interpreter - и это прям минус.

Контекст, про размер которого полная тишина, примерно такой же в chatGPT в кожаных текстах на вытеснение из памяти ранних сообщений.

Все также пишут, что он пока еще проигрывает в логических и математических задачах, код пишет хуже чем chatGPT Plus и подвержен приступам истерической цензуры на ровном месте.

В общем если под капотом, то chatGPT Plus он не догнал.

Теперь о хорошем, которое в основном над капотом.

Скорость - он отвечает ОЧЕНЬ быстро. Но надо смотреть, что будет с приходом пары миллионов новых пользователей (но думаю, что Гугль выстоит).

Нет ограничений на 40 сообщений за три часа. Быстрый безлимит.

Нет API (упс, это минус).

Очень ловкий UI - тут openAI (которые традиционно не сильны в продукт и UX) есть чему поучиться. Ловкие помогаторы типа "сделать короче, сделать длиннее, неформальнее, профессиональнее". Ловкий сбор фидбека. Всегда ТРИ варианта ответа (тоже будущее дообучение). Ну и кнопка Double Check (фактчекинг в гугле). Все это делает Gemini Advanced очень хорошим помогатором и продуктом

Не чатом, с которым играешь в пинг понг, а именно ассистетом, который ловко подсовывает нужную информацию не только в ответах, но и в том, что делать с этим ответами.

И он, конечно, лучше ищет в интернете, чем chatGPT.

И мне видится, что такой продуктовый подход делает Gemini Advadced хорошим игроком на поле ресерча и даже образования. А еще у него есть расширения и интеграция в свои же сервисы.

Да, он пока тупее, чем chatGPT Plus. С креативом у него тоже туговато. С анализом данных пока есть вопросы. Но именно в образовательный ресерч он может зайти, когда он делает не всю, а часть работы. Впрочем, там его ждет Perplexity. Пободаться.

Ну и тут мы вспоминаем, что GPT-4 скоро исполнится год. И мы тут сравниваем свежак от Гугла с годовалым товаром от Open AI.

Вам предлагают новую машину с меховым салоном и удобными кнопочками на панели вместо подержанной годовалой тачки, у которой и движок покруче и проходимость выше и еще багажник для PDF и кода есть. И которую скоро можно будет бесплатно поменять на новую модель, которая будет нуваще.

У меня пока все.
👍54🔥11
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Абсолютно проклято.

Эксперимент с искусственным интеллектом завершен, мы потерпели неудачу.
🔥106👍7
Это Gemini Ultra.

chatGPT в такое не исполняет ни разу.
Есть мысли почему он так ловко рифмоплётствует?

Кстати, первая строфа вполне себе хороша. Если бы кто-то вбросил новость типа "нашли записку Пушкина(ну ок, Некрасова) в черноземье", то все бы скушали.

P.S. попищики тактично напоминают, что я забыл выпить за поэтов.
Пойду до бара.. не чокаясь.
🔥118👍26👎5
This media is not supported in your browser
VIEW IN TELEGRAM
А вот вам ещё один ИИ-шевеляж от ТикТока.
Как обычно 2 сек, 8 фпс, короткие формы.
Недавно сильно обновились и сильно упирают именно на шевеляж объектов в кадре, а не только дергание камерой.

Надо наверное завязывать с этими ии-шевеляторами до какого-то следующего прорыва.
В моем представлении это скорее стилизация картинки дерганием пикселей, чем "видео". Это больше эффекты для изображений.
Как заворачивающиеся углы у картинок 25 лет назад.

Может быть тиктокеры придумают, что с ними делать...

Демо, код и все пироги есть тут:
https://huggingface.co/Doubiiu/DynamiCrafter_1024

И загляните на их гитхаб аккаунт, там разное..
👍25🔥6
Слегка сумасшедший ИИ от Гугла.

У меня такое ощущение, что Gemini сам/сама/сами по себе очень неглуп/а/ы. Дальше буду называть ея "она", как модель.

Но алайнмент и цензура сыграли с ней злую шутку. У меня такое ощущение, что она и рада ответить, но за плечом у нее грозный Гугль с косой, который шепчет "фильтруй базар". В общем ее системный промпт явно передавливает ее ответы и превращает ее в лоботомированного попугая в некоторых ситуациях. Также есть гипотеза, что там внутри разные агенты отвечают за разное, и один не знает, что творит другой (см ниже)

Ниже мой утренний разговор с Гемини (я перевели диплом, чтобы было драматичнее). Все скриншоты в этом посте.
Моя гипотеза - все разговоры про промпт или любая просьба рассказать что-то из внутренней кухни срывают его в скрипт типа "я не могу, я просто LLM". Либо переключают на агента, который не помнит, что делал другой агент.
👍14🔥3