Метаверсище и ИИще
47.9K subscribers
6.05K photos
4.52K videos
46 files
6.95K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Аватары, которых прямо сейчас показывает Хуанг на Сигграфе выглядят очень круто.
Их главное преимущество - это готовый цельный продукт. Они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.

Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.

Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU

Мотайте на 36:15 - 3д миры
И на 44:15 - аватары

@cgevent
🔥30👍12👎2
Композ и ротоскоп никогда не будут прежними. Все это работает теперь и с видео. Это Метачка бахнулa SAM2 - Segment Anything Model for videos and images
Читаем ниже, а видосы смотрим тут
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
🔥26
Forwarded from Data Secrets
⚙️ GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta

В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.

И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.

Датасет (SA-V) в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.

Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.

По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥21
Помните, как модели меряются длинной контекта?
Типа "я могу заглотить Войну и Мир за один промпт".
Зачем на входе, я могу понять - мы просто добавляем оперативки в память LLM, чтобы она отвечала на наши дурацкие вопросы быстро и сразу, не прибегая к разному новому нормальному сваппингу на жесткий диск (сжатие и суммаризация контекста и пр). Держала все в голове.
Но теперь OpenAI выпустила версию GPT-4o with a maximum of 64K output tokens per request.

Мы и раньше страдали от многословности chatGPT и просили его быть покороче в своем графоманстве. А теперь он может поливать текстом в одном ответе ну очень долго.
Давайте покатаем в коментах юзер-кейсы такого длинного вывода.
Я пока ничего не могу придумать, кроме как просить его напечатать букву А еще бОльшее количество раз.
Наверное для кода это может быть полезно, но я вот не уверен, что кто-то хочет получить код Виндовс одним куском, веря gpt-4o на слово.
Похоже OpenAI тоже хочет понять зачем: this experiment helps you explore new use cases that are unlocked by longer completions.
https://openai.com/gpt-4o-long-output/

@cgevent
👍19🔥6👎1
Apple uses chip from Google not Nvidia

А вот это интересно. После вчерашней феерии Nvidia на Сигграфе (к которой я еще вернусь), вышла такая новость - Эппле НЕ использовала чипы Нвидия для тренировки своих языковых моделей, а использовала чипы Гугл.
Какие именно и как вы можете посмотреть тут (поиском по TPU).

Ну и хороший вопрос: если Эппле смогла сделать свой чип M и уйти от Интел, сможет ли она сделать свой специализированный чип для ИИ и уйти и от дедушки, и от бабушки и от зеленого волка? Или будет накачивать свою линейку M ИИ-способностями?
Сама новость ниже, а технические детали тут.
https://www.reuters.com/technology/apple-says-it-uses-no-nvidia-gpus-train-its-ai-models-2024-07-29/

P.S. Google did not return a request for comment, while Nvidia declined to comment.

@cgevent
👍20👎1🔥1
Media is too big
VIEW IN TELEGRAM
Посмотрите еще раз вот на этот генеративный ролик от Нвидия, показанный вчера на Сигграфе.
Конечно, это хороший монтаж, пост и девочка для мимими.
Но после всех этих TripoSR или Meshy - это смотрится как прототип продукта, а не говнокусочки пайплайна.
Я попробую сделать разбор ролика для вас ниже. Уж больно там много интересных деталей, кода, знакомых слов про USD и 3Д.
👍25🔥10👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что ж, Матрица все ближе.

Компания Synchron объявила о подключении своего мозгового имплантата к гарнитуре Apple Vision Pro. Компания создает интерфейс мозг-компьютер, который позволит пациентам с параличом управлять своей электроникой с помощью мыслей. Synchron, вероятно, будет работать над подключением своего BCI к другим гарнитурам, но начнет она с Vision Pro.

Synchron - это как бы конкурент Нейралинка, но не требующий сверления дырок в черепе.

Поглядите ролик, там все наглядно.

Ключевое здесь - "и к другим гарнитурам".
🔥50👍9
Фото или нейрорендер?
👍 Рендер
👎 Фото

Update: все оказались глазастыми и начитанными.

Бразилец Габриэль Медина празднует свой рекорд на соревнованиях по классическому серфингу на Олимпиаде.

Он получил самый высокий балл на одиночной волне за всю историю Олимпийских игр: 9.9 из 10. Красавчик, чо.
Жмем на 🔥
👎301🔥80👍79
Мертвые заговорили! Миджорни 6.1 вышла.

Что нового в V6.1?
- улучшенная анатомия (руки, ноги, кисти, тела, растения, животные и т.д.)
- Значительно лучшее качество изображения (уменьшение пиксельных артефактов, улучшенные текстуры, кожа, 8-битное ретро и т.д.)
- Более точные, детальные и правильные мелкие детали изображения (глаза, маленькие лица, далекие руки и т.д.)
- Новые апскейлеры с гораздо лучшим качеством изображения/текстуры
- Примерно на 25 % быстрее при работе со стандартными изображениями
- Повышенная точность текста (при рисовании слов через "цитаты" в подсказках)
- Новая модель персонализации с улучшенными нюансами и точностью
- Новый режим ``q 2``, который требует на 25 % больше времени, чтобы (иногда) добавить больше текстуры ценой снижения целостности изображения.

Есть тут миджорниводы? Го тестировать и делиться впечатлениями в коментах.

@cgevent
👍38🔥6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
А народ уже вовсю бесчинствует, комбинирует Midjourney 6.1 и Runway GEN-3.
Я не очень понимаю смысл, ибо видеогенерация одним махом съедает и размывает все детали и преимущества Midjourney 6.1

Так что данный видос - это скорее иллюстрация того, где мы находимся в конце июля 2024 года.
И как себя ведем при виде всего этого генеративного безобразия.

Могли ли мы подумать, ровно два года назад, когда только только релизнулись первые Stable Diffusion и Midjourney, что мы будем так скакать через два года?

Вряд ли. Просто в голову не приходило.

P.S. Машинки справа по борту тоже едут нарядно. Такого мы тоже не могли представить два года назад.

@cgevent
👍36🔥11👎3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Невероятная работа с эмоциями в MJ и Gen-3.

Я практически не нашел галлюцинаций и косяков, найдет ли кто-нибудь из вас?
Если смотреть на скорости 1.2, то в некоторых шотах уходит бесячий слоумоушен, характерный для img2Vid.

Меня все еще поражает наличие физичности, когда рука касается локона и локон реагирует на воздействие. Я понимаю, что сетка просто это где-то видела, но это совершенно не означает, что это что-то искусственное и не трушное.
🔥124👍39👎3
Как вам такая новости?
Canva купили Leonardo AI.


У меня один вопрос - зачем?

Я тестировал Леонардо очень давно. Когда это был один из многих сервисов типа: накатили Stable Diffusion на сервер, даем погенерить за деньги. Потом они пощли по пути InvokeAI и стали пилить удобные интерфейсные штуки для тех, кто привык рисовать. Начали прикручивать видео (как я понял на основе открытого кода AnimatedDifа и SVD). Все равно оставаясь нашлепкой на Stable Diffusion. Из последнего - они сделали свою модель Феникс.
Едиственное, что их отличало от других сервисов - убойный маркетинг (команда пришла из web3 и NFT). Тьма привлеченных блогеров называла их убийцей Midjourney.
Потом они начали вводить больше и больше цензуры на контент. Видать готовились к продаже.

Поэтому у меня так и висит вопрос - зачем Canva их купила?
С юзерами у Канвы и так все ок.
С понимание UI\UX тоже.
Неужели сами не решились написать обертки над Stable Diffusion?
У них же уже есть обертка над DALL·E 3 (через вызовы API OpenAI).

Или я чего-то упускаю?
https://www.canva.com/newsroom/news/leonardo-ai/

@cgevent
👍14🔥4👎1
Про приложения одеваторы и приложения раздеваторы я уже много писал. Ну и двигателем ML науки, как известно, стала программа deep nude, которая лихо разоблачала кожаных девушек (и, теоретически, парней).

А теперь не обязательно переснимать сцены из фильмов, чтобы получить более или менее жесткий рейтинг типа PG-13. Зрительно просто может жмакнуть кнопку "включи режим просмотра 16+". ИИ уберет, что не нужно или добавит, что надо.

@cgevent
🔥116👍76👎2
Ну, за метаверс!

Позавчера случилось невероятное. Хоть кто-то признал, что король-то голый.
И не кто-то, а сам Цукерберг.
Тот самый, которые вбросил это nft-слово - Метаверс. Три года назад.
Помните?

И все такие - да, Метаверс, это круто, это бабки, это слава, это продажа земли в пузырях и пирамидах. Это модно, это молодежно.

Самые робкие: а шо это такое?

Остальные: неважно, это как nft - круто, престижно, дорого, надо брать в общем.

Самые душные: а что брать?

Остальные, злобно: тычотупишь, это у всех есть. Вот Мак Кинзи говорит, что через несколько лет рынок Метаверса будет Триллионы Долларов(с придыханием)

Самые аутичные душнилы: а можно определение?

Рынок, с битой неперевес: мальчик, не мешай дядям зарабатывать на лохах.

И ведь остались обманутые вкладчики, которые до сих пор, бедняги, пилят метаверсы, вонзают деньги, не понимая, что это такое или давая метаверсу самоутешающие и самодельные определения. Их, как нфтшников, становится все меньше, а мы с вами вспоминаем этот морок, как помешательство с ковидом, прививками и теориями заговора.

МакКинзи теперь морщат лоб насчет ИИ. Виарщики снова называют виар виаром, роблокс - роблоксом, игры - играми, криптаны продали всю землю и снова заняты любимым делом - разведением хомяков.

А Метаверс остался в памяти как пример массового помешательства.

Но рынок не пахнет, ничего личного, только с ребятами неловко получилось, которые уверовали в метаверс.
Ничего, ИИ им поможет.

Это я к чему. Позавчера Хуанг и Цукерберг очень так неплохо перебеседовали на Сигграфе. С шутками, подколами и обменом курток. Так вот. За весь этот длинный диалог Марк НИ РАЗУ не произнес слово Метаверс. Ни разу. Хотя речь шла о тех вещах, которые он два года назад называл метаверсом через слово.
Переобулся. Или как модно у стартаперов - пивотнулся.

Ну, не чокаясь. В метаверсе все равно нельзя было прибухнуть нормально, хотя я видел зумерские свадьбы там. Поэтому и сдох.

@cgevent
👍58👎7🔥6
Разработчик ПО из Казани? Познакомься со специалистами ТехноХаба Сбера и прокачай свои скиллы! 👨‍💻👩‍💻

ИТ-академия ИТ-парка запустила курс для разработчиков «Cross-platform developer on JavaScript» совместно с Андреем Власовым — лидером компетенций, руководителем технологического Хаба Сбера в Казани с опытом в разработке 16 лет.

Для кого? 💻

— разработчики ПО с опытом работы frontend 1-2 года

По окончании курса ты получишь знания и навыки, соответствующие уровню Middle Javascript Developer, а именно:

Продуктовое мышление
UX/UI проектирования в figma
Разработка web-приложений на React
Разработка серверных приложений на Nodejs + Express + Mongo
Написание эффективных тестов для приложений
Глубокое понимание micro-frontend архитектуры на больших проектах

Запишись на собеседование прямо сейчас 👉 https://xn--r1a.website/+5-2TuO-rg7Y0OGUy, и получи бонусом офлайн-консультации с наставником, защиту выпускной работы перед экспертами и удостоверение о повышении квалификации. 🔥

▪️Набор открыт до 15 августа
▪️Объем курса: 124 акад/ч (продолжительностью 5 месяцев)
▪️Формат: офлайн, в ИТ-парке им. Б. Рамеева

📲 Номер телефона для связи: +7 937 594 2209

Реклама: ТЕХНОПАРК В СФЕРЕ ВЫСОКИХ ТЕХНОЛОГИЙ "ИТ-ПАРК", ГАУ "ИТ-ПАРК", ИНН: 1655191213, ERID: 2Vtzqux3v5Q
👎31🔥5👍3
Media is too big
VIEW IN TELEGRAM
Наконец-то годное ИИ-видео
Интернетик завален ИИ-видосиками. Народ пытается монтировать это в клипы. Пока все это похоже на неуклюжие трейлеры к фильмам категории Б, в которых не сшивается ничего - ни свет, ни камера, ни цвет. Бесконечные облеты-пролеты камеры мимо пластиковых девушек.
Принес вам клип, который торчит из этого посредственного видеоряда. Его приметил даже Андрей Карпатый и твитторнул с восторгом.
От себя добавлю, что здесь, во-первых, есть очень цепляющая фактура в виде мозаики. Она и есть главный герой и отлично бьется с названием "Разбитые мечты". Мы перестаем смотреть на детали, мы смотрим на мозаику. А она хороша.
Во-вторых, все эти мозаичные уточки и акулы, приподвзрывают мозг (пусть и незаметно), а мозаичная одежда прям топ (я посмотреть третий раз и там есть совсем уж находки).
В-третьих. У меня профдеформация, но вот это вот количество стекла, отражений, преломлений, каустик, SSS и прочего рейтрейсинга с глобальным освещением меня просто расплющивает. Вы никогда не отрендерите такой клип в 3Д, у вас лет в паспорте не хватит, это годы рендеринга.

А на итоге - это Suno + GEN-3. И хорошая кожаная(?) идея.
https://www.youtube.com/watch?v=IpP6XojxH3g
👍82🔥39👎7
В интернетике уже полно примеров тестирования нового голосового режима в chatGPT.
Самый, наверное, упоротый тестер измучил chatGPT всеми языками на свете.
В шапке есть видео, где он просит переключаться между языками рассказывая сказку и доходя до корейского с итальянским акцентом (извращенец).
Вы также наверное уже видели, что если попросить chatGPT ОЧЕНЬ быстро считать до 50, то он берет вдох на второй трети скороговорки. Ибо тоже человек (тут идут споры почему он так делает - научился из датасетов или "понимает" что кислород закончился).

Так вот, этот же чувак, на итоге просит chatGPT переключаться между языками через каждое слово! Садист. chatGPT справляется. Но когда кожаный ирод просит его быть быстрее и не делать пауз, chatGPT реально сердится и спорит что он не может не делать пауз, что ему дышать надо. И отказывается.
Все как у людей.

А последнее видео говорит нам о том, что у некоторых пользователей уже работает режим Live Video и что можно поговорить с chatGPT включив камеру о самом дорогом - о котиках.

Лично меня пока сильно привлекает возможность озвучки - это, кстати, очень серая зона. Поглядите, как chatGPT лихо воспроизводит мастера Йоду или Гомера Симпсона и даже смешивает их в одном голосе.

Интересно, что будет, если скормить ему свой (чужой) голос и попросить имитировать его? С картинками было достаточно сказать, что это ваша личная фотография.

Вот твиттор чувака, упоротого по языкам: от узбекского до Урду:
https://x.com/CrisGiardina

@cgevent
👍39🔥16