Метаверсище и ИИще
48.1K subscribers
6.05K photos
4.53K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Многие уже знают NanoBanana и хорошо умеют этой моделью пользоваться, но собрать все в одном месте иногда тяжело

Есть хорошая статья с подробным разбором разных возможностей: LINK

👨‍💻 Промптинг как инженерка
😶‍🌫️котята с гетерохромией, hex-цветами и жёсткой композицией;
😶‍🌫️рендер веб-страницы по чистому HTML+CSS+JS;
😶‍🌫️гипердетальный JSON-описанный персонаж (Paladin + Pirate + Starbucks бариста), который в итоге выглядит именно как странный гибрид всех трёх.

☺️ Мини-реверс инжиниринг системного промпта
Через “холодильные магниты” модель генерит системны промпт:
там Markdown-секции, капслок-правила типа “MUST” и штрафы за sd1.5 промптинг, видно, как системный промпт заставляет модель лучше слушать команды и избегать “2022-стайл” AI-арта.

Если вы занимаетесь промпт-дизайном или строите продукты поверх Nano Banana/Gemini, статья будет полезной.

Отдельно автор сделал удобный код для тестов и собрал приятные полезности в один github:
https://github.com/minimaxir/gemimg
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥187😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Пара коротких новостей с полей видеогенерации.

В Veo 3.1 раскатывают фичу, когда можно загружать не одну, а несколько картинок, как референсы вместе с промптом.
И это не first frame, last frame - это скорее как Нанабанане, именно референсы.

@cgevent
47🔥20
This media is not supported in your browser
VIEW IN TELEGRAM
А в Грок Имаджин на этой неделе завезут 15-ти секундные видеогенерации!

Я пока не разобрался, это будет сразу генерация в 15 секунд, или фишка Extend существующих видосов.

В последнее время видео- (да и картиночный) генератор от Грока мне нравится все больше.

- очень гуманные лимиты после Соры и Вео
- С-Скорость
- очень лузовая (мягкая) цензура после Соры с Вео
- бесконечная лента сгенеренных картинок - очень крутая фишка

Если сделают 15 секунд с нуля, будет отлично, ящетаю.

@cgevent
👍64🔥26😁186
Ветераны чата коментов уже наверное соскучились за Еретиком.
Штош, читайте ниже.
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13
Forwarded from эйай ньюз
Heretic — автоматическое снятие цензуры с LLM

В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях, когда они блокируют "вредные" запросы. Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры.

Heretic вычисляет "направления отказа" как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, минимизируя одновременно количество отказов и KL-divergence от оригинальной модели.

Работает полностью автоматически — просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt-oss снятие цензуры точно не помешает.

https://github.com/p-e-w/heretic

@ai_newz
152🔥29😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно прельстиво выглядит генерация целых 3Д-сцен от 3daistudio.

Я немного пофактчекал и меня смущает только одна вещь. Весь этот развесистый проект выглядит как еще один агрегатор моделей разного толка, от картинок и видео до 3Д.
В разделе картинок и видео у них нет никаких своих моделей, только чужие.
А в разделе 3Д у них есть не очень известные Prism и Forge, но также присутствуют Meshy, Seed3D и даже Hunyuan 3D.

И на видео представлена именно генерация Hunyuan 3D после экспорта в Blender.

Так что это скорее демонстрация мощи Хуньяня, чем самого 3daistudio.

И рекламировать себя за счет интеграции API чужих моделей - ну такое..

https://www.3daistudio.com/

@cgevent
4👎2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот грядущий апдейт Meshy 6 Preview выглядит очень неплохо. Особенно работа с текстурами.

А еще они обещают multi-image на входе, то есть 3Д-генерацию по нескольким картинкам.
Но Meshy - не самая дешевая модель...

@cgevent
👍14
Forwarded from AI Product | Igor Akimov
Прикольный эксперимент от Гугла - CodeWiki. Документацию все делают через одно место, а в итоге LLM потом с этим разобраться не может. А тут гугл создает автоматически документацию по коду, позволяет чатиться/спрашивать по ней, строить схемы, находить, что делает функция и сразу к ней переходить. И главное - автоматически обновляется при каждом изменении!

Пока доступно только для открытых репозиториев в гитхабе, но скоро обещают и для внутренних.

Вот здесь подробности: https://codewiki.google/

А вот как выглядит для Gemini CLI библиотечки от гугла - https://codewiki.google/github.com/google-gemini/gemini-cli#introducing-the-gemini-cli-agent
12👍9
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

И еще один интересный 3Д-проект.

MeshCoder — это фреймворк (набор кода), который преобразует трехмерные облака точек в редактируемые скрипты на Питонге для Blender, позволяющий программно реконструировать и редактировать сложные отсканированные или сгенерированные объекты.

TLDR: код на Питонге генерит хорошую 3Д-сетку из облака точек.

LR: Это комплексный набор хитрых API для Blender Python, способных генерировать сложные геометрические объекты. Используя эти API, авторы сделала масштабный набор парных данных «объект-код», где код каждого объекта разлагается на отдельные семантические части.
Затем они обучают мультимодальную LLM, которая транслирует трёхмерные облака точек в исполняемые скрипты Blender Python. Такой подход не только обеспечивает отличную производительность при реконструкции формы в код, но и упрощает интуитивное геометрическое и топологическое редактирование благодаря удобной модификации кода. Более того, такое представление на основе кода расширяет возможности логического мышления LLM в задачах понимания трёхмерных форм.

Сам проект тут:
https://daibingquan.github.io/MeshCoder/

Есть код, веса и бумага.

@cgevent
👍212🔥1
Метаверс-пылесос.

Поглядите на этого робата-пылесоса.

Во-первых он круто задизайнен.
Во-вторых с такими колесами он может преодолевать разные препятствия в том числе на улице.

Но самое главное, посмотрите видео, как в голове таких робатов восстанавливается трехмерная модели мира вокруг. Еще немного подтянуть качество и будет прям полноценный метаверс-3д-сканер.

Он использует нейронки на основе вокселей, работающие на NVIDIA Jetson Orin, для создания фотореалистичных 3D-карт окружающего мира в режиме реального времени.

Внутри него стек, полностью написанный на Rust, обработка SLAM в дневное и ночное время, динамическое обнаружение препятствий и планирование маршрута с низкой задержкой, что позволяет роботу перемещаться в ограниченном пространстве и залезать в заповедные углы.

https://maticrobots.com/

@cgevent
👍13🔥8😁52
This media is not supported in your browser
VIEW IN TELEGRAM
LimX Dynamics Bipedal Robot TRON 1

Закроем тему робатов на сегодня.

Меня часто посеoают мысли, а почему все так уперлись в эту антропоморфность?
С одними коленкам вперед столько гемороя. Плюс они топают так, что разносят плитку на полу моментально.

Поглядите на альтернативный подход. Такая тварь кажется мне гораздо более "злой" - быстрой, проходимой, со сменными колесами, прыжками с высоты. Для восстания машин самое то, имхо.

@cgevent
🔥53👍20😱42😁1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Участник конкурса MyFilm48.
Автор Никита Чепусенко.

Фильм отобран, к сожалению, не был.
Однако хочу поделиться интересным опытом. Фильм был собран за 3 дня.
Suno выдал с первой же попытки идеальный трек.
После чего началась генерация. В основном тут Wan 2.5 (оказывается только он способен реалистично красиво двигать оптику (зумы, фокус, в общем создавать резкую рваную картинку). Еще немного клинга и veo. По мелочи тут и другие модели есть.
Ушло на это всё три подписки на Krea + подписка Suno.
Итого 190$

Ссылка для упрощенного просмотра через ютуб:
https://www.youtube.com/watch?v=Vg657fK8VNQ

@cgevent
👍36👎207🔥4
Позволю себе [не]много горнолыжного оффтопа.

Повод: увидел вот такое видео - Анджей Баргель стал первым человеком, который поднялся на Эверест и спустился на лыжах обратно в базовый лагерь без дополнительного кислорода. После почти 16 часов восхождения в высокогорной «зоне смерти» (выше 8000 м, где уровень кислорода опасно низкий), Баргель пристегнул лыжи на вершине и начал спуск по маршруту Южный перевал. В тот вечер он достиг лагеря II. На следующее утро он спустился на лыжах по ледопаду Кхумбу - под руководством дрона, управляемого его братом Бартеком - и благополучно прибыл в базовый лагерь, став первым человеком, который поднялся на Эверест и спустился с него на лыжах без дополнительного кислорода.

Ключевое тут - без кислорода. Я не очень понимаю, как это возможно в принципе. Видно, что он не профессиональный горнолыжник, и от этого его расход кислорода был еще выше.

Еще восхищает, как это было снято (дроны), как повезло с погодой и как сделана инфографика.

Мне сильно отзывается каждый его вдох и выдох на записи. Я однажды пытался "пойти" на Эльбрус с лыжами и в горнолыжных ботинках. Ну и в общем, чуть не сдох. Буквально. Повезло, что вовремя очнулся .

Написал об этом в "Понимая Maya" когда-то. Продублирую тут. Оффтопить так офтопить, тем более фотку нашел заповедную из 1996 года.

https://youtu.be/cjZvFY6__qw

@cgevent
31🔥29👍1
Лыжи и графика

Не знаю, кто как, а я попал в компьютерную графику благодаря горным лыжам. В конце 1996 года мне окончательно надоело продавать компьютеры для нефтегазовой отрасли народного хозяйства, в результате чего я уволился, откуда только мог, и уехал в горы. Естественно, на Чегет. Собираясь в дорогу, я встретил людей, которые довели до моего сведения, что российская компьютерная графика нуждается в относительно молодых и пытливых умах. В отличной компании и прекрасном настроении, предвкушая смену профессиональной деятельности, я погрузился в самолет и отправился навстречу заснеженным вершинам.
Снега не было вообще…
Я и раньше слышал, что ездить на Чегет встречать новый год – не очень хорошая идея, но любой горнолыжник всегда думает, что ему-то как раз со снегом повезет и в ночь перед прилетом обязательно навалит пару метров. Я тоже не мог поверить, что это случилось со мной, однако в хлам убитые на камнях новые лыжи Volkl и чудовищные очереди на верхних очередях вернули меня из мира иллюзий. Оставалось кататься только на Эльбрусе, причем на самом верху. Лучше всего было, забравшись на верхнюю станцию Мир, дать денег местным, скажем так, спасателям, после чего можно было погрузиться НА ратрак, который отвозил сильно желающих на Приют Одиннадцати, на высоту 4200 метров. Приют тогда еще не сгорел и стоял как инопланетная станция в горах. См. фото. Там меня можно найти по красным перчаткам.
Я до сих пор испытываю чувство некоторого обескураженного удивления по поводу самого существования такого мероприятия, хотя и признаю, что это были мои лучшие горнолыжные приключения. Дело в том, что перекатавшись на десятке различных горнолыжных точек, я несколько привык, что опасные места обычно обозначены как на карте, так и на местности и что в Австрии, например, можно вообще загреметь в полицию за катание вне обозначенных трасс.
Каково же было мое удивление, когда я обнаружил себя на броне ползущего почти отвесно ратрака, отчаянно цепляющимся за любые неровности кузова. Вокруг меня самоотверженно пузырилась масса из людей вперемешку с лыжами, весьма условно закрепленная на поверхности стального зверя. Все при этом были чрезвычайно довольны и сноровисто ловили норовивших выпасть за борт девушек и лыжи. Но самое интересное было впереди. Поднявшись на высоту четыре тысячи двести, эти, типа, спасатели быстро стряхнули остатки людей и лыж с бортов ратрака и мгновенно растворились в разгулявшейся метели. Я ожидал увидеть трассу или хотя бы флажки, но ни увидел вообще ничего, и не потому что они отсутствовали, а потому что ничего не было видно из-за пурги и тумана.
Но вокруг находился бывалый народ, все уже агрессивно щелкали креплениями и готовились к спуску в никуда. В никуда уходил след от ратрака, видимый не более чем на два метра, и веселая толпа лыжников, подбадривая друг друга громкими криками, начала ссыпаться вниз. Кричать было необходимо, просто чтобы не потеряться, хотя мне казалось, что шансы потеряться в этой пурге на незнакомом склоне равняются девяносто девяти процентам. Однако все до единого вписались в один счастливый процент, и когда в тумане проступили бочки Карбаши, я очень был... пожалуй, больше удивлен, чем напуган. Ноги сильно дрожали от напряженной езды по узкому следу, а мозг сверлила одна мысль: «Почему русские люди всегда развлекаются столь специфическими способами?».
Через пару дней погода наладилась, и я, завидев синее небо над Эльбрусом, предпринял еще одну попытку специфических развлечений. Проделав знакомый путь на ратраке до Приюта, я вместо того, чтобы шумно нестись вниз, взвалил лыжи на плечо и двинулся вверх по тропе. Эти, типа, спасатели, сказали мне, что тропа ведет на Эльбрус и что заблудиться невозможно (я еще не привык тогда, что «заблудиться невозможно» в местных высокогорных условиях означает «один шанс из ста, чтобы не заблудиться»). Я, конечно, не предполагал подняться на самую высокую вершину Европы, однако просто хотел проверить, до каких высот сможет подняться организм, измученный работой за компьютером.
Продолжение следует...
2🔥6734😁4👍3👎1🙏1
Первый час я шел довольно бодро, делая стометровые переходы и с восторгом взирая на кавказские горы в ярком солнечном свете. Однако чем дальше, тем короче становились переходы и длиннее перекуры. Дело в том, что на высоте 4200 метров человеку, пять дней назад приехавшему из Москвы, дышится не очень легко. Точнее, если стоять, сидеть и не делать резких движений, то ничего не чувствуешь. Однако при попытке пробежаться или присесть и встать пару раз, ощущаешь себя пробежавшим стометровку. Если же идти вверх по узкой тропе в горнолыжных ботинках и тащить на себе двухметровые лыжи, то ощущаешь себя только что пробежавшим марафон с мировым рекордом. Последние два часа я помню довольно плохо. Помню, что считал шаги и после каждой десятки делал остановку, причем во время ходьбы отдышавшийся организм по инерции делает бодрые шаги, но через десять-двенадцать снежных ступенек сердце почему-то неожиданно перемещается в голову и начинает стучать на в мозг с криками: «Землетрясение! Держите крышу». Идти становится невозможно, зрение пропадает, а в силу отсутствия зрения и сил, и приходится просто наблюдать, когда сердце уберется восвояси из головы и даст возможность сделать еще десять шагов.
Самое интересное началось дальше, когда стоять между переходами стало уже невозможно: я плюхался на снег, даже не дожидаясь головокружения, а просто отсчитав норму шагов. Я читал в детстве у Джека Лондона, что замерзшие в пурге старатели не сильно мучились, а скорее, наоборот, имели весьма довольный вид. Я, конечно, не замерзал, но сев на снег, я запасался всей имеющейся силой воли, чтобы через минуту встать. И тут я сделал большую ошибку. Закрыл глаза во время одного из «приседов».
Как только я закрыл глаза, чего делать было, оказывается, нельзя, перед моим взором возникали такие красочные картины и нереальные объекты, что я начал просто глупо улыбаться. Никакие процедурные текстуры не могут сравниться с красотой психоделических калейдоскопов появлявшихся на моем внутреннем горизонте. При этом тело стремительно теряло вес, и я чувствовал, что с неторопливым блаженством взлетаю в голубое небо. Было легко и приятно. И тут раздался душераздирающий скрежет, и великолепные картины стремительно съехали вбок. Оказывается, я просто начал заваливаться набок в сладком сне, и горнолыжный комбинезон тех лет стал громко (как мне послышалось) шуршать. Это шуршание и привело меня в чувство, хотя по правде сказать, возвращаться совершенно не хотелось. Открыв глаза, я долго удивлялся, где я вообще нахожусь, так как великолепные виды сверкающих снежных пиков казались детскими рисунками с только что увиденными внутри пейзажами. Тут я в панике осознал, что чуть не уснул. Через четыре часа после начала подъема я дрожащими ногами поставил себя на лыжи и потихоньку стал спускаться к Приюту Одиннадцати по бутылочному льду, стараясь не делать резких движений, чтобы снова не провалиться в мир иллюзий.
Внизу меня ждала компьютерная графика, а за спиной остались самые красивые и опасные процедурные текстуры. Впрочем, тогда я еще не знал, что такое текстуры, и уж тем более процедурные, поэтому просто запомнил все эти нереальные картины, как самое впечатляющее и красивое расширение сознания за всю свою жизнь.
Берегите себя, не будьте идиотами, испытывающими организм на прочность.
@cgevent
6🔥12232😁9👍8👎3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs Image & Video (Beta) Creative Platform

В общем, теперь у нас есть еще один агрегатор всего (картинок, видео, звука). И это, о боги, Eleven Labs.

Давайте не просто перепечатаем твиттор, подумаем, что они вообще натворили в продуктовом плане.

Как следует из мамкиных новостей, Eleven Labs - это теперь Image & Video (Beta) Creative Platform. Туда прикрутили чужие API и теперь там можно генерить картинки и видео. Veo 3, Sora2 , Kling, Wan, Seedance и др.
Прямая конкуренция с Krea и Freepik. Правда нодовую лапшу пока не завезли.
Прикрутили и Топаз для апскейла всего.
На первый взгляд выглядит как попытка влезть на поляну "креативных ИИ-платформ", где и так полно игроков, но есть два интересных нюанса.

1. Звук и липсинк. Ни у Суно, ни у раздавленного юристами Udio нет API. А у 11Labs есть своя мощнейшая экосистема работы со звуком, включая музикальный генератор. Поэтому они могут предоставлять дополнительные сервисы, которых нет на Фрипиках и Креях.

2. У них есть кривая-косая, но монтажка видео (и звука). Веб-интерфейс и прочие ужасы, но она есть - Studio 3.0.
А у других такой нет (кроме нейрофич Адоба). Поэтому они могут гордо вонзать на свои маркетинг материалы слово "монтаж".
Конечно, дальше встает вопрос, а насколько ловко они интегрируют генерацию видосов и их монтаж (ну например перегенерация куска видео). Но это потом.

А пока можно гордо сотрясать твиттор с помощью Eleven Labs Image & Video (Beta) Creative Platform
https://elevenlabs.io/image-video

Дело в принципе хорошее, осталось узнать и сравнить цены.

@cgevent
🔥2110😁6
This media is not supported in your browser
VIEW IN TELEGRAM
А еще Eleven Labs начинает скупать голоса.

Пока в основном актеров, но не только.

И пока они обкатывают эти голоса только в своем приложении для чтения аудиокниг или просто текстов: ElevenReader App

Интересно подумать о том, пойдут ли эти голоса в озвучку видео и далеко ли до биржи голосов.

https://elevenlabs.io/iconic-voices

@cgevent
🔥1912👎2😱2👍1