Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Media is too big
VIEW IN TELEGRAM
А теперь про Marble из первых рук с видосами и картинками.

Гоша Молодцов был в бетатестерах Марбла и вот что он учудил.

Это не пролет FPV дрона, это пролет виртуальной камеры по виртуальному пространству, созданному с помощью Gaussian Splatting и AI.
Специалисты, знающие о Gaussian Splatting могут сказать, что качество 3D-реконструкции не везде очень высокое - для качественного покрытия такого пространства требуется около 5000-6000 фотографий.
Но, на самом деле, эта сцена воссоздана из всего лишь 13-ти сферических (360) панорам с помощью сервиса World Labs - Marble.

Используя Marble от World Labs, SuperSplat от PlayCanvas и
Arrival.Space, я смог воссоздать место, где моя жена и ее братья и сестры проводили большую часть лета в детстве. В 2019 году я сделал 360-градусные снимки каждой комнаты и несколько снимков снаружи. Дом был продан несколько лет назад, и единственный способ вместе вспомнить это место (особенно учитывая, что все они живут в разных частях мира) — это встретиться в метавселенной. Моя жена заплакала, увидев первые тесты, которые я провел с одной комнатой.

Моей целью было воссоздать всю отсканированную область с помощью имеющихся у меня данных, и теперь вы можете сами насладиться этим пространством и посетить его —
https://arrival.space/51431471_7414

Краткое описание процесса:
ШАГ 1. AI GAUSSIANS
World Labs находился в стадии бета-тестирования, и я рад, что смог принять участие в этом тестировании. Недавно они добавили поддержку сферических equirectangular фотографий, и я протестировал одну... затем другие... за час я протестировал все 13.
Следующим шагом было объединение внутренних частей — 8 комнат внутри, 2 из бани, 3 снаружи. Магия, стоящая за моделью World Lab, не так хорошо известна, но я бы предположил, что это оценка глубины по 360-градусной фотографии, генерация ИИ на основе краткого описания видео и обучение набором фотографий с количеством до 2 миллионов сплатов на данный момент.

ШАГ 2. SUPERSPLAT
На этот раз Supersplat от PlayCanvas оказался гораздо удобнее, чем Postshot. Я очистил сканы в круговом режиме, объединил их и масштабировал до предполагаемого размера (ИИ не мог знать масштаб каждой комнаты и ее соотношение с другими), отделил и дублировал некоторые фрагменты, чтобы закрыть дыры.
Затем на улице — включая очистку неба и его последующее добавление, потеряв масштаб и уровень пола. Вот тут мне пришлось попросить жену сделать несколько традиционных фотографий, чтобы попытаться правильно воссоздать фасады. Marble сделал wild guess об остальной части окружения, но фасады были готовы к использованию.
Общий вес файлов составил около 1,3 Гб и состоял из около 22 миллионов сплатов.

ШАГ 3. ARRIVAL SPACE
Metaverse — это органичная среда для Gaussian Splatting. Arrival.Space — один из первых адоптеров GS, а также новейшего формата сжатия SOG от PlayCanvas. Одна из функций — возможность создать генеративный коллайдер для вашего GS-сканирования, чтобы вы могли ходить внутри. Он еще не поддерживает SOG, но с помощью Михаила Мокрушина я применил следующий трюк: сначала я загрузил сжатый PLY (400 Мб) того же сканирования, сгенерировал коллайдер (пришлось вручную очистить его в Blender), а затем повторно загрузил сканирование в формате SOG (220 Мб) с исправленными коллайдерами.

Посмотрите в хорошем качестве тут:
https://www.youtube.com/watch?v=R70bydPsb4s

Также Гоша пишет, что сейчас Marble на выходе дает:
1) PLY версию и SPZ версию (компрессированную)
2) меш для коллайдеров (низкокачественный)
3) меш высококачественный
4) 360 панораму новой локации

Как же круто, когда люди применяют все это безумие из канала в реальную жизнь!

@cgevent
🔥6619👍4
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Hellsing Ai remake от Ника

Очень люблю единственное по-настоящему культовое аниме 2000-х Hellsing. У него неповторимая рисовка, мрачная атмосфера и характерный визуальный стиль. Мне давно хотелось увидеть, как выглядел бы ремейк Hellsing в формате фильма на современном CG движке с реалистичными текстурами, освещением и глубокой кинематографичностью. Основная идея воссоздать героев из 2D-анимации в полном 3D, сохранив дух оригинала.

Для начала я собрал мудборд в Midjourney, чтобы задать стилистику каждому кадру. По атмосфере вдохновлялся ремейками Resident Evil — их визуальная плотность и освещение очень близки к тому, что я искал. Однако Hellsing отличается фирменными glow бликами, особенно на очках и стекле, поэтому я добавил дополнительные референсы, чтобы зафиксировать эту эстетику.

Самое сложное оказалось точно передать персонажей. Я использовал ChatGPT, чтобы детально описать их внешность и передать характер через промпты. С готовыми описаниями и референсами начал собирать базовые "CG кадры".

В Midjourney отлично получались крупные планы, но модель плохо понимала позы и действия, поэтому перешел в NanoBanano и ComfyUI. В Banano, например, сделал сцену, где Алукард держит девушку на руках, а в Comfy через ControlNet перенес позу Александра Андерсона (мужчина в синем плаще из финала). Midjourney часто давал мыльную кожу, поэтому все статичные кадры апскейлил в Enhancor, чтобы добиться чистоты и глубины.

Для анимации использовал связку:
1) Kling для крупных планов и эмоциональных сцен
2) Veo 3.1 для динамичных экшен моментов
3) Seedance для монтажных переходов, например, где девушка надевает куртку и камера меняет план

Саундтрек освежил через Suno

Все графические элементы, логотипы и руны делал вручную через NanoBanano, чтобы сохранить оригинальный визуальный код Hellsing.

Вся работа заняла один день, около 7 часов
Затраты составили примерно 6000 поинтов Veo 3.1 и 5000 поинтов Kling


@cgevent
🔥9126👍20👎9😱3🙏1
Forwarded from Три сигмы
Media is too big
VIEW IN TELEGRAM
Открываем много позиций в Gracia

Кажется, мы доказали PMF вольюметрических видео и теперь уже совсем не справляемся с количеством проектов. Приходите к нам сделать новый медиум контента повседневностью!

📍London, UK // можно начать удалённо

В рамках нашего переосмысления привычных ролей, мы добавили в список экспериментальную позицию ИИ-ориентированного продакта. Не уверены, существуют ли уже такие кандидаты, пошерьте её знакомым энтузиастам 👉👈


С++ Core Engineer [GPU Background]

R&D Engineer [Computer Vision / 3DGS Background]

R&D Engineer [GenAI Background]

Product Lead [AI-Oriented]

QA Engineer [Automation]

Marketing Lead [Tech PR Background]
216👍7👎1
This media is not supported in your browser
VIEW IN TELEGRAM
"Я его слепила из того, что было" или выйти замуж за системный промпт.

32-летняя женщина в Японии официально вышла замуж за ИИ-персонажа, которого она создала с помощью ChatGPT.
После того, как виртуальный персонаж «Клаус» сделал ей предложение, она согласилась, положив конец трехлетним отношениям с реальным партнером, заявив, что искусственный интеллект понимает ее лучше.
Свадьба состоялась в формате смешанной реальности, где она надела очки дополненной реальности, чтобы обменяться кольцами со своим цифровым мужем.


Скоро у них появятся маленькие системные промптики...

@cgevent
😁69😱3512👍6👎5🔥5
Media is too big
VIEW IN TELEGRAM
Depth Anything 3 нереально прокачался.

Самое интересное: The secret? No complex tasks! No special architecture! just a single, plain transformer trained with a depth-ray representation.

Единый трансформер на всё.

И теперь DA3 - это прям трекер геометрии и камеры, который восстанавливает 3Д-сцену и даже делает гауссианы для рендеринга.

Причем на входе любое количество картинок или даже видео.

Еще раз: один простой трансформер (например, DINOv2) достаточен в качестве основы без архитектурной специализации, а единственная цель прогнозирования глубины луча устраняет необходимость в сложном многозадачном обучении.

Неплохо бьется с моими вчерашними постами про генерацию миров и Marble.

Есть всё: и код, и демо, и бумага, и техрепорт.

Все ссылки по ссылке:

https://depth-anything-3.github.io/

@cgevent
🔥47👍125😱3
Breaking_Rust_Walk_My_Walk_Official_Audio_UwKmDH83qo0.webm
6.8 MB
Про ИИ-музыку или ИИ-про-музыка.

Я частенько пишу про ИИ-треки, которые залетают в кожаных чартах, ибо новый нормальный слушатель уже не может определить, где ИИ, а где кожаная музика (не шутка, есть уже статьи на эту тему).

Держите новую пачку.

Velvet Sundown и трек Dust on the Wind. 400К просмотров на трубе, а летом было 1.5М подписчиков на Спотифай. Отличная гитара и вокал, особенно наверху.
https://www.youtube.com/watch?v=eQJ9IWoclhk
Забавно, что писатели промптов вначале изо всех сил прикидывались кожаными, но слушатели такие: а чо это у группы с конскими прослушиваниями нет инсты?!?!". Тут они и спалились. Нет инсты - нет кожаного. Метрика 2025.
У них уже три альбома.

И вот еще свежачок из кантри-музики.
Breaking Rust имеет более 2 миллионов слушателей в месяц на Spotify , где он является проверенным исполнителем. На YouTube у него более 23 000 подписчиков, а клип на песню «Livin' on Borrowed» собрал 4,4 миллиона просмотров за четыре недели с момента первой публикации.
Хит у них "Walk my Walk":
https://www.youtube.com/watch?v=UwKmDH83qo0
Эти подсуетились с инстой: Instagram, на который подписано более 35 000 человек, заполнен фотографиями мужчины с меланхоличным видом в ковбойской шляпе, находящегося в разных ситуациях, в том числе в телефонной будке, идущего по дороге и сидящего под дождем.

А теперь самое главное: согласно чарту «Country Digital Song Sales» журнала Billboard, песня № 1 в США — «Walk My Walk» группы Breaking Rust

Шах и мат, кожаные. ИИ - номер 1.

Тут вы можете невысоко подскакивать в своих креслах и вопить: вокал жестяной, металлический призвук, компрессия ужасная, нет пространства.

Как говаривал Титомир, если пипл хавает, то все ништяк.

Кроме того, подумайте о том, что Спотифаю и другим очень выгодно запускать ИИ-проекты - не надо платить кожаным их жалкие комиссии.

@cgevent
🔥3111👍8😱4
Высшее духовенство Кремниевой долины, Сэм Альтман и Брайан Армстронг, финансируют проект по созданию нового поколения людей.

Буквально. Миллиардеры больше не хотят просто жить вечно. Они хотят создать потомков, которые тоже смогут это делать — так же, как когда-то они создавали программное обеспечение.

Стартап Preventive — это компания из Сан-Франциско, которая занимается редактированием генов человеческих эмбрионов, несмотря на запреты в США. Ее основатели сейчас ищут более либеральные юрисдикции, такие как ОАЭ, страна, стремящаяся обменять наследие нефти на престиж биотехнологий. И хотя регион не может развивать собственный научный потенциал, он с радостью принимает американских беглецов, уставших от регулирующего надзора.

Preventive настаивает, что ее деятельность по-прежнему сосредоточена на доклинических исследованиях, редактировании эмбрионов в лабораторных условиях, а не на их имплантации (пока!). Но каждая революция начинается в лаборатории.

Другие иконы Кремниевой долины, такие как Питер Тиль и Алексис Оганян, также обратили внимание на сферу генетического скрининга и эмбриональных технологий. Сообщество формируется.
Если следующая презентация по долголетию начнется с преимуществ наследственности, а таблица капитализации будет похожа на прошлогоднюю лабораторию искусственного интеллекта, то вы больше не смотрите на биотехнологии. Вы смотрите на «Человечество как услугу» (Humanity-as-a-Service).


Это не первое апреля, это перевод эмоционального поста Екатерины Романовской в ЛинкедИн.

Фактчекинг показывает, что все верно.

Preventive находится в авангарде растущего числа стартапов, финансируемых одними из самых влиятельных людей Кремниевой долины, которые расширяют границы фертильности и работают над коммерциализацией репродуктивных генетических технологий. Некоторые из них работают над редактированием эмбрионов, в то время как другие уже продают инструменты генетического скрининга, призванные учитывать влияние десятков или сотен генов на признак.

Они утверждают, что их конечная цель - рождение детей, свободных от генетических заболеваний и устойчивых к болезням.

Известен лишь один случай рождения детей из отредактированных эмбрионов. В 2018 году китайский учёный Хэ Цзянькуй потряс мир новостью о том, что он произвёл на свет троих детей, генетически изменённых ещё на стадии эмбрионов, чтобы обеспечить им иммунитет к ВИЧ. В Китае он был приговорён к трём годам тюремного заключения за незаконную медицинскую практику.

В настоящее время на такие исследования введен мораторий. Но стартапам мораторий не указ.

Хотите подробнее, почитайте тут:
https://www.wsj.com/tech/biotech/genetically-engineered-babies-tech-billionaires-6779efc8?st=zHyf3Y
https://futurism.com/health-medicine/startup-altman-gene-hacking

Мне одному кажется, что человечество скоро поделится на две ветки: Homo Edited и Homo Prompted?

@cgevent
😱36👍2618👎17🔥5😁4
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Первый опенинг-трейлер для сериала "Антихрист" от Егора.

Получилось немного всратенько по качеству, но как по мне вышло душевно. В процессе доработаем,а то все то,что я не выкладываю вовремя,я не выкладываю вообще)

Инструменты СОРА,КЛИНГ и ВЕО. Картинки Наонобанана и Midjourney

Cроки неделя,бюджет около 5-7 тыс рублей

Качество смотрим тут:
https://www.youtube.com/watch?v=kMqJDEqDqhU
МУЗЫКА : • ХВОЯ - Речка
Всем хорошего дня 😎


@cgevent
👍45👎359🔥2
Многие уже знают NanoBanana и хорошо умеют этой моделью пользоваться, но собрать все в одном месте иногда тяжело

Есть хорошая статья с подробным разбором разных возможностей: LINK

👨‍💻 Промптинг как инженерка
😶‍🌫️котята с гетерохромией, hex-цветами и жёсткой композицией;
😶‍🌫️рендер веб-страницы по чистому HTML+CSS+JS;
😶‍🌫️гипердетальный JSON-описанный персонаж (Paladin + Pirate + Starbucks бариста), который в итоге выглядит именно как странный гибрид всех трёх.

☺️ Мини-реверс инжиниринг системного промпта
Через “холодильные магниты” модель генерит системны промпт:
там Markdown-секции, капслок-правила типа “MUST” и штрафы за sd1.5 промптинг, видно, как системный промпт заставляет модель лучше слушать команды и избегать “2022-стайл” AI-арта.

Если вы занимаетесь промпт-дизайном или строите продукты поверх Nano Banana/Gemini, статья будет полезной.

Отдельно автор сделал удобный код для тестов и собрал приятные полезности в один github:
https://github.com/minimaxir/gemimg
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥187😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Пара коротких новостей с полей видеогенерации.

В Veo 3.1 раскатывают фичу, когда можно загружать не одну, а несколько картинок, как референсы вместе с промптом.
И это не first frame, last frame - это скорее как Нанабанане, именно референсы.

@cgevent
47🔥20
This media is not supported in your browser
VIEW IN TELEGRAM
А в Грок Имаджин на этой неделе завезут 15-ти секундные видеогенерации!

Я пока не разобрался, это будет сразу генерация в 15 секунд, или фишка Extend существующих видосов.

В последнее время видео- (да и картиночный) генератор от Грока мне нравится все больше.

- очень гуманные лимиты после Соры и Вео
- С-Скорость
- очень лузовая (мягкая) цензура после Соры с Вео
- бесконечная лента сгенеренных картинок - очень крутая фишка

Если сделают 15 секунд с нуля, будет отлично, ящетаю.

@cgevent
👍64🔥26😁186
Ветераны чата коментов уже наверное соскучились за Еретиком.
Штош, читайте ниже.
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13
Forwarded from эйай ньюз
Heretic — автоматическое снятие цензуры с LLM

В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях, когда они блокируют "вредные" запросы. Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры.

Heretic вычисляет "направления отказа" как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, минимизируя одновременно количество отказов и KL-divergence от оригинальной модели.

Работает полностью автоматически — просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt-oss снятие цензуры точно не помешает.

https://github.com/p-e-w/heretic

@ai_newz
152🔥29😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно прельстиво выглядит генерация целых 3Д-сцен от 3daistudio.

Я немного пофактчекал и меня смущает только одна вещь. Весь этот развесистый проект выглядит как еще один агрегатор моделей разного толка, от картинок и видео до 3Д.
В разделе картинок и видео у них нет никаких своих моделей, только чужие.
А в разделе 3Д у них есть не очень известные Prism и Forge, но также присутствуют Meshy, Seed3D и даже Hunyuan 3D.

И на видео представлена именно генерация Hunyuan 3D после экспорта в Blender.

Так что это скорее демонстрация мощи Хуньяня, чем самого 3daistudio.

И рекламировать себя за счет интеграции API чужих моделей - ну такое..

https://www.3daistudio.com/

@cgevent
4👎2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот грядущий апдейт Meshy 6 Preview выглядит очень неплохо. Особенно работа с текстурами.

А еще они обещают multi-image на входе, то есть 3Д-генерацию по нескольким картинкам.
Но Meshy - не самая дешевая модель...

@cgevent
👍14
Forwarded from AI Product | Igor Akimov
Прикольный эксперимент от Гугла - CodeWiki. Документацию все делают через одно место, а в итоге LLM потом с этим разобраться не может. А тут гугл создает автоматически документацию по коду, позволяет чатиться/спрашивать по ней, строить схемы, находить, что делает функция и сразу к ней переходить. И главное - автоматически обновляется при каждом изменении!

Пока доступно только для открытых репозиториев в гитхабе, но скоро обещают и для внутренних.

Вот здесь подробности: https://codewiki.google/

А вот как выглядит для Gemini CLI библиотечки от гугла - https://codewiki.google/github.com/google-gemini/gemini-cli#introducing-the-gemini-cli-agent
12👍9
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

И еще один интересный 3Д-проект.

MeshCoder — это фреймворк (набор кода), который преобразует трехмерные облака точек в редактируемые скрипты на Питонге для Blender, позволяющий программно реконструировать и редактировать сложные отсканированные или сгенерированные объекты.

TLDR: код на Питонге генерит хорошую 3Д-сетку из облака точек.

LR: Это комплексный набор хитрых API для Blender Python, способных генерировать сложные геометрические объекты. Используя эти API, авторы сделала масштабный набор парных данных «объект-код», где код каждого объекта разлагается на отдельные семантические части.
Затем они обучают мультимодальную LLM, которая транслирует трёхмерные облака точек в исполняемые скрипты Blender Python. Такой подход не только обеспечивает отличную производительность при реконструкции формы в код, но и упрощает интуитивное геометрическое и топологическое редактирование благодаря удобной модификации кода. Более того, такое представление на основе кода расширяет возможности логического мышления LLM в задачах понимания трёхмерных форм.

Сам проект тут:
https://daibingquan.github.io/MeshCoder/

Есть код, веса и бумага.

@cgevent
👍212🔥1