Метаверсище и ИИще
50.5K subscribers
6.32K photos
4.98K videos
48 files
7.3K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

«Новая жизнь»

Автор: Курмаев Тимур (@welcomehomeson)

Я иногда тестирую ИИ инструменты для создания видео и фото - просто для развлечения. И в качестве бенчмарка я всегда использую нашу кошку - самую достойную модель для моих экспериментов.

Перед отпуском решил взять подписку Higgsfield, хотел сделать небольшую, но цельную работу - проверить можно ли без опыта в производстве видео-контента выдать удобоваримый результат и за недорого.

- Сценарий: из головы. Сейчас мы ждем пополнение в семье, и я придумал простенький сюжет о том как меняется жизнь кошек с появлением ребенка. В главной роли мой бенчмарк, конечно же.

- Стилистика: хотелось повторить анимацию из мультфильмов Аркейн и Человек-Паук: Через вселенные (получилось далеко не везде)

- Инструменты пробовал разные, но лучший эффект дала связка:
• Gemini для промптов (дал лучшее описание специфической анимации)
• NanaBanana 2/Pro для генерации кадров
• Kling 3.0 для анимации через старт/стоп кадры, с использованием функции Elements.
• CapCut для монтажа и звуков
• Музыку хотел нагенерить в Suno после черновой версии, но в итоге остановился на «затычке» из CapCut и известном треке
• Генерировал в 720 (экономия!), затем апскейлил через десктопный Topaz.

Проблема, которая бесила больше всего - консистентность. Из-за нее я раньше не пытался делать что-то связное. Сейчас я был нацелен на функцию Elements в Kling. Также ради консистентности сделал выбор в пользу fixed frame. Даже при этих условиях пришлось пойти на допущения (я думаю, что они будут сразу заметны). Уверен, что это решается большим количеством попыток генераций = бюджетом.

Если выделить чистое время работы - наберется порядка 10 часов.

Пользовался только Higgsfield по подписке. На видео израсходовал примерно 2200-2400 рублей.

Выводы обывателя: ИИ-инструменты выдают хорошие результаты, но итоговое качество финального ролика - вопрос бюджета и времени. Как инструмент для продакшена - топ, для личных целей - пока еще слишком нестабильно и дорого.

@cgevent
👍40👎23😁19
Text-to-CAD

Но теперь с помощью агентов.

Агент в цикле генерит модель, делает подрендер, оценивает качество, редактирует исходник и тд.

Набор скиллов для Codex, Claude Code и других агентов, позволяющий генерить замысловатые CAD-модели.
Есть экспорт в STEP, STL, 3MF, DXF, GLB.
Есть URDF/SRDF/SDF robot descriptions
Может работать локально.

Код открыт:
https://github.com/earthtojake/text-to-cad
Демо:
https://demo.cadskills.xyz/?file=fun%2Frobotic_hand_end_effector.step (без генерации)

Сайт с описанием: https://www.cadskills.xyz/

@cgevent
🔥444👍4👎1
Gemini Omni. Что дальше?

Я послушал подкаст Introducing Gemini Omni:
https://youtu.be/5T0yRNmNRi4?t=844

И там есть пара интересных моментов о том, что выпущенная модель Gemini Omni имеет приставку Flash.
И что это как бы первая и "маленькая" модель. И что это можно сравнить с первой Нанабананой.
И что скоро нас ждем модель Pro (по аналогии с Нанабанана Про, появившейся позже и ставшей практически стандартом для редактирования изображений.

В подкасте достаточно много и откровенно говорили про ограничение в 10 секунд.
Во-первых, уже сейчас можно продолжать клипы, ибо Омни держит в памяти полный рефренс и по идее должна попадать в косистентность.
Во-вторых, и это главное, несколько раз сказали, что длительность будет увеличена в следующей версии. Несколько раз звучала цифра в 30 секунд, но скорее как вариант, а не окончательный параметр.

Из интересного: когда вы подсовываете свое (чужое) лицо как референс, имеет смысл делать как можно больше фоток с разных ракурсов и подсовывать их все. Оказывается модель строит что-то типа 3Д-модели (как при фотограмметрии), чтобы сохранять консистентность при повороте головы. Больше фоток на входе - лучше.

Более того, в будущих версиях может появиться версия с видео-референсом вашего лица. Ставите камеру и крутите лицом перед ней (по типу KYC) - модель строит модель вашего лица и использует ее при генерации.

И все это может превратиться в создание ваше цифровой копии - ваш аватар на максималках. Вы записываете видео, где крутите башкой и зачитываете текст на камеру. Цифруется лицо и голос, и сохраняется в виде вашего аватара, который вы в дальнейшем можете использовать в генерациях. (Тут HeyGen поперхнулся)

Также рассказали, что в новых версиях Omni появится больше tooling-a - инструментов, унаследованных от Gemini, типа поиска в интернете и работы с данными. То, что появилось в Nanobanana 2.

Про инструменты для сторителлинга сказали, но вкратце. Будут развивать Flow в этом направлении.

@cgevent
👍18🔥1312👎1
Mira — топ-1 AI-агент в Telegram 💫

Крутейшая альтернатива OpenClaw, которая работает из коробки в один клик.
Cаб-агенты, 1000+ MCP, работа в групповых чатах.

Через Mira можно автоматизировать:

🔄 ремайндеры и автономные задачи
📈 трейдинг и мониторинг
🤖 AI-ботов и агентов
✍️ генерацию и автопостинг контента
📊 Gmail, Calendar, Notion, GitHub и другие сервисы

Без настройки серверов, API и сложного сетапа.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎61😁16👍52🔥2😱1
Media is too big
VIEW IN TELEGRAM
3Д-генераторы замахиваются на волосы, вены и бороды.

В режиме Extreme High генератор Rodin 2.5 генерит довольно реалистичные анатомические подробности. Брови и волосы уже не выглядят кашей.
Напомню, что Rodin умеет генерить 10 миллионов полигонов.

Ну и они не боятся генерить органику теперь.

Правда что делать с такой оравой фейсов непонятно - разве что в 3Д-печать.

https://hyper3d.ai/

@cgevent
20👍11
3Д-генератор от Apple

Не уверен, что после Хуньяня, кто-то захочет им пользоваться, но оставлю тут для истории.
Они прям с нуля сделали свой 3Д-генератор по одной картинке с упором на то, что освещение с разных ракурсов помогает им восстанавливать более точную форму объекта.
Сравнивают результата с первым TRILLIS (что странно).
Пространственного разрешения, как по мне, им явно не хватает.

Зато есть код и веса:
https://github.com/apple/ml-lito
https://apple.github.io/ml-lito/

@cgevent
👍11😁6😱21🔥1
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Конкурсная работа для Союзмультфильма

Автор: Голубь Михаил
Телеграм: @Mikhail_Golub

Срок: 2 недели, ~50 часов работы

Союзмультфильм запустил конкурс «Ну ИИ погоди», приуроченный к 90-летию студии, — с целью популяризации анимации, интеграции передовых технологий и привлечения свежих творческих сил.

Условия конкурса:
⭐️Ролик от 30 до 60 секунд
⭐️Формат 9:16 или 16:9, качество минимум Full HD
⭐️В ролике должны быть цифры 9 и 0
⭐️Можно использовать персонажей студии, представленных в конкурсе

Первым делом полез смотреть, каких персонажей предложили организаторы — и там они, Винни-Пух с Пятачком. Те самые, хитруковские. Всё, решено. Дальше Пух сам подсказал сценарий. Спойлер: он связан с горшочком мёда. Кто бы мог подумать.😁

Этап 1: Модельные листы персонажей
Для консистентности и понятной анимации нужны были модельные листы Пуха и Пятачка. Собрал лучшие отрывки из старого мультика, закинул в NanoBanana Pro с целью получить профессиональные 3D-рендеры с текстурами на основе референсов. Получив подходящие изображения персонажей, снова закинул в Banana и попросил подготовить моедльный лист для каждого персонажа — виды спереди, сзади, сбоку и 3/4. Персонажи простые — нейросеть справилась с первого раза.

Этап 2: Интерьер и экстерьер
Действие крутится вокруг домика Пуха. Не стал изобретать велосипед — вырезал кадры из оригинала, скормил Claude вместе с модельными листами персонажей для понимания стиля рендера и попросил написать промпт для NanoBanana Pro. Получилось 10 вариантов интерьера/экстерьера, топ-5 стали референсами для всех сцен.

Этап 3: Шоты
Перед анимацией собрал шоты по раскадровке. Схема одна на все сцены: кидаю референсы в Claude → получаю промпт → отдаю промпт и те же референсы в том же порядке в NanoBanana Pro. Годные генерации выходили с 5–10 попытки, что-то допиливал в Photoshop.

Этап 4: Анимация
Seedance тогда ещё не было. В арсенале — только Kling 3.0 и o3. Промпты для анимации писал через Claude: кидал шоты в качестве референсов и описывал задачу — действия, эмоции персонажа. Полученный промпт отправлял в Kling + те же шоты. Анимация сначала выходила топорная, будто роботизированная. Помогла одна добавка в промпт: «движения должны быть естественными, выразительными как в профессиональной анимации». Сразу другое дело😁

Этап 5: Цветокоррекция и монтаж
Собрал всё вместе — кадры по цвету как сборная солянка. Подравнял в Premiere Pro.Потом заметил: 24 fps от Kling стробят, а хотелось плавности. Программно перегнал в 30 fps — полезли артефакты. Тогда артефактные куски вернул в 24 fps и прогнал через Topaz Video в Krea — получил честные 30 fps без мусора. Красота.

Этап 6: Звук
Все звуковые эффекты были взяты из видеогенераций. С музыкой было проще всего. За основу взял Elephant Walk Генри Манчини — уж очень по характеру подходила Пуху. Закинул идею в Claude, тот накидал промпт для Suno с разными акцентами и настроением — чтобы потом было что замиксовать. Сгенерил 10 треков по одному промпту, выбрал один. Композиция встала в мультик с единственной склейкой в финале.

💰Бюджет:
Видеогенерация — Kling: 115 генераций в Full HD по 5–6 сек с озвучкой. Каждая — 60–70 токенов. Итого сожрало ~8000 токенов. Пакет 7500 токенов = 100$. Ну чуть-чуть не вписался.

Картинки — NanoBanana Pro (через Higgsfield): подписка 49$/мес — хватило выше крыши, ещё и осталось.

Видеоулучшайзер — Topaz через Krea: некоторые генерации выходили с багами, как будто ИИ рисовал после вечеринки 😆🥴 Pro-план 35$/мес — зато видео стало плавным

Музыка — Suno 5.5: 8$/мес, 2500 токенов. Одна генерация = 2 трека за 10 токенов. Самый скромный чек в этой тусовке.

Промпты — Claude Pro: 17$/мес.

Итого бюджет: ~210$

@cgevent
👍125👎3422🔥12😁5😱1
Media is too big
VIEW IN TELEGRAM
ProMediaFlow ищет в команду

ProMediaFlow — профессиональная платформа для производства медиа на ИИ-инструментах: полный цикл от идеи до готового мастера, на уровне студийного продакшна. Мы помогаем креаторам и студиям создавать контент студийного качества — от роликов до анимационных фильмов.

Открыто три позиции. Можно откликаться на одну — или на несколько, если закрываешь сразу несколько направлений.

1. Customer Success Manager
Онбординг клиентов, обучающие материалы и разборы, сопровождение до первого результата на платформе. Сбор обратной связи и передача её продуктовой команде.

2. Content & SMM Specialist
Контент-план и упаковка результатов клиентов под Reels, Shorts, TikTok, VK. Мониторинг трендов ИИ-видео, дизайна, музыки, кино. Тестирование новых инструментов и форматов.

3. Partnerships Manager
Поиск креаторов и студий для коллабораций, выстраивание и ведение договорённостей, развитие партнёрской сети.

Ожидания
— опыт в производстве контента или работе с медиапроектами
— уверенная ориентация в индустрии ИИ-медиа
— грамотная и быстрая письменная речь
— самостоятельность и организованность

Условия
— работа на профессиональном уровне ИИ-медиа-продакшна
— прямое взаимодействие с фаундером и продуктовой командой
— возмжожен удаленый и постоянный формат. оплата от 2000$ и далее в зависимости от опыта

пишите в директ @latrack ) или team@promediaflow.com
9👍8👎5
Forwarded from Psy Eyes
Runway: выпустили Aleph 2, обновлённый инструмент для редактирования видео. Первый Aleph вышел около года назад.

Можно внести правки в конкретный кадр и изменения будут применены ко всему видео. Работает даже в мультишот сценах, например, из Seedance 2. Правки могут применяться как в целом ко всему фрейму, скажем для смены стиля, так и точечно к объектам вроде куртки на модели, лампы в углу кадра, итд. Замена объекта будет произведена с учетом его физики и освещения сцены, при этом бэкграунд останется максимально нетронутым.

Aleph 2 работает с видео разрешением 1080p и длиной до 30 сек. Им можно воспользоваться в рабочем пространстве Studio: там есть превью, можно делать правки текстом, и вкидывать реф картинки.

На странице с ценами Aleph фигурирует начиная с подписки Standard (без уточнения версии). В шапке сайта нашёл у них промокод RUNWAY50 со скидкой 50%, но он на Pro подписку, хотя может кому пригодиться.

Сайт
Анонс
🔥424
Первые тесты Aleph 2

Исходник - погоня, сделанная в Seedance.

Редактирование - инструкция переодеть всех ниндзя в розовый.

Тут правда водитель попал под раздачу.

Выглядит как ответчика редактирующих возможностям Gemini Omni.

@cgevent
😁22🔥13👍6
Ого, а вот это интересно!

Capcut парнерится в Гуглом.

В скором времени пользователи смогут редактировать изображения и видео прямо в приложении Gemini, используя расширенные возможности монтажа CapCut.

Цитата: "По мере того как творческие рабочие процессы становятся все более взаимосвязанными и плавными, мы верим, что будущее творчества станет более диалоговым, интуитивным и интеллектуально интегрированным между различными инструментами и интерфейсами."

Грубо говоря, в Gemini App приедет таймлайн для монтажа.

За кадром остается любопытный вопрос, а что будет с интерфейсом Flow? Об этом в анонсе ни слова.

Гугл, конечно, любит плодить сущности..

Также интересно поразмыслить, что гугл придерживается традиционного подхода к генерации контента, предполагая, что монтаж - неотъемлемая его часть.

В то время как Higgsfield, например, делает ставку на агентский подход и на то, что монтаж будет происходить прямо во время генерации - грубо говоря, ИИ будет решать как смонтировать финальный клип.

Новость интересная, конечно. При том, что на Дримине и в Капкате уже можно использовать и Seedance, Nanobanana и другие модели, а с появлением API Gemini Omni, там появятся и модель от Гугла.

@cgevent
🔥217😁7
This media is not supported in your browser
VIEW IN TELEGRAM
PanoWorld.

Интересный пример использования Qwen-Edit.

Он преобразует двухмерные планы этажей для всего дома в фотореалистичные, согласованные виртуальные туры по этому дому. Утверждается, что структура дома сохраняется при передвижении.
Виртуальный тур по дому, которого еше нет. Для недвиги и риелторов самое то.
Под капотом гауссианы, на сайте много примеров:
https://jjrcn.github.io/PanoWorld-project-home/
Код должен быть, но его пока нет.

@cgevent
🔥27👍112