Метаверсище и ИИще
47.3K subscribers
6.02K photos
4.48K videos
46 files
6.91K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Flux Kontext Dev в опенсорсе!

Налетаем, забираем, ставим отсюда:

https://github.com/black-forest-labs/flux

https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Требуха под Комфи тоже уже есть:
https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras

@cgevent
🔥61👍14😱64
This media is not supported in your browser
VIEW IN TELEGRAM
DOPPL

Только что писал про несладкую и короткую жизнь переодеваторов.

Как тут же Гугль выпустил Допль! Убийцу virtual try on стартапов и примерочных.

Причем сразу в виде приложения.

Грузите свою фотку в полный рост, потом берете картинку шмота(фото, скриншот) и хоп! шмот уже ловко сидит на тебе!

А вишенкой Допль ещё и анимирует вас в новом прикиде. Там короткое видео генерится в конце примерки.

Есть в апсторе и для андроида, но только в US.
https://blog.google/technology/google-labs/doppl/


@cgevent
🔥399👍8
Suno - красавцы!

Взяли и пожрали WavTools/DAW.

WavTool это браузерный DAW-софт(Digital Audio Workstation), который объединил профессиональные функции создания музыки (поддержка плагинов VST, редактирование с точностью до сэмпла, запись в реальном времени и многое другое) с собственными возможностями ИИ, такими как разделение стемов, MIDI-файлы, сгенерированные ИИ, и встроенный чат-бот для редактирования музыки в реальном времени.

Представляете какой интерфейс и мощща будут у Suno 5?
https://www.prnewswire.com/news-releases/suno-acquires-wavtool-to-level-up-capabilities-for-professional-songwriters--producers-302491932.html

@cgevent
🔥9321👍7👎3
Я уже писал о том, что люди в 2025 году все чаще используют LLM для решения сугубо личных проблем.

Антропик сделал отдельную работу на эту тему: «How People Use Claude for Support, Advice, and Companionship»


Они исследовали как люди используют Claude.ai не только как интеллектуальный инструмент (IQ), но и как эмоциональную поддержку (EQ). В частности — разговоры с эмоциональным уклоном: советы, коучинг, сопровождение, терапия, ролплей. Цель — понять влияние таких взаимодействий на эмоциональное состояние пользователей

Основные находки
Именно задушевные беседы с уклоном в эмоциональную поддержку составляют где-то 3% от всех разговоров с Claude и относятся к эмоциональным (advice, coaching и т.д.).

Ролплей (романтический/сексуальный) встречается в <0,5% случаев

Темы запросов различны

Пользователи спрашивают о карьере, межличностных отношениях, одиночестве, экзистенциальных вопросах, тревожности и рабочем давлении.

Некоторые используют Claude для подготовки клинической документации и ведения терапевтических заметок

Менее 10% разговоров эмоциональной направленности сопровождаются сопротивлением Claude.
Отказы случаются, когда пользователь запрашивает опасные советы (например, экстремальное похудение) или выражает намерение навредить себе — при этом Claude рекомендует обращаться к специалистам

Тон общения становится позитивнее по ходу беседы.
Анализ эмоциональной окраски сообщений показывает переход от нейтральной или негативной тональности к более позитивной в конце беседы.

Результаты актуальны для текстового Claude.ai; с голосом или видео всё может пойти иначе.
(Тут я думаю, что не просто иначе, а радикально иначе).

Все это возвращает меня к моим же старым банальным мыслям: ИИ - идеальный инструмент для того, чтобы разобраться в себе. Это зеркало любого окраса, как запромптите, так и покажет. Вас самих.

Нужно просто иметь немного смелости идти с этим к ИИ.

https://www.anthropic.com/news/how-people-use-claude-for-support-advice-and-companionship

@cgevent
👍4816👎5😁1
У Хуньяня, похоже, есть набор моделей на все случаи жизни, от видео до 3Д, от игр до LLM.

Только что они бахнули Hunyuan-A13B - latest open-source LLM.

Модель MoE использует 80B общих параметров, из них 13B активных, обеспечивая производительность наравне с o1 и DeepSeek в нескольких основных бенчмарках.

Hunyuan-A13B имеет гибридную архитектуру с динамическим "быстрым и медленным" рассуждением, отлично справляется с задачами, связанными с длинными текстами, и обладает расширенными возможностями вызова агентных инструментов для выполнения сложных задач с помощью естественного языка.

https://github.com/Tencent-Hunyuan/Hunyuan-A13B

Демо: https://hunyuan.tencent.com/?model=hunyuan-a13b

Веса: 160гиг - https://huggingface.co/tencent/Hunyuan-A13B-Instruct

@cgevent
👍28🔥87
Media is too big
VIEW IN TELEGRAM
Первая в мире креативная операционная система

Хех, это новая (удачная) реклама от HeyGen.

Именно так, они называют свой HeyGen Video Agent.

Что он может:

Загружаете документ, отснятый материал или даже просто одно предложение текстом.

Он проанализирует ваши данные.

Находит в ваших каракулях историю.

Пишет сценарий, утверждается, что со вкусом.

Подбирает картинки или генерирует(!!!) видеоматериалы.

Набирает актеров (вот тут уже круто, за кастинг директоров и скаутов!)

И перемалывает все... Темп. Движение. Даже титры.

Будь то реклама, TikToks, короткометражные фильмы, демо-версии продуктов или любая другая идея, которая вам пришла в голову.

Вот такое позиционирование!

Сейчас опять заплакала и умерла соточка стартапов, которые делают "видео из ваших видео". Ибо на поляну вышли взрослые мальчики.

Записаться в вейтлист можно тут:
https://app.heygen.com/agent

#язаписалсо

@cgevent
🔥4314👍11👎2😱1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Нейропрожарка

Решили мы как-то с товарищами сделать видео, с закосом на мудовый клиповый видос, где не до конца понятно - генерация это или реальность.
По итогу вышло не до конца то, что было изначально в голове, но вполне достойно.

Работа длилась около недели, по несколько часов каждый день.
Все делалась в этих нейронках:
•Midjorney
•FLUX(только апскейл изображений)
•Runway Gen4(основной массив оживлений)
•Kling 1.6(пару сложных кадров)

Музыку не хотелось генерить, ибо был закос под реальный видос, а это добавляло бы реалистичного вайба.

Бюджет:
•Gen 4 безлимит - 95$
•Midjorney - 20$
•Kling - 7$
Итого - 122$


@cgevent
👍52👎16🙏9🔥87
Ребята из Cloud.​ru дропнули на GigaConf два интересных релиза

Клаудия — AI-помощник в публичном облаке, который берет на себя часть DevOps-задач: поднимает виртуалки, настраивает мониторинг, помогает в консоли, как второй пилот. Он упростит работу с облачными сервисами и сделает ее еще удобнее. Уже доступен в Public Preview.

Cloud.​ru Evolution AI Factory — облачная среда для работы с ИИ для тех, кто хочет заниматься своими LLM-ками и не париться с инфрой. Jupyter Notebooks, готовые API к популярным моделям, инструменты для файнтюна и инференс — все необходимое в одном месте. Готовые сервисы ускорят разработку и внедрение AI-агентов.

Кажется, российские облака наконец-то перестают быть просто «виртуалками в аренду», меняя привычный опыт и ожидания пользователей.
👍76👎407😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Новая фишка у Kling AI.

Video2Audio.

Вроде даже на бесплатных тарифах дают попробовать.

@cgevent
🔥53👍81
This media is not supported in your browser
VIEW IN TELEGRAM
QWEN-VLO - генерация картинок, видео, и редактирование всего, что шевелится.

Обновился Qwen3.


Чат у него весь из себя мультимодальный, принимает на вход документы, картинки, видео и даже звук.

А генерит вообще все, что шевелится. Включая видео, анализ изображений и даже брейншторм.

Го тестировать, пока быстро отвечает. Генерация видео довольно шустрая.

https://chat.qwen.ai/

Вот что пишут разрабы:

Сегодня мы рады представить новую модель - Qwen VLo, единую мультимодальную модель понимания и генерации. Эта обновленная модель не только "понимает" мир, но и генерирует высококачественные "воссоздания" на основе этого понимания, действительно преодолевая разрыв между восприятием и творчеством. Обратите внимание, что это предварительная версия, и вы можете получить доступ к ней через Qwen Chat. Вы можете напрямую отправить запрос типа "Создать изображение милой кошки", чтобы сгенерировать изображение, или загрузить изображение кошки и попросить "Добавить шапочку на голову кошки", чтобы изменить изображение.

Подробнее тут:
https://qwenlm.github.io/blog/qwen-vlo/ - поглядите примеры, они довольно убойные

@cgevent
2👍29🔥18😱76👎3
В общем видео новый Qwen VLo генерит примерно вот так.

К картинкам тоже есть вопросы, но думаю обсудим их в коментах.

@cgevent
😱20👎10😁8👍5🔥21
Я не знаю, было в новостях или нет, но Open AI тихо и без шума раскатал доступ к Deep Research через API.

Unlike ChatGPT where this process is abstracted away, the API provides direct programmatic access.

По ссылке дока, как управляться с запросами к:

o3-deep-research-2025-06-26: Optimized for in-depth synthesis and higher-quality output
o4-mini-deep-research-2025-06-26: Lightweight and faster, ideal for latency-sensitive use cases

https://cookbook.openai.com/examples/deep_research_api/introduction_to_deep_research_api
👍30🔥139👎1😁1
Кто устал ломать глаза в ComfyUI, прикручивая Flux Kontext, - есть первые экстеншены для Forge + Kontext:

https://github.com/DenOfEquity/forge2_flux_kontext

@cgevent
👍57🔥18😁43
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Играемся с CV

Зацените, что нашёл на выходные:

Вот вам пара небольших, несложных и практически бесполезных штуковин, в которые просто интересно поиграться.

Концепт интересный и, думаю, многим приходил в голову. Здесь у нас реалитайм-трекинг рук, который привязан к паре заранее записанных дорожек их параметрам. Всё работает на three.js, MediaPipe, HTML/CSS/JS. Подобных проектов там ещё 7. Кроме этого мне больше всех зашёл генератор шейдеров.

Для новичков вообще топ, гайды по сборке своей похожей CV-игрушки доступны за 10 баксов. Но, кажется, здесь и Gemini сравится, хотя от этого играть не менее интересно)

На видео, кстати, балуется с демкой co-founder Hugging Face.

линк

@ai_newz
20👍10👎4😱2😁1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

На сей раз от подписчика Владимира:

С чего всё началось:
Песня, несмотря на социально-философский посыл, показалась мне немного наивной и детской — и именно это определило форму. Я решил сделать клип в стилистике игрушечного мира, почти как лего-мультфильм.
«Пластмассовый мир победил» — буквально.
Это помогает иронично, но точно подчеркнуть саму идею трека.

🎯 Задача:

Создать визуальный сюжет, который развивается.
Клип — не просто эстетичная нарезка, а мини-фильм, где есть герой, конфликт, движение, и в последней трети — даже батальная сцена.
По времени заняло - много. Мне сложно подсчитать. Это несколько месяцев(было много еще дел). Но если брать плотную работу - пару недель точно наберется.

🔧 Инструменты:

Все изображения я генерировал в Midjourney, так же использовал Runway reference.
Видео начинал делать ещё в эпоху Rungen 3, на безлимитке.
Частично использовал Kling 1.6 и MiniMax.
Закончил проект уже в Rungen 4, Kling 2.1 и MiniMax 2.0 — за время работы всё обновилось. По бюджету сложно считать.
Но примерно
4 месяца безлимитки Runway -400 долларов
3 месяца Мidjourney -90 долларов
Минимакс – 60 долларов
Kling - 30 долларов


@cgevent
🔥52👎14👍103
ByteDance бахнул XVerse, новую модель text2image, позволяющую управлять несколькими людьми и атрибутами в одном кадре.

Вы вводите промпт, а затем настраиваете личность, позу, стиль или освещение каждого объекта, не нарушая при этом остальную часть сцены.

Под капотом используется DiT flow modulation конвейер с учетом истории, чтобы каждое лицо и объект были согласованы даже в сложных многосубъектных макетах.

https://bytedance.github.io/XVerse/

@cgevent
🔥39👍7😱52
Media is too big
VIEW IN TELEGRAM
Адобченко: Халява закончилась

Оказывается Адобченко тихой сапой прикрыл лавочку бесконечного использования своих нейроинструментов на подписке.
Еще точнее, система кредитов у них была, но использовалась она для "замедления", а не для прекращения работы:

"После того как определенное планом количество генеративных кредитов будет достигнуто, вы сможете продолжать использовать генеративные действия ИИ для создания векторной графики или изображений стандартного разрешения, но использование этих функций генеративного ИИ может быть медленнее", - заявила Adobe в июне 2024 года, отметив при этом, что генеративный ИИ в Photoshop и Lightroom никогда не будет ограничен.

Но теперь пользователи начали получать одноразовые уведомления в приложении об использовании генеративных кредитов, и они стали появляться у всех пользователей только на прошлой неделе. Технически Adobe начала применять генеративные кредиты в феврале, когда представила отдельные планы Firefly, но пользователи Photoshop только недавно начали получать уведомления об этом в самом приложении.

Придется докупать кредиты...

Подробнее тут:
https://helpx.adobe.com/creative-cloud/help/generative-credits-access-and-use.html

@cgevent
👎64😁19😱117👍3🙏1
ComfyUI OmniGen2 Native Workflow Examples

Не Flux Kontextoм единым.

Для тех гиков, кто сидит в Комфи и кто слышал про OmniGen2 - теперь есть нативная поддержка и примеры воркфлоу прямо на сайте Комфи.

Редиторы приподвзварчивают на качество, остается только самим тестировать.

https://docs.comfy.org/tutorials/image/omnigen/omnigen2

@cgevent
16👍9