This media is not supported in your browser
VIEW IN TELEGRAM
Сервисы уже давно могут генерить нам бесконечные плейлисты, которые в реальном времени меняются под наши лайки/дизлайки, настроение, занятия
Но если задаться вопросом «как это работает», ответ лежит далеко не в ИИ. Возьмём потоки «Нейромузыки». Это проект Яндекс Музыки, появившийся задолго до популярных моделей генерации композиций.
Это архитектура, похожая на модульный синтезатор. Поток собирается из заранее записанных лупов. Лупы — разных жанров, протегированные по тональностям, темпу, типу звучания. Сверху к ним — модель, которая умеет достраивать нотные партии под контекст. По сути, ИИ не пишет трек — он дирижирует кубиками, которые заранее сделал человек.
Почему так?
Потому что полноценная генерация аудио в реальном времени — дорого. Очень. VST-плагины сожрут любой сервер, а если в потоке появится треск — пользователь выключит музыку навсегда.
Короче, мы живём в моменте, когда телефон стал персональным диджеем. Советую не принимать такие крутые штуки за данность, а обращать на них внимание и разбираться в них глубже.
Например, нормальное человеческое объяснение этой темы я нашёл не в мануалах и не в глубинах Хабра, а в канале Журнала 8БИТ, команда Яндекс Образования умеет доступно разбирать инженерные штуки — и тем более рассказывать о своих разработках.
Очень рекомендую полистать канал — там много интересного.
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqvB5t6o
Но если задаться вопросом «как это работает», ответ лежит далеко не в ИИ. Возьмём потоки «Нейромузыки». Это проект Яндекс Музыки, появившийся задолго до популярных моделей генерации композиций.
Это архитектура, похожая на модульный синтезатор. Поток собирается из заранее записанных лупов. Лупы — разных жанров, протегированные по тональностям, темпу, типу звучания. Сверху к ним — модель, которая умеет достраивать нотные партии под контекст. По сути, ИИ не пишет трек — он дирижирует кубиками, которые заранее сделал человек.
Почему так?
Потому что полноценная генерация аудио в реальном времени — дорого. Очень. VST-плагины сожрут любой сервер, а если в потоке появится треск — пользователь выключит музыку навсегда.
Короче, мы живём в моменте, когда телефон стал персональным диджеем. Советую не принимать такие крутые штуки за данность, а обращать на них внимание и разбираться в них глубже.
Например, нормальное человеческое объяснение этой темы я нашёл не в мануалах и не в глубинах Хабра, а в канале Журнала 8БИТ, команда Яндекс Образования умеет доступно разбирать инженерные штуки — и тем более рассказывать о своих разработках.
Очень рекомендую полистать канал — там много интересного.
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqvB5t6o
👎54❤9👍4
Израильтяне продолжают удивлять.
LTX заколлабились с Eleven Labs в области звука и выкатили Audio-to-Video.
Пока нашел только тут:
https://app.ltx.studio/ltx-2-playground/a2v
Но народ уже крутит ручки в комфи.
Это не просто липсинк, это как бы character-sync.
Берете аудио, потом картинку (i2v), потом пишете промпт. Дальше Audio-to-Video оживляет картинку не только по промпту (в котором теперь не надо писать, что скажет персонаж), но с учетом анализа аудио.
Из звука извлекается не только речь, но и ритм, и эффекты. Под этот ритм персонажи и пляшут, и машут. А не только губами ворочают.
Интересно, что он распознает два (может больше) трека для речи и назначает их на разных персонажей (а не как раньше, когда все говорили и двигались одинаково).
Выглядит убойно, если бы не качество видео((
Тут бы выпить за инфлюенсеров в очередной раз, но об этом через пост.
@cgevent
LTX заколлабились с Eleven Labs в области звука и выкатили Audio-to-Video.
Пока нашел только тут:
https://app.ltx.studio/ltx-2-playground/a2v
Но народ уже крутит ручки в комфи.
Это не просто липсинк, это как бы character-sync.
Берете аудио, потом картинку (i2v), потом пишете промпт. Дальше Audio-to-Video оживляет картинку не только по промпту (в котором теперь не надо писать, что скажет персонаж), но с учетом анализа аудио.
Из звука извлекается не только речь, но и ритм, и эффекты. Под этот ритм персонажи и пляшут, и машут. А не только губами ворочают.
Интересно, что он распознает два (может больше) трека для речи и назначает их на разных персонажей (а не как раньше, когда все говорили и двигались одинаково).
Выглядит убойно, если бы не качество видео((
Тут бы выпить за инфлюенсеров в очередной раз, но об этом через пост.
@cgevent
❤27🔥21👍6👎1
Media is too big
VIEW IN TELEGRAM
Audio as input for LTX2 для Comfy
Все эти персонажи и мемы оживлены по одной входной картинке и звуку.
Мне больше всего зашел дед с 0:53. Нейродед, чо.
Воркфлоу тут:
https://github.com/purzbeats/purz-comfyui-workflows/blob/main/ltx2/ltx2-audio_to_video_extension_5x.json
@cgevent
Все эти персонажи и мемы оживлены по одной входной картинке и звуку.
Мне больше всего зашел дед с 0:53. Нейродед, чо.
Воркфлоу тут:
https://github.com/purzbeats/purz-comfyui-workflows/blob/main/ltx2/ltx2-audio_to_video_extension_5x.json
@cgevent
😁18❤5
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield AI Influencer Studio
Ну за инфлю-мать-их-енсеров. Не чокаясь.
Не знаю какие нейростероиды жрут в Хиггсе и сколько у них там вайбкодинга в быту, но они бахают продукт за продуктом. Причем каждый из этих типапродуктов может быть отдельным стартапом.
Впрочем так раньше и было со стартапами, но в последнее время смертность стартапов немного превышает рождаемость (стараниями Гугла и других взрослых игроков), поэтому Хиггсы делают такой зонтик для всего, что нейрошевелится.
Всем уже приподнадоели нейро-девочки с губами до земли и грудью до небес, поэтому Хиггсы чуют поляну и выкатывают инфлюенсеро-станок с перосонажами слегка "за рамками" привычных шаблонов.
Мне вот зашла квадратная голова с губами (пережиток прошлого). Кому-то ящеры зайдут или мамонты.
Любопытно, что там есть параметр "Вирусность". Это прям примета времени - контент или эстетика не важны, важна вирусность. Хиггсы умело эксплуатируют эту идею.
Ну вопрос удобства конструирования своих персонажей. С максимальной вирусностью, кого нынче трясет креативность..
@cgevent
Ну за инфлю-мать-их-енсеров. Не чокаясь.
Не знаю какие нейростероиды жрут в Хиггсе и сколько у них там вайбкодинга в быту, но они бахают продукт за продуктом. Причем каждый из этих типапродуктов может быть отдельным стартапом.
Впрочем так раньше и было со стартапами, но в последнее время смертность стартапов немного превышает рождаемость (стараниями Гугла и других взрослых игроков), поэтому Хиггсы делают такой зонтик для всего, что нейрошевелится.
Всем уже приподнадоели нейро-девочки с губами до земли и грудью до небес, поэтому Хиггсы чуют поляну и выкатывают инфлюенсеро-станок с перосонажами слегка "за рамками" привычных шаблонов.
Мне вот зашла квадратная голова с губами (пережиток прошлого). Кому-то ящеры зайдут или мамонты.
Любопытно, что там есть параметр "Вирусность". Это прям примета времени - контент или эстетика не важны, важна вирусность. Хиггсы умело эксплуатируют эту идею.
Ну вопрос удобства конструирования своих персонажей. С максимальной вирусностью, кого нынче трясет креативность..
@cgevent
😁26👎6🔥6❤2😱2
Suno сделали морфинг песен.
Он называется Mashup.
Берете две пестни и суете их в Mashup blender и готово!
Потом берете Машап и другой Машап и Машапите их снова - ну вы поняли. Можете сблендивать все со всем.
Более того, там даже есть морфинг лирики! Можно выбрать лирику из любой песни, а можно сказать "замешай тексты".
Для тех у кого есть еще вопросы, поглядите сюда:
https://youtu.be/_iytIBY_EaA
Там все разжевано.
Интересно, если смешать оригинал и кавер или два кавера мы получим новый кавер?
@cgevent
Он называется Mashup.
Берете две пестни и суете их в Mashup blender и готово!
Потом берете Машап и другой Машап и Машапите их снова - ну вы поняли. Можете сблендивать все со всем.
Более того, там даже есть морфинг лирики! Можно выбрать лирику из любой песни, а можно сказать "замешай тексты".
Для тех у кого есть еще вопросы, поглядите сюда:
https://youtu.be/_iytIBY_EaA
Там все разжевано.
Интересно, если смешать оригинал и кавер или два кавера мы получим новый кавер?
@cgevent
1🔥29❤6👎1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
God Is Banned — режиссёр Дима Терем
Всем привет. Я — Дима Терем, самый известный ноунейм Москвы.
Кинорежиссёр, медиа-художник, пишу и играю электронную музыку.
Это история создания фильма God is Banned.
Полная версия на 10 минут тут.
Синопсис:
Макс — режиссёр, который работает с ИИ. Он прилетает на Бали на церемонию фильмов, созданных ИИ. Но связь обрывается — и он теряется в джунглях.
Пока он идёт через влажные тропики, он рассказывает, как создаёт свои миры и персонажей, как заставляет нейросеть чувствовать хоть немного по-настоящему.
Его путь превращается в исповедь, а потом — в манифест.
И когда реальность начинает трещать по швам, Макс задаёт вопрос:
куда всё это ведёт —и останется ли искусство живым, если из него вырезать всё настоящее?
От фестивального задания к короткому метру.
Изначально я делал фильм для ai-фестиваля My Film 48.
Но что-то пошло не так. Или так.
Техзадание от феста было таким:
Главный герой прилетает на Бали, получает от молчаливого незнакомца древнюю карту, карточку с надписью что-то там про бога и какой-то храм на местном языке,
и флаер на церемонию награждения.
Что герой будет делать дальше с этим лутом — решает автор.
На всё про всё — 96 часов.
На вторые сутки производства я понял, что у меня получается не трейлер, а короткий метр.
Проблема нейросетевого контента — это избыточность образов: в моём случае либо резать, либо удлинять. Я выбрал длину — терпеть не могу строгие временные рамки, форматы и вот это всё.
Главная тема, которая меня волнует, — цензура при работе с AI.
Сегодня у одиннадцатилетнего подростка прав и свобод больше, чем у создателя нейроконтента.
Это выражено через метафору острова и вулкана, в кратер которого сбрасывают мусор — символ бесконечного AI-треша, производимого нейрохудожниками.
Главный герой — единственный кожаный, но слегка помятый нейронками.
Прототипом был мой друг Source actor Макаров Максим.
Во время производства фильма он удалённо сам себя снимал на телефон под конкретную сцену — с нужной эмоцией и ракурсом.
Также я использовал его старые архивные фотографии.
Из-за этого образ получился не совсем целостным.
Что под капотом
Veo 3
Klings 2.5
Sora 2 Pro
Nana banana
Suno 5
даунгрейд → апскейл (если у меня есть видео Full HD и 720p: я делаю сначала даунгрейд на 720p общий, а потом апскейл до Full HD через Topaz локально)
Цветокоррекция — сразу в промптах на этапе статики
Промпты и перевод на английский — в GPT,
а сцены, где требовалась жёсткость, делал через Grok.
Постепенно я понял важную вещь:
цензура в GPT и подобных моделях местами гораздо строже, чем в генерации изображения.
Например:
GPT отказался писать промпт про кричащего ребёнка,
Veo 3 тоже отказалась, зато Sora 2 спокойно создала голос ребёнка и видео, которое не понадобилось, анимацию ребёнка сделал уже в Klings.
Вот на таких костылях я собирал всю историю.
Работать с английским языком оказалось кайфово:
фразы стали короче, плотнее, кинематографичнее.
Сроки и бюджет
На нейронки потратил около 50 000 рублей
Производство заняло около пяти дней,
потому что я хотел успеть на другой фестиваль, но его название я уже не помню.
Всем спасибо за внимание. Приятного просмотра.
Полная версия тут
@cgevent
God Is Banned — режиссёр Дима Терем
Всем привет. Я — Дима Терем, самый известный ноунейм Москвы.
Кинорежиссёр, медиа-художник, пишу и играю электронную музыку.
Это история создания фильма God is Banned.
Полная версия на 10 минут тут.
Синопсис:
Макс — режиссёр, который работает с ИИ. Он прилетает на Бали на церемонию фильмов, созданных ИИ. Но связь обрывается — и он теряется в джунглях.
Пока он идёт через влажные тропики, он рассказывает, как создаёт свои миры и персонажей, как заставляет нейросеть чувствовать хоть немного по-настоящему.
Его путь превращается в исповедь, а потом — в манифест.
И когда реальность начинает трещать по швам, Макс задаёт вопрос:
куда всё это ведёт —и останется ли искусство живым, если из него вырезать всё настоящее?
От фестивального задания к короткому метру.
Изначально я делал фильм для ai-фестиваля My Film 48.
Но что-то пошло не так. Или так.
Техзадание от феста было таким:
Главный герой прилетает на Бали, получает от молчаливого незнакомца древнюю карту, карточку с надписью что-то там про бога и какой-то храм на местном языке,
и флаер на церемонию награждения.
Что герой будет делать дальше с этим лутом — решает автор.
На всё про всё — 96 часов.
На вторые сутки производства я понял, что у меня получается не трейлер, а короткий метр.
Проблема нейросетевого контента — это избыточность образов: в моём случае либо резать, либо удлинять. Я выбрал длину — терпеть не могу строгие временные рамки, форматы и вот это всё.
Главная тема, которая меня волнует, — цензура при работе с AI.
Сегодня у одиннадцатилетнего подростка прав и свобод больше, чем у создателя нейроконтента.
Это выражено через метафору острова и вулкана, в кратер которого сбрасывают мусор — символ бесконечного AI-треша, производимого нейрохудожниками.
Главный герой — единственный кожаный, но слегка помятый нейронками.
Прототипом был мой друг Source actor Макаров Максим.
Во время производства фильма он удалённо сам себя снимал на телефон под конкретную сцену — с нужной эмоцией и ракурсом.
Также я использовал его старые архивные фотографии.
Из-за этого образ получился не совсем целостным.
Что под капотом
Veo 3
Klings 2.5
Sora 2 Pro
Nana banana
Suno 5
даунгрейд → апскейл (если у меня есть видео Full HD и 720p: я делаю сначала даунгрейд на 720p общий, а потом апскейл до Full HD через Topaz локально)
Цветокоррекция — сразу в промптах на этапе статики
Промпты и перевод на английский — в GPT,
а сцены, где требовалась жёсткость, делал через Grok.
Постепенно я понял важную вещь:
цензура в GPT и подобных моделях местами гораздо строже, чем в генерации изображения.
Например:
GPT отказался писать промпт про кричащего ребёнка,
Veo 3 тоже отказалась, зато Sora 2 спокойно создала голос ребёнка и видео, которое не понадобилось, анимацию ребёнка сделал уже в Klings.
Вот на таких костылях я собирал всю историю.
Работать с английским языком оказалось кайфово:
фразы стали короче, плотнее, кинематографичнее.
Сроки и бюджет
На нейронки потратил около 50 000 рублей
Производство заняло около пяти дней,
потому что я хотел успеть на другой фестиваль, но его название я уже не помню.
Всем спасибо за внимание. Приятного просмотра.
Полная версия тут
@cgevent
👎34👍9❤6🔥5😱2🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько Вилловсмитов 2026
Продолжаем обновлять наш регулярный рейтинг вилафсмитаф.
Сколько выпишем сегодня?
9.5?
АГИ уже здесь?
Напоминаю, что прошло МЕНЬШЕ ТРЕХ ЛЕТ!
Также напоминаю, что до выхода Sora видеомодели в принципе ничего не понимали про мир вокруг, а тупо генерили картинку за картинкой по изменениям в промпте или другом параметре.
Откусить кусок бургера/спагетти или примять траву, потрогав ея, было в принципе невозможно.
А щас генераторы миров\инфлюенсеров\аватаров и разные видеогенераторы на каждом шагу.
И мы такие.. не ну там кожа не такая и они неискренние какие-то, не верю.
Зажрались баяре...
Скоро Вилловсмитов не хватит на обоих руках, а у вас спагетти слишком альденте на видео..
Приподвзварчиваю...
@cgevent
Продолжаем обновлять наш регулярный рейтинг вилафсмитаф.
Сколько выпишем сегодня?
9.5?
АГИ уже здесь?
Напоминаю, что прошло МЕНЬШЕ ТРЕХ ЛЕТ!
Также напоминаю, что до выхода Sora видеомодели в принципе ничего не понимали про мир вокруг, а тупо генерили картинку за картинкой по изменениям в промпте или другом параметре.
Откусить кусок бургера/спагетти или примять траву, потрогав ея, было в принципе невозможно.
А щас генераторы миров\инфлюенсеров\аватаров и разные видеогенераторы на каждом шагу.
И мы такие.. не ну там кожа не такая и они неискренние какие-то, не верю.
Зажрались баяре...
Скоро Вилловсмитов не хватит на обоих руках, а у вас спагетти слишком альденте на видео..
Приподвзварчиваю...
@cgevent
1👍49🔥15❤7😁6😱2
Anthropic бахнули готовое расширение для Claude Code для VS Code
https://code.claude.com/docs/en/vs-code
Проще, чем печатать в Claude Code плюс поддержка всех фич VSCode.
https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code
@cgevent
https://code.claude.com/docs/en/vs-code
Проще, чем печатать в Claude Code плюс поддержка всех фич VSCode.
https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code
@cgevent
Claude Code Docs
Use Claude Code in VS Code - Claude Code Docs
Install and configure the Claude Code extension for VS Code. Get AI coding assistance with inline diffs, @-mentions, plan review, and keyboard shortcuts.
🔥14👎11
Forwarded from AI Product | Igor Akimov
Inworld запустила версию 1.5 своего лучшего движка текст-в-речь.
Пишут, что это самый быстрый и качественный Realtime AI на рынке, который занял первое место в лидерборде Artificial Analysis.
Главные фишки - супер-низкая задержка
1.5 Mini: <130 мс (идеально для гипер-чувствительных задач).
1.5 Max: <250 мс (максимальное качество). Это в 4 раза быстрее предыдущих поколений.
Плюс модель стала на 30% эмоциональнее и делает на 40% меньше ошибок (WER). Обещают звучание уровня профессиональных актеров озвучки.
Цена вообще сказочная:
Mini: $0.005 за минуту.
Max: $0.01 за минуту.
Поддержка 15 языков (русский есть)
Плюс возможность развертывания On-Prem (на своих серверах) для энтерпрайза.
Отлично! У ElevenLabs и OpenAI появился все более серьезный конкурент.
https://inworld.ai/blog/introducing-inworld-tts-1-5
Пишут, что это самый быстрый и качественный Realtime AI на рынке, который занял первое место в лидерборде Artificial Analysis.
Главные фишки - супер-низкая задержка
1.5 Mini: <130 мс (идеально для гипер-чувствительных задач).
1.5 Max: <250 мс (максимальное качество). Это в 4 раза быстрее предыдущих поколений.
Плюс модель стала на 30% эмоциональнее и делает на 40% меньше ошибок (WER). Обещают звучание уровня профессиональных актеров озвучки.
Цена вообще сказочная:
Mini: $0.005 за минуту.
Max: $0.01 за минуту.
Поддержка 15 языков (русский есть)
Плюс возможность развертывания On-Prem (на своих серверах) для энтерпрайза.
Отлично! У ElevenLabs и OpenAI появился все более серьезный конкурент.
https://inworld.ai/blog/introducing-inworld-tts-1-5
👍37😱5❤1🔥1🙏1