Месть джунов: Revenge of the junior developer
Интернет взрывается вот такой статьей про вайбкодинг:
И автор выступает очень ортогонально популярному мнению, что джуны вымрут, а сеньоры останутся.
Он переворачивает гипотезу в такую мысль: пока сеньоры тупят со своим скептицизмом и спорами с реальностью. Джуны адаптируются и воспринимают это не как угрозу а как норму, потому что еще не привыкли к строгим рамкам.
А вообще я бы обобщил статью до следующего утверждения: возможно, что ваше программистское прошлое (или настоящее) будет вам только мешать. Вайб-кодинг далек от кодинга. И преимущество будут иметь люди с неким характерным складом мышления и способностью ОЧЕНЬ быстро адаптироваться.
Ниже саммари:
1. Vibe coding — это когда ты принципиально не пишешь руками ни строчки, а просто описываешь задачу ИИ и кайфуешь, пока он сам всё генерит. В прототипах можно вообще не смотреть, а когда до продакшена — пристально следить.
2. Есть шесть этапов развития: от ручного кода до «флотов» ИИ‑агентов к 2026 г.
Традиционное ручное кодирование (2022) — вручную пишем весь код.
Completions‑based (2023) — автодополнения (IDE‑сниппеты, Copilot).
Chat‑based (2024) — двунаправленный чат с LLM внутри IDE.
Coding agents (2025 начало) — автономные агенты, выполняющие задачи целиком.
Agent clusters (2025 конец) — параллельное управление группами агентов.
Agent fleets (2026) — иерархии агентов под надзором «супер‑агентов».
Каждая следующая волна ускоряет тебя примерно в 5 раз. Кто не сел в последний вагон — останется на рельсах автодополнений.
3. Агенты — это как бесплатные верблюды в пустыне: круто, но сначала харкают, кусаются и жрут твой бюджет. Но когда ты привыкаешь, уже не можешь без них жить. Они сами лезут в JIRA, копаются в коде, тесты гоняют, баги фиксят. Ты только их направляешь и ешь чипсы.
4. Ограничения: сегодня агенты ещё не настолько умны, чтобы проглотить огромные задачи, их надо кормить задачками поменьше и смотреть, когда застрянут. Но скоро придут «супер‑агенты», которые будут запускать рой агентов и сами следить за ними.
5. Организация: в 2026 г. разработчики станут словно линейными менеджерами, руководя группами ИИ‑агентов. ROI при этом улетает в космос, а отставшие разработчики — на свалку истории.
6. Месть джуниора: когда младшие товарищи возьмут все эти фишки, обгонят старую гвардию и окажутся на коне, оставив тех, кто «писал руками», с носом.
https://sourcegraph.com/blog/revenge-of-the-junior-developer
Я бы заменил слово джуниоры на просто "люди с новым мышлением".
@cgevent
Интернет взрывается вот такой статьей про вайбкодинг:
И автор выступает очень ортогонально популярному мнению, что джуны вымрут, а сеньоры останутся.
Он переворачивает гипотезу в такую мысль: пока сеньоры тупят со своим скептицизмом и спорами с реальностью. Джуны адаптируются и воспринимают это не как угрозу а как норму, потому что еще не привыкли к строгим рамкам.
А вообще я бы обобщил статью до следующего утверждения: возможно, что ваше программистское прошлое (или настоящее) будет вам только мешать. Вайб-кодинг далек от кодинга. И преимущество будут иметь люди с неким характерным складом мышления и способностью ОЧЕНЬ быстро адаптироваться.
Ниже саммари:
1. Vibe coding — это когда ты принципиально не пишешь руками ни строчки, а просто описываешь задачу ИИ и кайфуешь, пока он сам всё генерит. В прототипах можно вообще не смотреть, а когда до продакшена — пристально следить.
2. Есть шесть этапов развития: от ручного кода до «флотов» ИИ‑агентов к 2026 г.
Традиционное ручное кодирование (2022) — вручную пишем весь код.
Completions‑based (2023) — автодополнения (IDE‑сниппеты, Copilot).
Chat‑based (2024) — двунаправленный чат с LLM внутри IDE.
Coding agents (2025 начало) — автономные агенты, выполняющие задачи целиком.
Agent clusters (2025 конец) — параллельное управление группами агентов.
Agent fleets (2026) — иерархии агентов под надзором «супер‑агентов».
Каждая следующая волна ускоряет тебя примерно в 5 раз. Кто не сел в последний вагон — останется на рельсах автодополнений.
3. Агенты — это как бесплатные верблюды в пустыне: круто, но сначала харкают, кусаются и жрут твой бюджет. Но когда ты привыкаешь, уже не можешь без них жить. Они сами лезут в JIRA, копаются в коде, тесты гоняют, баги фиксят. Ты только их направляешь и ешь чипсы.
4. Ограничения: сегодня агенты ещё не настолько умны, чтобы проглотить огромные задачи, их надо кормить задачками поменьше и смотреть, когда застрянут. Но скоро придут «супер‑агенты», которые будут запускать рой агентов и сами следить за ними.
5. Организация: в 2026 г. разработчики станут словно линейными менеджерами, руководя группами ИИ‑агентов. ROI при этом улетает в космос, а отставшие разработчики — на свалку истории.
6. Месть джуниора: когда младшие товарищи возьмут все эти фишки, обгонят старую гвардию и окажутся на коне, оставив тех, кто «писал руками», с носом.
https://sourcegraph.com/blog/revenge-of-the-junior-developer
Я бы заменил слово джуниоры на просто "люди с новым мышлением".
@cgevent
Sourcegraph
Revenge of the junior developer | Sourcegraph Blog
The latest installment from Steve Yegge on viiiiibe coding and what that means for developer jobs.
4👍97🔥28😁14❤10👎10
Media is too big
VIEW IN TELEGRAM
Нейропрожарка.
Нейродеморил от подписчика Юрия.
В принципе, деморилы, трейлеры, нарезки больше всего подходят для генератива. Ибо быстрые склейки, короткие планы, минимум требований к монтажу.
В обличие от обычных деморилов, где нарезаются или подрендериваются уже готовые работы студии или автора, Юрий сгенерил "гипотетический" деморил - полностью сделал с нуля демонстрацию собственных нейровозможностей, а не нарезал готовое.
Цитирую:
После нескольких сделанных ИИ роликов на заказ, решил, что нужно создать свой шоурил, который продемонстрирует различные вариации использования ИИ в рекламе.
Все кадры создал в Reve. Оживлял в трех нейронках:
* Gen4
* Kling 1.6 (2.0 для динамичных кадров)
* Higgsfield
Если суммировать все часы, то делал примерно полторы недели. Но половина срока ушло на звуковую дорожку(звук со стоков), я сделал 6 разных вариантов, и потом еще несколько дней крутил их, думал, какая лучше :))
Доп. инструменты: фотошоп с генеративной заливкой, Topaz для апскейла в 4к
По затратам примерно 300$.
Обсуждаем в коментах.
@cgevent
Нейродеморил от подписчика Юрия.
В принципе, деморилы, трейлеры, нарезки больше всего подходят для генератива. Ибо быстрые склейки, короткие планы, минимум требований к монтажу.
В обличие от обычных деморилов, где нарезаются или подрендериваются уже готовые работы студии или автора, Юрий сгенерил "гипотетический" деморил - полностью сделал с нуля демонстрацию собственных нейровозможностей, а не нарезал готовое.
Цитирую:
После нескольких сделанных ИИ роликов на заказ, решил, что нужно создать свой шоурил, который продемонстрирует различные вариации использования ИИ в рекламе.
Все кадры создал в Reve. Оживлял в трех нейронках:
* Gen4
* Kling 1.6 (2.0 для динамичных кадров)
* Higgsfield
Если суммировать все часы, то делал примерно полторы недели. Но половина срока ушло на звуковую дорожку(звук со стоков), я сделал 6 разных вариантов, и потом еще несколько дней крутил их, думал, какая лучше :))
Доп. инструменты: фотошоп с генеративной заливкой, Topaz для апскейла в 4к
По затратам примерно 300$.
Обсуждаем в коментах.
@cgevent
👍84🔥54❤9👎9😁1
OpenAI обновили документацию про то, какую модель оптимально использовать в том или ином случае.
GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.
GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.
o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.
o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.
o3 - самый мощный движок для сложного, многоступенчатого анализа.
o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.
https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits
Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.
@cgevent
GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.
GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.
o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.
o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.
o3 - самый мощный движок для сложного, многоступенчатого анализа.
o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.
https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits
Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.
@cgevent
❤36👍20😁9🔥7👎6😱2
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
FramePack: lllyasviel снова на связи и выпустил F1 версию своего видеогенератора FramePack.
F1 здесь значит forward pass, то есть AI предсказывает только будущие кадры без обратного прохода. Это накладывает на модель меньше ограничений.
В итоге вариативность генераций и динамичность выросли — камера теперь должна легче двигаться.
Ещё Жанг пишет, что встроил технологию анти-дрифтинг, предотвращающую накопление ошибок. Вероятно для уменьшения количества артефактов.
На гитхабе теперь появился отдельный скрипт demo_gradio_f1.py для запуска F1, и инструкции как запустить тем, кто поставил портативную сборку. Вместе с этим F1 появилась и на хаггинге.
Если вы через git pull обновляете локальную репу на винде, но при запуске нужного скрипта всё равно запускается обычный FramePack — сделайте новую папку и поставьте новый FramePack рядом со старым. У нового в заголовке должно быть написано F1.
На тестах по скорости и потреблению VRAM ничего не изменилось, а вот динамичность действительно улучшилась. Причём у быстро двигающихся объектов детали могут жеваться, так что важно не переборщить. Камера теперь легче двигается, например, для прокрутки вокруг персонажа. Но, не смотря на то, что артефактов стало меньше, места сшивания кадров могут быть заметны.
Pinokio ещё пока не обновился.
Сайт
Гитхаб
Готовая сборка
Установка (Pinokio)
Comfy
Про FramePack
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
F1 здесь значит forward pass, то есть AI предсказывает только будущие кадры без обратного прохода. Это накладывает на модель меньше ограничений.
В итоге вариативность генераций и динамичность выросли — камера теперь должна легче двигаться.
Ещё Жанг пишет, что встроил технологию анти-дрифтинг, предотвращающую накопление ошибок. Вероятно для уменьшения количества артефактов.
На гитхабе теперь появился отдельный скрипт demo_gradio_f1.py для запуска F1, и инструкции как запустить тем, кто поставил портативную сборку. Вместе с этим F1 появилась и на хаггинге.
Если вы через git pull обновляете локальную репу на винде, но при запуске нужного скрипта всё равно запускается обычный FramePack — сделайте новую папку и поставьте новый FramePack рядом со старым. У нового в заголовке должно быть написано F1.
На тестах по скорости и потреблению VRAM ничего не изменилось, а вот динамичность действительно улучшилась. Причём у быстро двигающихся объектов детали могут жеваться, так что важно не переборщить. Камера теперь легче двигается, например, для прокрутки вокруг персонажа. Но, не смотря на то, что артефактов стало меньше, места сшивания кадров могут быть заметны.
Pinokio ещё пока не обновился.
Сайт
Гитхаб
Готовая сборка
Установка (Pinokio)
Comfy
Про FramePack
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍11
Фантомченко вышел из тени.
Тренировать Лоры для видеомоделей - занятие не для каждого. У коммерческих моделей давно появились "однокнопочные решения" типа Kling elements, pika ingredients и новоиспеченные GEN-4 References.
Вгружаете фотки, видеогенератор переносит их на видео.
В феврале писал про Фантом - опенсорсную ответочку от Bytedance - как бы нашлепка над Wan - a unified video generation framework for single and multi-subject references, built on existing text-to-video and image-to-video architectures.
Но ни кода, ни подробностей не было.
И тут, о чудо, гитхаб обновился и там теперь есть код и инструкции.
Видосы выглядят наряднейше, переносить на видео можно не только лицо или объект, вгружать НЕСКОЛЬКО изображений. Меня больше всего порадовали видосы-переодеваторы, о которых я тут регулярно толкую. Можно задавать до 4 входных картинок.
Но в отличие от коммерческих решений, тут вам придется упороться в установку: скачать веса малого WAN 2.1 1.3B, скачать веса самого фантома Phantom-Wan-1.3B и попотеть с флагами --ref_image. Хотя Киджай уже изваял враппер.
Проблема в том, что весов Фантома для "Большого Вани" на 14B пока нет, поэтому качества ждать не приходится.
Но сам тренд на быстрое повторение фич коммерческих генераторов в опен-сорсе - радует.
Код и веса тут:
https://github.com/Phantom-video/Phantom
@cgevent
Тренировать Лоры для видеомоделей - занятие не для каждого. У коммерческих моделей давно появились "однокнопочные решения" типа Kling elements, pika ingredients и новоиспеченные GEN-4 References.
Вгружаете фотки, видеогенератор переносит их на видео.
В феврале писал про Фантом - опенсорсную ответочку от Bytedance - как бы нашлепка над Wan - a unified video generation framework for single and multi-subject references, built on existing text-to-video and image-to-video architectures.
Но ни кода, ни подробностей не было.
И тут, о чудо, гитхаб обновился и там теперь есть код и инструкции.
Видосы выглядят наряднейше, переносить на видео можно не только лицо или объект, вгружать НЕСКОЛЬКО изображений. Меня больше всего порадовали видосы-переодеваторы, о которых я тут регулярно толкую. Можно задавать до 4 входных картинок.
Но в отличие от коммерческих решений, тут вам придется упороться в установку: скачать веса малого WAN 2.1 1.3B, скачать веса самого фантома Phantom-Wan-1.3B и попотеть с флагами --ref_image. Хотя Киджай уже изваял враппер.
Проблема в том, что весов Фантома для "Большого Вани" на 14B пока нет, поэтому качества ждать не приходится.
Но сам тренд на быстрое повторение фич коммерческих генераторов в опен-сорсе - радует.
Код и веса тут:
https://github.com/Phantom-video/Phantom
@cgevent
🔥22👍13❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Интернетик полон новых забав.
Подаем на вход chatGPT изображение, говорим "опиши его и сделай картинку по описанию". И так 73 раза.
Получается игра в испорченный телефон. Картинка "уплывает" от оригинала.
Я игрался с этим примерно полтора года назад, когда в chatGPT еще был DALL·E 3. Было интересно поглядеть, в какие архетипы он уводит картинку - писал скрипт на Autohotkey, который сохранял картинку и сувал ея обратно в chatGPT.
Обнаруживались уход в цветы из чорного квадрата, подъем камеры наверх, определенные ракурсы и библейские облака.
Сейчас описание и генерация картинок стали точнее. Но мне вот за ИИ обидно. Попробуйте кожаному на словах описать картинку и попросить нарисовать по словесному описанию, потом показать картинку другому кожаному, и попросить его описать, ну и так далее. Думаю хватит двух итераций, чтобы "напеть Шаляпина".
Так что шутка не очень смешная.
Но занимательная..
@cgevent
Подаем на вход chatGPT изображение, говорим "опиши его и сделай картинку по описанию". И так 73 раза.
Получается игра в испорченный телефон. Картинка "уплывает" от оригинала.
Я игрался с этим примерно полтора года назад, когда в chatGPT еще был DALL·E 3. Было интересно поглядеть, в какие архетипы он уводит картинку - писал скрипт на Autohotkey, который сохранял картинку и сувал ея обратно в chatGPT.
Обнаруживались уход в цветы из чорного квадрата, подъем камеры наверх, определенные ракурсы и библейские облака.
Сейчас описание и генерация картинок стали точнее. Но мне вот за ИИ обидно. Попробуйте кожаному на словах описать картинку и попросить нарисовать по словесному описанию, потом показать картинку другому кожаному, и попросить его описать, ну и так далее. Думаю хватит двух итераций, чтобы "напеть Шаляпина".
Так что шутка не очень смешная.
Но занимательная..
@cgevent
👍52😁27🔥9❤3
Google: Белое зеркало.
Google запустила инициативу 100 Zeros по созданию фильмов и телешоу
Новое подразделение в сотрудничестве Range Media Partners собирается искать проекты, которые сможет профинансировать компания.
Это не студия или продакшен, это скорее (маркетинг) фонд, который призван порешать несколько задач:
- привлечь внимание к своим новым технологическим продуктам и услугам, в том числе продуктам искусственного интеллекта.
- попродвигать андроид и возможности съемки части контента на телефоны
- сделать "противовес" страшилкам о том, что ИИ и технологии нас все прикончат. Белое зеркало.
- сделать это тонко, не через Youtube, а через продвижение бренда 100 Zeros в молодежь (100z-зумеры)
Одним из первых проектов 100 Zeros стал фильм ужасов «Cuckoo» («Кукушка»), который вышел в 2024 году. Логотип 100 Zeros появился в начальных титрах.
Также 100 Zeroes уже педалирует использование ИИ в кино. В прошлом месяце Google и Range Media объявили о партнерстве «AI On Screen», которое будет финансировать короткометражные фильмы об ИИ, а затем даст зеленый свет нескольким избранным фильмам на полнометражные фильмы.
В общем, пока Альтман ездит в Голливуд, Гугл тоже на месте не сидит.
Как по мне, это прекрасно. Мы тут без всяких фондов занимаемся нейропрожаркой. В пору конкурсы делать, как настоящиеинфоцыгане маркетологи.
https://www.businessinsider.com/google-tv-movie-hollywood-boost-tech-image-hundred-zeros-2025-5
@cgevent
Google запустила инициативу 100 Zeros по созданию фильмов и телешоу
Новое подразделение в сотрудничестве Range Media Partners собирается искать проекты, которые сможет профинансировать компания.
Это не студия или продакшен, это скорее (маркетинг) фонд, который призван порешать несколько задач:
- привлечь внимание к своим новым технологическим продуктам и услугам, в том числе продуктам искусственного интеллекта.
- попродвигать андроид и возможности съемки части контента на телефоны
- сделать "противовес" страшилкам о том, что ИИ и технологии нас все прикончат. Белое зеркало.
- сделать это тонко, не через Youtube, а через продвижение бренда 100 Zeros в молодежь (100z-зумеры)
Одним из первых проектов 100 Zeros стал фильм ужасов «Cuckoo» («Кукушка»), который вышел в 2024 году. Логотип 100 Zeros появился в начальных титрах.
Также 100 Zeroes уже педалирует использование ИИ в кино. В прошлом месяце Google и Range Media объявили о партнерстве «AI On Screen», которое будет финансировать короткометражные фильмы об ИИ, а затем даст зеленый свет нескольким избранным фильмам на полнометражные фильмы.
В общем, пока Альтман ездит в Голливуд, Гугл тоже на месте не сидит.
Как по мне, это прекрасно. Мы тут без всяких фондов занимаемся нейропрожаркой. В пору конкурсы делать, как настоящие
https://www.businessinsider.com/google-tv-movie-hollywood-boost-tech-image-hundred-zeros-2025-5
@cgevent
🔥39👍9👎3❤2😁1
Нейропрожарка
Подписчик Роман прислал работы на прожарку:
Это две части - отсылка к криминальным драмам и России 90 х, посмотрите полностью сделано через нейросети, естественно.
Для первой части я использовал в основном Reve, немного Flux. Для видео я использовал Kling 1.6, и некоторые сцены Veo 2.По времени ушло около двух недель, но естественно не целыми днями делал, в основном по вечерам и в выходные. После первой части приступил сразу ко второй по времени заняло чуть больше), но опять же по той же схеме, вечером после работы и в выходные дни полноценно. Для второй части я уже использовал в сценах с бумером чат ГПТ, для того чтобы рисовать разные ракурсы той самой поездки, а также использовал всё тот же Reve и немного Flux. Для видео уже использовал во многих сценах Kling 2.0, плюс 1.6.Монтировал всё в СapСut). Итоговые видео апскейлил в топазе локально. Некоторые изображения допиливал в фотошопе. Сами сюжеты незамысловаты, идея их реализовать появилась с момента появления нейронок , рад что сейчас есть возможность всё это реализовывать) Сами сцены убийства приходилось раз за разом менять, т.к не всё можно реализовать как хотелось бы, но важно ведь донести сюжет так, чтобы его поняли.
Мои пять нейрокопеек: когда идет сторителлинг, монтаж становится очень важным. Во втором клипе больше демонстрации генераций, чем сторителлинга. Его можно урезать раз в 5.
На монтаже есть очень грубое правило: из 10 минут отснятого материала, оставляем 1 минуту. Иногда даже 10 секунд.
Имеет смысл применять его к отобранным генерациям. Резать, выкидывать, кромсать.
Хотя из 5-8 секунд много не накромсаешь конечно.
В общем монтаж решает, внимание зрителя дорого и коротко.
@cgevent
Подписчик Роман прислал работы на прожарку:
Это две части - отсылка к криминальным драмам и России 90 х, посмотрите полностью сделано через нейросети, естественно.
Для первой части я использовал в основном Reve, немного Flux. Для видео я использовал Kling 1.6, и некоторые сцены Veo 2.По времени ушло около двух недель, но естественно не целыми днями делал, в основном по вечерам и в выходные. После первой части приступил сразу ко второй по времени заняло чуть больше), но опять же по той же схеме, вечером после работы и в выходные дни полноценно. Для второй части я уже использовал в сценах с бумером чат ГПТ, для того чтобы рисовать разные ракурсы той самой поездки, а также использовал всё тот же Reve и немного Flux. Для видео уже использовал во многих сценах Kling 2.0, плюс 1.6.Монтировал всё в СapСut). Итоговые видео апскейлил в топазе локально. Некоторые изображения допиливал в фотошопе. Сами сюжеты незамысловаты, идея их реализовать появилась с момента появления нейронок , рад что сейчас есть возможность всё это реализовывать) Сами сцены убийства приходилось раз за разом менять, т.к не всё можно реализовать как хотелось бы, но важно ведь донести сюжет так, чтобы его поняли.
Мои пять нейрокопеек: когда идет сторителлинг, монтаж становится очень важным. Во втором клипе больше демонстрации генераций, чем сторителлинга. Его можно урезать раз в 5.
На монтаже есть очень грубое правило: из 10 минут отснятого материала, оставляем 1 минуту. Иногда даже 10 секунд.
Имеет смысл применять его к отобранным генерациям. Резать, выкидывать, кромсать.
Хотя из 5-8 секунд много не накромсаешь конечно.
В общем монтаж решает, внимание зрителя дорого и коротко.
@cgevent
🔥52👎30👍17❤9😱6
HeyGen молодцы, конечно.
Это не клонирование голоса, это скорее style transfer, они называют это Voice Mirroring - копирование эмоций, интонаций, акцентов, "характера" голоса. Можно сказать, что это кавер на голос.
Находится под кнопкой "Try new editor".
@cgevent
Это не клонирование голоса, это скорее style transfer, они называют это Voice Mirroring - копирование эмоций, интонаций, акцентов, "характера" голоса. Можно сказать, что это кавер на голос.
Находится под кнопкой "Try new editor".
@cgevent
1🔥94❤9😱4
This media is not supported in your browser
VIEW IN TELEGRAM
ACE-Step: Новый опен-сорсный генератор музыки. Stable Diffusion moment для музыки.
Существующие методы сталкиваются с присущим им компромиссом между скоростью генерации, музыкальной связностью и управляемостью. Например, модели на основе LLM (например, Yue, SongGen) отлично справляются с текстами, но страдают от медленного инференса и структурных артефактов. Диффузионные модели (например, DiffRhythm), с другой стороны, обеспечивают более быстрый инференс, но часто не имеют структурной связности на больших длительностях.
Вместо того чтобы создавать еще один сквозной генератор для преобразования текста в музыку, мы хотим создать базовую модель для музыкального ИИ: быструю, универсальную, эффективную, но гибкую архитектуру, которая позволяет легко обучать подзадачи поверх нее. Это открывает путь для разработки мощных инструментов, которые легко интегрируются в творческие рабочие процессы музыкальных исполнителей, продюсеров и создателей контента. Одним словом, мы стремимся создать Stable Diffusion moment для музыки.
Есть демо, можно погенерить, а на странице проекта есть примеры.
Это, конечно, не Суно, но сам замысел и амбиции мне нравятся. Сделать Stable Diffusion для музыки, чтобы потом увешать его лорами и файнтюнами - звучит круто.
Смотрите, что у них в планах:
Release RapMachine lora
Release ControlNet training code
Release Singing2Accompaniment controlnet
https://ace-step.github.io/
Код?
Апажалста: https://github.com/ace-step/ACE-Step
Попробовать?
Тут: https://huggingface.co/spaces/ACE-Step/ACE-Step
@cgevent
Существующие методы сталкиваются с присущим им компромиссом между скоростью генерации, музыкальной связностью и управляемостью. Например, модели на основе LLM (например, Yue, SongGen) отлично справляются с текстами, но страдают от медленного инференса и структурных артефактов. Диффузионные модели (например, DiffRhythm), с другой стороны, обеспечивают более быстрый инференс, но часто не имеют структурной связности на больших длительностях.
Вместо того чтобы создавать еще один сквозной генератор для преобразования текста в музыку, мы хотим создать базовую модель для музыкального ИИ: быструю, универсальную, эффективную, но гибкую архитектуру, которая позволяет легко обучать подзадачи поверх нее. Это открывает путь для разработки мощных инструментов, которые легко интегрируются в творческие рабочие процессы музыкальных исполнителей, продюсеров и создателей контента. Одним словом, мы стремимся создать Stable Diffusion moment для музыки.
Есть демо, можно погенерить, а на странице проекта есть примеры.
Это, конечно, не Суно, но сам замысел и амбиции мне нравятся. Сделать Stable Diffusion для музыки, чтобы потом увешать его лорами и файнтюнами - звучит круто.
Смотрите, что у них в планах:
Release RapMachine lora
Release ControlNet training code
Release Singing2Accompaniment controlnet
https://ace-step.github.io/
Код?
Апажалста: https://github.com/ace-step/ACE-Step
Попробовать?
Тут: https://huggingface.co/spaces/ACE-Step/ACE-Step
@cgevent
4🔥40😱12👍11❤3
Израильтяне из Lightricks бахнули "большую" модель LTX VIDEO на 13B параметров. Выложили веса и код.
Новая модель, получившая название LTX VIDEO-13B, включает 13 миллиардов параметров с открытым исходным кодом и претендует на то, чтобы генерировать высококачественное видео за меньшую цену, чем конкуренты вроде OpenAI's
Sora, Google и другие лидеры в области генеративного видео. По словам Lightricks, ее модель может давать
результаты, сопоставимые с системами высшего уровня, при этом ее обучение стоит всего десятки миллионов долларов.
Стоимость рендеринга видео с использованием этой модели составляет всего несколько центов за ролик, что может
стать серьезным прорывом в области доступного видео с искусственным интеллектом.
До сих пор LTX прославился своей скоростью, заимствованием кода у Вана и так себе качеством.
А щас они целят в "Deepseek moment" - такой у них маркетинг в интернетике.
Но Большую Модель на 13B надо тестировать, а то они вон собрались побивать Сору и Вео.
Го тестировать.
Модель: https://huggingface.co/Lightricks/LTX-Video
Код: https://github.com/Lightricks/LTX-Video?tab=readme-ov-file#news
Попробовать модель уже можно у них на сайте:
https://app.ltx.studio/
При этом сам сайт позволяет выбрать в качестве генератора еще и Veo2
Мне вообще непонятно их позиционирование.
@cgevent
Новая модель, получившая название LTX VIDEO-13B, включает 13 миллиардов параметров с открытым исходным кодом и претендует на то, чтобы генерировать высококачественное видео за меньшую цену, чем конкуренты вроде OpenAI's
Sora, Google и другие лидеры в области генеративного видео. По словам Lightricks, ее модель может давать
результаты, сопоставимые с системами высшего уровня, при этом ее обучение стоит всего десятки миллионов долларов.
Стоимость рендеринга видео с использованием этой модели составляет всего несколько центов за ролик, что может
стать серьезным прорывом в области доступного видео с искусственным интеллектом.
До сих пор LTX прославился своей скоростью, заимствованием кода у Вана и так себе качеством.
А щас они целят в "Deepseek moment" - такой у них маркетинг в интернетике.
Но Большую Модель на 13B надо тестировать, а то они вон собрались побивать Сору и Вео.
Го тестировать.
Модель: https://huggingface.co/Lightricks/LTX-Video
Код: https://github.com/Lightricks/LTX-Video?tab=readme-ov-file#news
Попробовать модель уже можно у них на сайте:
https://app.ltx.studio/
При этом сам сайт позволяет выбрать в качестве генератора еще и Veo2
Мне вообще непонятно их позиционирование.
@cgevent
ctech
Lightricks aims for its Deepseek moment with open-source AI video model
The Israeli unicorn debuts LTX VIDEO-13B, a low-cost, high-speed generative video tool it hopes can rival OpenAI and Google.
❤13🔥9😁3👍2👎1
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
👍26🔥12❤5👎1