This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенераторы опенсорсныя. Конец видеомарафона желаний.
Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.
Первое место. Хуньянь.
Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.
Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.
Второе место. LTXV.
Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.
Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.
На этом все.
Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.
Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.
@cgevent
Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.
Первое место. Хуньянь.
Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.
Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.
Второе место. LTXV.
Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.
Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.
На этом все.
Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.
Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.
@cgevent
11👍39❤6😱1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Закрываем тему видео.
Ну и как вам вчерашний марафон видеожеланий?
Думаю, что через месяц надо будет повторять, ибо все изменится.
А сейчас вишенка на торте. Протестировал ночью вот эту вот всю Lumina Video.
Я уж не знаю, как они черрипикали, что писали в негативный промпт и на каком коде тестировали, но то, что у них лежит на Гитхабе выдает вот такое. Часть их этого - промпты из MovieGen Bench (девушка в токио и пр) и две танцующие девушки - так он видит nsfw.
Может, когда привезут i2v будет получше, как в случае с EasyAnimate, но пока вот так.
Ах да, 4 секунды генерятся 29 минут на A100 (причем ошибки про ffmpeg writer появляются в самом конце, будете устанавливать, запускайте сначала 1 секунду генерации, чтобы увидеть и пофиксить ошибки).
На двух секундах от жрет 53 гига видеопамяти памяти (в конце, когда собирает видос), вначале ест 17.
Думаю, сэкономил вам время и нервы, навалите-ка звездочек или донатов , вчера утомился немного.
@cgevent
Ну и как вам вчерашний марафон видеожеланий?
Думаю, что через месяц надо будет повторять, ибо все изменится.
А сейчас вишенка на торте. Протестировал ночью вот эту вот всю Lumina Video.
Я уж не знаю, как они черрипикали, что писали в негативный промпт и на каком коде тестировали, но то, что у них лежит на Гитхабе выдает вот такое. Часть их этого - промпты из MovieGen Bench (девушка в токио и пр) и две танцующие девушки - так он видит nsfw.
Может, когда привезут i2v будет получше, как в случае с EasyAnimate, но пока вот так.
Ах да, 4 секунды генерятся 29 минут на A100 (причем ошибки про ffmpeg writer появляются в самом конце, будете устанавливать, запускайте сначала 1 секунду генерации, чтобы увидеть и пофиксить ошибки).
На двух секундах от жрет 53 гига видеопамяти памяти (в конце, когда собирает видос), вначале ест 17.
Думаю, сэкономил вам время и нервы, навалите-ка звездочек или донатов , вчера утомился немного.
@cgevent
16😁55🔥26👍21❤6👎3
Группа инвесторов во главе с Илоном Маском предложила около 97,4 миллиарда долларов за покупку некоммерческой организации behind OpenAI, которую Маск помог основать десять лет назад.
Альман отреагировал мгновенно.
@cgevent
Альман отреагировал мгновенно.
@cgevent
😁32👍27👎12🔥3❤1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos
Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами
- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API
Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами
#voicecloning #tts #text2speech
Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами
- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API
Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами
#voicecloning #tts #text2speech
3🔥46👍9❤2
Недавно писал про новый апскейлер видео от Топаза. Он был в закрытой бете.
Дали воду в хату доступ для всех.
Го тестировать.
Дают немного кредитов.
https://app.topazlabs.com/experiments/starlight
@cgevent
Дали воду в хату доступ для всех.
Го тестировать.
Дают немного кредитов.
https://app.topazlabs.com/experiments/starlight
@cgevent
👍20❤5
Media is too big
VIEW IN TELEGRAM
Если честно, то даже я приподохренел.
Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...
Пришлось смотреть 3 раза.
Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.
Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes
Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI
Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.
От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.
Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.
P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.
@cgevent
Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...
Пришлось смотреть 3 раза.
Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.
Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes
Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI
Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.
От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.
Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.
P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.
@cgevent
🔥165😱38👍25❤24👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас опять новый видеогенератор!
Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.
Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!
Итак, что интересного.
Image2Video из коробки, но это не главное, главное С-Скорость!
Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.
Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.
Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.
Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.
Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).
VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).
Stan Travis, готов? Ждем веса.
Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.
https://github.com/DA-Group-PKU
@cgevent
Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.
Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!
Итак, что интересного.
Image2Video из коробки, но это не главное, главное С-Скорость!
Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.
Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.
Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.
Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.
Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).
VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).
Stan Travis, готов? Ждем веса.
Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.
https://github.com/DA-Group-PKU
@cgevent
🔥41👍9❤7😁2
Вопрос про телеграм. Я голову сломал, но не нашел ответа.
Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.
Вставьте буфер в текстовый редактор, получите link (http://www.link.url)
Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".
Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.
Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"
Вопрос: как Телега это делает? что она запоминает по дороге и где?
Надеюсь внятно написал
@cgevent
Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.
Вставьте буфер в текстовый редактор, получите link (http://www.link.url)
Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".
Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.
Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"
Вопрос: как Телега это делает? что она запоминает по дороге и где?
Надеюсь внятно написал
@cgevent
😁43👍11❤5😱4
Forwarded from Neural Shit
Почти все видеогенераторы не умеют нормально генерировать людей вверх ногами. Если сгенерировать такое видео, а после перевернуть его на 180 градусов, то получается забавный эффект — люди моргают нижним веком + часто испытывают проблемы со ртом.
Сейчас знатно залип на генерации таких криповых уродцев
Сейчас знатно залип на генерации таких криповых уродцев
😁80😱12👍6❤2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Новый уже доступный видео-генератор.
Про Adobe Firefly Video Model мы уже слышали в прошлом году. Адобченко похвастался, привалил видосов в твиттор и ушел в очень закрытую бету.
А сейчас открыл бету. Для всех. За деньги. Можно пробовать.
За 10 баксов в месяц - 20 роликов по пять секунд.
За 30 баксов - 70 роликов.
Будет еще Unlimited Plan (там типа 500 генераций, а потом медленная очередь, но это неточно)
Также пишут: Try it yourself - first 2 video generations are free.
Из фишек: Generative Extend позволяет продлить видео. Пишут также про Fill the Gap - заполнение между клипами.
Scene to Image - 3D болванки можно использовать как референс. Что-то подобное видели в Креа, но тут интересна UX-реализация. Дело очень хорошее.
Только 1080p, 16:9, углы камеры и обзора можно регулировать.
Дичайшая цензура. Плохо, очень плохо генерирует людей. Не хочет
24 кадра в секунду - неплохо.
Translate and Lip Sync - тут 11lаbs поперхнулись немного. Но потом выдохнули: Translate Audio и Translate Video доступны на 20+ языках, а функция синхронизации губ доступна только корпоративным клиентам.
А теперь внимание Адобченко "работает над еще одним видеоинструментом с искусственным интеллектом, который поможет в преподакшене. Этот инструмент, который еще не анонсирован, поможет прийти к единому видению, создав грубый набросок того, как будет выглядеть сцена или ряд сцен."
О, как!
Как пишет Крис Каштанова, морфинг и турнтэйблы генерятся отлично, видно, что в датасете было много этого добра со стоков. "“rotate around” в промпте решает.
Готовьте свои деньги и бессонницу, в общем.
https://blog.adobe.com/en/publish/2025/02/12/meet-firefly-video-model-ai-powered-creation-with-unparalleled-creative-control
@cgevent
Про Adobe Firefly Video Model мы уже слышали в прошлом году. Адобченко похвастался, привалил видосов в твиттор и ушел в очень закрытую бету.
А сейчас открыл бету. Для всех. За деньги. Можно пробовать.
За 10 баксов в месяц - 20 роликов по пять секунд.
За 30 баксов - 70 роликов.
Будет еще Unlimited Plan (там типа 500 генераций, а потом медленная очередь, но это неточно)
Также пишут: Try it yourself - first 2 video generations are free.
Из фишек: Generative Extend позволяет продлить видео. Пишут также про Fill the Gap - заполнение между клипами.
Scene to Image - 3D болванки можно использовать как референс. Что-то подобное видели в Креа, но тут интересна UX-реализация. Дело очень хорошее.
Только 1080p, 16:9, углы камеры и обзора можно регулировать.
Дичайшая цензура. Плохо, очень плохо генерирует людей. Не хочет
24 кадра в секунду - неплохо.
Translate and Lip Sync - тут 11lаbs поперхнулись немного. Но потом выдохнули: Translate Audio и Translate Video доступны на 20+ языках, а функция синхронизации губ доступна только корпоративным клиентам.
А теперь внимание Адобченко "работает над еще одним видеоинструментом с искусственным интеллектом, который поможет в преподакшене. Этот инструмент, который еще не анонсирован, поможет прийти к единому видению, создав грубый набросок того, как будет выглядеть сцена или ряд сцен."
О, как!
Как пишет Крис Каштанова, морфинг и турнтэйблы генерятся отлично, видно, что в датасете было много этого добра со стоков. "“rotate around” в промпте решает.
Готовьте свои деньги и бессонницу, в общем.
https://blog.adobe.com/en/publish/2025/02/12/meet-firefly-video-model-ai-powered-creation-with-unparalleled-creative-control
@cgevent
👍26❤9🔥8👎1
Media is too big
VIEW IN TELEGRAM
Я подсобрал инфо про Firefly Video Model.
Довольно пластиковый лук. Очень характерный для Адобовских моделей.
Людей и портреты не получится. Хотя дети просачиваются.
По качеству (и охвату тем) очень далеко до Veo2. До Клинга думаю тоже, но надо смотреть.
Возможно для моушен дизайна зайдет, ловкие морфы и облеты, но мало данных пока.
@cgevent
Довольно пластиковый лук. Очень характерный для Адобовских моделей.
Людей и портреты не получится. Хотя дети просачиваются.
По качеству (и охвату тем) очень далеко до Veo2. До Клинга думаю тоже, но надо смотреть.
Возможно для моушен дизайна зайдет, ловкие морфы и облеты, но мало данных пока.
@cgevent
👍20❤4
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.
Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.
Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.
GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).
GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.
Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.
GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).
GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
X (formerly Twitter)
Sam Altman (@sama) on X
OPENAI ROADMAP UPDATE FOR GPT-4.5 and GPT-5:
We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings.
We want AI to “just work” for you; we realize how complicated our model and product offerings…
We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings.
We want AI to “just work” for you; we realize how complicated our model and product offerings…
🔥70👍25❤12👎2
Оставлю это здесь для гиков. Их есть в канале, судя по коментам.
This SDK can be used to integrate GitHub Copilot into any editor or IDE. See the documentation on the package to get started.
https://github.blog/changelog/2025-02-10-copilot-language-server-sdk-is-now-available/
This SDK can be used to integrate GitHub Copilot into any editor or IDE. See the documentation on the package to get started.
https://github.blog/changelog/2025-02-10-copilot-language-server-sdk-is-now-available/
The GitHub Blog
Copilot Language Server SDK is now available - GitHub Changelog
We are excited to announce that the Copilot Language Server SDK is now publicly available. This enables any editor or IDE to integrate with GitHub Copilot via the language server…
🔥22👍8