This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Wan Effects!
Коллекция Wan2.1 14B 480p I2V LoRAs от Remade AI (там один чувак - Рехан Шейх).
Вдумайтесь, пару месяцев назад Пика вирусилась первыми эффектами типа сдавливания или надувания, а теперь мы видим все это в опенсорсе, в гораздо большем количестве, вполне себе качестве, а самое главное с бесконечными возможностями кастомизации.
Так и хочется взорать голосом двухминутного доктора "В интересное время живем\Куда катится мир"
И тут именно image2Video, что круто.
Будьте внимательны, у вани для каждой модели свои Лоры.
Прокликайте все лоры, там примеры промптов.
https://huggingface.co/collections/Remade-AI/wan21-14b-480p-i2v-loras-67d0e26f08092436b585919b
И вот, нашел демо, пока работает:
https://huggingface.co/spaces/multimodalart/remade-effects
Го пробовать и хохотать.
@cgevent
Коллекция Wan2.1 14B 480p I2V LoRAs от Remade AI (там один чувак - Рехан Шейх).
Вдумайтесь, пару месяцев назад Пика вирусилась первыми эффектами типа сдавливания или надувания, а теперь мы видим все это в опенсорсе, в гораздо большем количестве, вполне себе качестве, а самое главное с бесконечными возможностями кастомизации.
Так и хочется взорать голосом двухминутного доктора "В интересное время живем\Куда катится мир"
И тут именно image2Video, что круто.
Будьте внимательны, у вани для каждой модели свои Лоры.
Прокликайте все лоры, там примеры промптов.
https://huggingface.co/collections/Remade-AI/wan21-14b-480p-i2v-loras-67d0e26f08092436b585919b
И вот, нашел демо, пока работает:
https://huggingface.co/spaces/multimodalart/remade-effects
Го пробовать и хохотать.
@cgevent
1🔥28👍11❤5👎1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
А также подтягиваются первые аналоги контролНетов для Wan.
Это не контролНеты, как мы их любим, это Лоры и это скорее аналог Flux Tools - набора Лор для контроля картинки.
Пока только Лора Tile и только для маленькой модели 1.3B.
Но ждем ответок от других команд и разработчиков.
https://huggingface.co/spacepxl/Wan2.1-control-loras
@cgevent
Это не контролНеты, как мы их любим, это Лоры и это скорее аналог Flux Tools - набора Лор для контроля картинки.
Пока только Лора Tile и только для маленькой модели 1.3B.
Но ждем ответок от других команд и разработчиков.
https://huggingface.co/spacepxl/Wan2.1-control-loras
@cgevent
🔥24❤9👍5
Если кому интересно, то chatGPT c моделью 4.5 стал принимать на вход картинки. Более того, если ему дать на вход видео, как файл, он может его описать.
Но генерит по прежнему в дряхлом dalle-3.
@cgevent
Но генерит по прежнему в дряхлом dalle-3.
@cgevent
👍48🔥13❤3
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
😁28❤10👍7
Apple добавит функцию синхронного перевода в AirPods
Так, по крайней мере, я перевожу Live Translation.
Подробностей минимум.
В конце года.
Только IOS 19.
Если приподнакинуть с дивана, то синхрон в каком-то виде есть уже у Метачки в умных очках, у Самсунга прямо в телефонах (on device, без доступа в облако) и даже в ушах Pixel Buds от Гугла.
Но где Пиксел Бадс и где Айр Подс. Про первые мало кто слышал, вторые уже как ксерокс.
Тут интересны вопрос в реальной востребованности такой фичи на b2c рынке. В путешествиях, на конференциях - да. Но сколько времени вы путешествуете и ходите на международные конференции.
В принципе можно ютюб смотреть в таких наушниках через колонку и микрофон.
Интересно, во что превратится синхронный перевод через полгода. В принципе задача уже решенная, и тут интересно как и кем он будет продуктово упакован. Весь онлайн-конференсинг просмотр, думаю, будет оснащен встроенным переводом на лету (уже). Стриминги тоже.
Остаются живые мультиязычные взаимодействия.
P/S/ Памятуя, как Эппле облажалась с Apple Intelligence, через полгода нам могут опять показать демо и отложить на след год.
И как, интересно, там с цензурой? Жопа есть, а слова "жопа" нет?
https://www.theverge.com/news/629506/apple-airpods-live-translation-ios-19
Так, по крайней мере, я перевожу Live Translation.
Подробностей минимум.
В конце года.
Только IOS 19.
Если приподнакинуть с дивана, то синхрон в каком-то виде есть уже у Метачки в умных очках, у Самсунга прямо в телефонах (on device, без доступа в облако) и даже в ушах Pixel Buds от Гугла.
Но где Пиксел Бадс и где Айр Подс. Про первые мало кто слышал, вторые уже как ксерокс.
Тут интересны вопрос в реальной востребованности такой фичи на b2c рынке. В путешествиях, на конференциях - да. Но сколько времени вы путешествуете и ходите на международные конференции.
В принципе можно ютюб смотреть в таких наушниках через колонку и микрофон.
Интересно, во что превратится синхронный перевод через полгода. В принципе задача уже решенная, и тут интересно как и кем он будет продуктово упакован. Весь онлайн-конференсинг просмотр, думаю, будет оснащен встроенным переводом на лету (уже). Стриминги тоже.
Остаются живые мультиязычные взаимодействия.
P/S/ Памятуя, как Эппле облажалась с Apple Intelligence, через полгода нам могут опять показать демо и отложить на след год.
И как, интересно, там с цензурой? Жопа есть, а слова "жопа" нет?
https://www.theverge.com/news/629506/apple-airpods-live-translation-ios-19
The Verge
Apple is reportedly bringing live translation to AirPods
It could arrive with iOS 19.
1👍30❤5🔥5🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяцца, но у нас новый видеогенератор.
Причем амбициозный до жути.
Мы, говорят, натренировали свою модель, Marey 1.0, специально для тех, кто делает, наминутчку, КИНО!
Дальше идет традиционный корпоративный бушит в духе адобченко:
The first clean AI model for videography built off fully owned/licensed content
Или вот так:
Marey proves that AI can be ethical, legal, and designed specifically for creatives.
Для меня звучит как, меньше данных, хуже качество. Что в общем и демонстрирует нам видеогенератор Firefly от Адобченко. Где Firefly и где Kling?
Модель закрытая, цена непонятная, а подробности не являют миру революцию:
Marey обучалась на «собственных или полностью лицензированных» исходных данных и предлагает возможности настройки, включая детальное управление камерой и движением.
1080P
30 секунд
Есть только вейтлист:
https://www.moonvalley.com/
Мне кажется, это инвестиционные игрища.
@cgevent
Причем амбициозный до жути.
Мы, говорят, натренировали свою модель, Marey 1.0, специально для тех, кто делает, наминутчку, КИНО!
Дальше идет традиционный корпоративный бушит в духе адобченко:
The first clean AI model for videography built off fully owned/licensed content
Или вот так:
Marey proves that AI can be ethical, legal, and designed specifically for creatives.
Для меня звучит как, меньше данных, хуже качество. Что в общем и демонстрирует нам видеогенератор Firefly от Адобченко. Где Firefly и где Kling?
Модель закрытая, цена непонятная, а подробности не являют миру революцию:
Marey обучалась на «собственных или полностью лицензированных» исходных данных и предлагает возможности настройки, включая детальное управление камерой и движением.
1080P
30 секунд
Есть только вейтлист:
https://www.moonvalley.com/
Мне кажется, это инвестиционные игрища.
@cgevent
👍21👎11❤6🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрорендеринг - это следующая фишка в 3Д.
DeemosTech продолжают хвастаться своим нейрорендером.
Выглядит так, что теперь из превиза - сразу в рендер. Без вот этого вот всего: текстуринг, uv, шейдинг, лайтинг. Вместо рендер артистов - стайл скауты.
И опять ничего не кипит. Я заинтригован. Предсказывал нейрорендер примерно 2 года назад, началось?
@cgevent
DeemosTech продолжают хвастаться своим нейрорендером.
Выглядит так, что теперь из превиза - сразу в рендер. Без вот этого вот всего: текстуринг, uv, шейдинг, лайтинг. Вместо рендер артистов - стайл скауты.
И опять ничего не кипит. Я заинтригован. Предсказывал нейрорендер примерно 2 года назад, началось?
@cgevent
52👍80🔥19❤10👎5
Forwarded from Psy Eyes
1👍29😁7❤6🔥2😱1
Китайская солидарность.
В Клинг привезли Дипсик в качестве писателя и улучшателя промтов.
Пока неясно, это файнтюненная версия Дипсика именно для клингонских промптов или нет.
А ещё по интернетику ходит новость, что у разрабов Дипсика отобрали в Китае загран паспорта.
Чтобы не было утечки мозгов вместe с содержимым мозгов.
Надо фактчекать, но мир, похоже поляризуется на линии штаты-китай, если смотреть на алармистские заявления Амодея из Антропика ну и самого Альтмана. Последние топят против утечки видеокарт.
Куда катится мир?
@cgevent
В Клинг привезли Дипсик в качестве писателя и улучшателя промтов.
Пока неясно, это файнтюненная версия Дипсика именно для клингонских промптов или нет.
А ещё по интернетику ходит новость, что у разрабов Дипсика отобрали в Китае загран паспорта.
Чтобы не было утечки мозгов вместe с содержимым мозгов.
Надо фактчекать, но мир, похоже поляризуется на линии штаты-китай, если смотреть на алармистские заявления Амодея из Антропика ну и самого Альтмана. Последние топят против утечки видеокарт.
Куда катится мир?
@cgevent
😱18👍12❤5😁4👎2🔥1
Вайб Моделинг с Клодом в Блендере.
Тут я вспоминаю, как с первыми версиями Майя поставлялось 16 кг бумажной документации.
И там была отдельная книжка в туторами.
В ней был моделинг тюленя по имени Салти и какой-то типа торпеды-ракеты.
2025: Клод, открой Блендор и замодель самолёт.
2027: Клод, просто добавь вайба в мою жизнь, вот доступы.
@cgevent
Тут я вспоминаю, как с первыми версиями Майя поставлялось 16 кг бумажной документации.
И там была отдельная книжка в туторами.
В ней был моделинг тюленя по имени Салти и какой-то типа торпеды-ракеты.
2025: Клод, открой Блендор и замодель самолёт.
2027: Клод, просто добавь вайба в мою жизнь, вот доступы.
@cgevent
👍46🔥21😁9🙏1
Продуктовая упаковка.
Тут нет вообще никакой новой технологии или ресерча.
Просто взяли компьюта, Flux 1.1 и апи OpenAI и сделали генератор сотни картинок за 15 секунд.
Все.
Жмёте кнопку, получает 100 картинок. Вариация на тему даже не промпта (промпт пишут за вас), а вашей идеи.
Там прицепом ещё пакетная обработка картинок - удаление фона, замена лица и пр.
Пример чистого продукта без примеси R&D.
Интересно, найдет своего платящего пользователя?
https://bulkimagegeneration.com/
Боюсь, что нет, ибо 1000 картинок В МЕСЯЦ за 82 доллара (десять генераций?) - это как бы шутка...
Ну и мне кажется что в glif.app это же можно собрать сильно дешевле
@cgevent
Тут нет вообще никакой новой технологии или ресерча.
Просто взяли компьюта, Flux 1.1 и апи OpenAI и сделали генератор сотни картинок за 15 секунд.
Все.
Жмёте кнопку, получает 100 картинок. Вариация на тему даже не промпта (промпт пишут за вас), а вашей идеи.
Там прицепом ещё пакетная обработка картинок - удаление фона, замена лица и пр.
Пример чистого продукта без примеси R&D.
Интересно, найдет своего платящего пользователя?
https://bulkimagegeneration.com/
Боюсь, что нет, ибо 1000 картинок В МЕСЯЦ за 82 доллара (десять генераций?) - это как бы шутка...
Ну и мне кажется что в glif.app это же можно собрать сильно дешевле
@cgevent
BulkImageGeneration.com
Bulk AI Image Generator | Create Images With AI
Generate high-quality AI images in bulk - up to 100 professional images in seconds. Perfect for product photos, social media content, and enterprise needs
👍14❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Голосовой ввод, говорите? Синхронный перевод в Айрподсах? Войс ассистент?
Принес вам нетленку десятилетней давности.
Помнится много лет назад я приехал на тренинг по Maya 0 beta 6 в Лондон и сел в такси. Кокни-драйвер попытался прокоммуницировать со мной, а я с ним. Примерно как на видео. Через 10 минут я достал ручку и бумажку и просто написал адрес. И всю дорогу слушал инопланетную речь, полную неведомых гласных.
Оригинал тут:
https://youtu.be/HbDnxzrbxn4?si=1XTSC6t6gwNZowlT
@cgevent
Принес вам нетленку десятилетней давности.
Помнится много лет назад я приехал на тренинг по Maya 0 beta 6 в Лондон и сел в такси. Кокни-драйвер попытался прокоммуницировать со мной, а я с ним. Примерно как на видео. Через 10 минут я достал ручку и бумажку и просто написал адрес. И всю дорогу слушал инопланетную речь, полную неведомых гласных.
Оригинал тут:
https://youtu.be/HbDnxzrbxn4?si=1XTSC6t6gwNZowlT
@cgevent
14😁119👍14
Forwarded from Data Secrets
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56😱16🔥10👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Я не успел написать про Сезам, может и к лучшему, ибо сейчас новостей поднакопилось не просто на "вот смотрит что еще", а возможность пощупать самим.
Sesame AI - это Conversational Speech Model, предназначенная для генерации речи. У них на сайте есть демо, где вы можете поговорить с Майя (правильное имя), которую еще называют голосовым ассистентом. Ее фишка в реалистичности не только голоса, но и передаваемых эмоций, нюансов и чувствования контекста, так сказать.
За Майей стоит Brendan Iribe, который создал Oculus VR и продал его Facebook. И да, у компании планы на создание своих(!?) ИИ-очков с этой самой Сезам на борту (на переносице?).
Попробуйте сами, впечатляет. Их рекламный слоган - "мы прошли зловещую долину", возможно имеет право на жизнь.
Но крутизна в том, что они взяли и опенсорснули свою модель, разница в между кодом на Гитхабе и моделью с сайта в том, что на сайте файнтюн под конкретные два голоса, а модель на гитхабе "способна воспроизводить различные голоса, но не была обучена для какого-либо конкретного голоса Модель имеет некоторые возможности для не-английских языков благодаря data contamination(!) в обучающих данных, но, скорее всего, она не будет работать хорошо".
https://github.com/SesameAILabs/csm
Есть демо:
https://huggingface.co/spaces/sesame/csm-1b
Но и это еще не все, гениальный подписчик Вячеслав сделал ноды для Комфи, чтобы это дело можно было погонять
локально:
https://github.com/thezveroboy/ComfyUI-CSM-Nodes
Пробуем.
@cgevent
Sesame AI - это Conversational Speech Model, предназначенная для генерации речи. У них на сайте есть демо, где вы можете поговорить с Майя (правильное имя), которую еще называют голосовым ассистентом. Ее фишка в реалистичности не только голоса, но и передаваемых эмоций, нюансов и чувствования контекста, так сказать.
За Майей стоит Brendan Iribe, который создал Oculus VR и продал его Facebook. И да, у компании планы на создание своих(!?) ИИ-очков с этой самой Сезам на борту (на переносице?).
Попробуйте сами, впечатляет. Их рекламный слоган - "мы прошли зловещую долину", возможно имеет право на жизнь.
Но крутизна в том, что они взяли и опенсорснули свою модель, разница в между кодом на Гитхабе и моделью с сайта в том, что на сайте файнтюн под конкретные два голоса, а модель на гитхабе "способна воспроизводить различные голоса, но не была обучена для какого-либо конкретного голоса Модель имеет некоторые возможности для не-английских языков благодаря data contamination(!) в обучающих данных, но, скорее всего, она не будет работать хорошо".
https://github.com/SesameAILabs/csm
Есть демо:
https://huggingface.co/spaces/sesame/csm-1b
Но и это еще не все, гениальный подписчик Вячеслав сделал ноды для Комфи, чтобы это дело можно было погонять
локально:
https://github.com/thezveroboy/ComfyUI-CSM-Nodes
Пробуем.
@cgevent
🔥64👍22❤6
Минимах разродился генератором картинок.
Это стало уже трендом, когда видеогенераторы порождают субпродукт - генерация изображений.
Обсуждать особо нечего, надо тестировать. Есть только минимум настроек - улучшайзер промпта и аспект.
На первый взгляд, как у всех, шарахание от анатомии, очень хорошее понимание промпта, кожа - не айс.
Я погенерил бутылочек и X-Ray - на стилях и абстракциях ведет себя хорошо.
visualized as an X-Ray Crystalline Structure, revealing internal geometries and hidden patterns. Employ stark white lines and shapes on a deep black background to mimic the look of scientific imaging
За 10 баксов - 1000 картинок в месяц (малавата).
За 0 баксов - есть бесплатные ежедневные кредиты (пока)
Есть апи под запрос.
Кстати, на сайте есть навернутый, но странно оформленный в ноушене юзер гайд.
@cgevent
Это стало уже трендом, когда видеогенераторы порождают субпродукт - генерация изображений.
Обсуждать особо нечего, надо тестировать. Есть только минимум настроек - улучшайзер промпта и аспект.
На первый взгляд, как у всех, шарахание от анатомии, очень хорошее понимание промпта, кожа - не айс.
Я погенерил бутылочек и X-Ray - на стилях и абстракциях ведет себя хорошо.
visualized as an X-Ray Crystalline Structure, revealing internal geometries and hidden patterns. Employ stark white lines and shapes on a deep black background to mimic the look of scientific imaging
За 10 баксов - 1000 картинок в месяц (малавата).
За 0 баксов - есть бесплатные ежедневные кредиты (пока)
Есть апи под запрос.
Кстати, на сайте есть навернутый, но странно оформленный в ноушене юзер гайд.
@cgevent
👍16❤11🔥1