Если кому интересно, то chatGPT c моделью 4.5 стал принимать на вход картинки. Более того, если ему дать на вход видео, как файл, он может его описать.
Но генерит по прежнему в дряхлом dalle-3.
@cgevent
Но генерит по прежнему в дряхлом dalle-3.
@cgevent
👍48🔥13❤3
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
😁28❤10👍7
Apple добавит функцию синхронного перевода в AirPods
Так, по крайней мере, я перевожу Live Translation.
Подробностей минимум.
В конце года.
Только IOS 19.
Если приподнакинуть с дивана, то синхрон в каком-то виде есть уже у Метачки в умных очках, у Самсунга прямо в телефонах (on device, без доступа в облако) и даже в ушах Pixel Buds от Гугла.
Но где Пиксел Бадс и где Айр Подс. Про первые мало кто слышал, вторые уже как ксерокс.
Тут интересны вопрос в реальной востребованности такой фичи на b2c рынке. В путешествиях, на конференциях - да. Но сколько времени вы путешествуете и ходите на международные конференции.
В принципе можно ютюб смотреть в таких наушниках через колонку и микрофон.
Интересно, во что превратится синхронный перевод через полгода. В принципе задача уже решенная, и тут интересно как и кем он будет продуктово упакован. Весь онлайн-конференсинг просмотр, думаю, будет оснащен встроенным переводом на лету (уже). Стриминги тоже.
Остаются живые мультиязычные взаимодействия.
P/S/ Памятуя, как Эппле облажалась с Apple Intelligence, через полгода нам могут опять показать демо и отложить на след год.
И как, интересно, там с цензурой? Жопа есть, а слова "жопа" нет?
https://www.theverge.com/news/629506/apple-airpods-live-translation-ios-19
Так, по крайней мере, я перевожу Live Translation.
Подробностей минимум.
В конце года.
Только IOS 19.
Если приподнакинуть с дивана, то синхрон в каком-то виде есть уже у Метачки в умных очках, у Самсунга прямо в телефонах (on device, без доступа в облако) и даже в ушах Pixel Buds от Гугла.
Но где Пиксел Бадс и где Айр Подс. Про первые мало кто слышал, вторые уже как ксерокс.
Тут интересны вопрос в реальной востребованности такой фичи на b2c рынке. В путешествиях, на конференциях - да. Но сколько времени вы путешествуете и ходите на международные конференции.
В принципе можно ютюб смотреть в таких наушниках через колонку и микрофон.
Интересно, во что превратится синхронный перевод через полгода. В принципе задача уже решенная, и тут интересно как и кем он будет продуктово упакован. Весь онлайн-конференсинг просмотр, думаю, будет оснащен встроенным переводом на лету (уже). Стриминги тоже.
Остаются живые мультиязычные взаимодействия.
P/S/ Памятуя, как Эппле облажалась с Apple Intelligence, через полгода нам могут опять показать демо и отложить на след год.
И как, интересно, там с цензурой? Жопа есть, а слова "жопа" нет?
https://www.theverge.com/news/629506/apple-airpods-live-translation-ios-19
The Verge
Apple is reportedly bringing live translation to AirPods
It could arrive with iOS 19.
1👍30❤5🔥5🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяцца, но у нас новый видеогенератор.
Причем амбициозный до жути.
Мы, говорят, натренировали свою модель, Marey 1.0, специально для тех, кто делает, наминутчку, КИНО!
Дальше идет традиционный корпоративный бушит в духе адобченко:
The first clean AI model for videography built off fully owned/licensed content
Или вот так:
Marey proves that AI can be ethical, legal, and designed specifically for creatives.
Для меня звучит как, меньше данных, хуже качество. Что в общем и демонстрирует нам видеогенератор Firefly от Адобченко. Где Firefly и где Kling?
Модель закрытая, цена непонятная, а подробности не являют миру революцию:
Marey обучалась на «собственных или полностью лицензированных» исходных данных и предлагает возможности настройки, включая детальное управление камерой и движением.
1080P
30 секунд
Есть только вейтлист:
https://www.moonvalley.com/
Мне кажется, это инвестиционные игрища.
@cgevent
Причем амбициозный до жути.
Мы, говорят, натренировали свою модель, Marey 1.0, специально для тех, кто делает, наминутчку, КИНО!
Дальше идет традиционный корпоративный бушит в духе адобченко:
The first clean AI model for videography built off fully owned/licensed content
Или вот так:
Marey proves that AI can be ethical, legal, and designed specifically for creatives.
Для меня звучит как, меньше данных, хуже качество. Что в общем и демонстрирует нам видеогенератор Firefly от Адобченко. Где Firefly и где Kling?
Модель закрытая, цена непонятная, а подробности не являют миру революцию:
Marey обучалась на «собственных или полностью лицензированных» исходных данных и предлагает возможности настройки, включая детальное управление камерой и движением.
1080P
30 секунд
Есть только вейтлист:
https://www.moonvalley.com/
Мне кажется, это инвестиционные игрища.
@cgevent
👍21👎11❤6🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрорендеринг - это следующая фишка в 3Д.
DeemosTech продолжают хвастаться своим нейрорендером.
Выглядит так, что теперь из превиза - сразу в рендер. Без вот этого вот всего: текстуринг, uv, шейдинг, лайтинг. Вместо рендер артистов - стайл скауты.
И опять ничего не кипит. Я заинтригован. Предсказывал нейрорендер примерно 2 года назад, началось?
@cgevent
DeemosTech продолжают хвастаться своим нейрорендером.
Выглядит так, что теперь из превиза - сразу в рендер. Без вот этого вот всего: текстуринг, uv, шейдинг, лайтинг. Вместо рендер артистов - стайл скауты.
И опять ничего не кипит. Я заинтригован. Предсказывал нейрорендер примерно 2 года назад, началось?
@cgevent
52👍80🔥19❤10👎5
Forwarded from Psy Eyes
1👍29😁7❤6🔥2😱1
Китайская солидарность.
В Клинг привезли Дипсик в качестве писателя и улучшателя промтов.
Пока неясно, это файнтюненная версия Дипсика именно для клингонских промптов или нет.
А ещё по интернетику ходит новость, что у разрабов Дипсика отобрали в Китае загран паспорта.
Чтобы не было утечки мозгов вместe с содержимым мозгов.
Надо фактчекать, но мир, похоже поляризуется на линии штаты-китай, если смотреть на алармистские заявления Амодея из Антропика ну и самого Альтмана. Последние топят против утечки видеокарт.
Куда катится мир?
@cgevent
В Клинг привезли Дипсик в качестве писателя и улучшателя промтов.
Пока неясно, это файнтюненная версия Дипсика именно для клингонских промптов или нет.
А ещё по интернетику ходит новость, что у разрабов Дипсика отобрали в Китае загран паспорта.
Чтобы не было утечки мозгов вместe с содержимым мозгов.
Надо фактчекать, но мир, похоже поляризуется на линии штаты-китай, если смотреть на алармистские заявления Амодея из Антропика ну и самого Альтмана. Последние топят против утечки видеокарт.
Куда катится мир?
@cgevent
😱18👍12❤5😁4👎2🔥1
Вайб Моделинг с Клодом в Блендере.
Тут я вспоминаю, как с первыми версиями Майя поставлялось 16 кг бумажной документации.
И там была отдельная книжка в туторами.
В ней был моделинг тюленя по имени Салти и какой-то типа торпеды-ракеты.
2025: Клод, открой Блендор и замодель самолёт.
2027: Клод, просто добавь вайба в мою жизнь, вот доступы.
@cgevent
Тут я вспоминаю, как с первыми версиями Майя поставлялось 16 кг бумажной документации.
И там была отдельная книжка в туторами.
В ней был моделинг тюленя по имени Салти и какой-то типа торпеды-ракеты.
2025: Клод, открой Блендор и замодель самолёт.
2027: Клод, просто добавь вайба в мою жизнь, вот доступы.
@cgevent
👍46🔥21😁9🙏1
Продуктовая упаковка.
Тут нет вообще никакой новой технологии или ресерча.
Просто взяли компьюта, Flux 1.1 и апи OpenAI и сделали генератор сотни картинок за 15 секунд.
Все.
Жмёте кнопку, получает 100 картинок. Вариация на тему даже не промпта (промпт пишут за вас), а вашей идеи.
Там прицепом ещё пакетная обработка картинок - удаление фона, замена лица и пр.
Пример чистого продукта без примеси R&D.
Интересно, найдет своего платящего пользователя?
https://bulkimagegeneration.com/
Боюсь, что нет, ибо 1000 картинок В МЕСЯЦ за 82 доллара (десять генераций?) - это как бы шутка...
Ну и мне кажется что в glif.app это же можно собрать сильно дешевле
@cgevent
Тут нет вообще никакой новой технологии или ресерча.
Просто взяли компьюта, Flux 1.1 и апи OpenAI и сделали генератор сотни картинок за 15 секунд.
Все.
Жмёте кнопку, получает 100 картинок. Вариация на тему даже не промпта (промпт пишут за вас), а вашей идеи.
Там прицепом ещё пакетная обработка картинок - удаление фона, замена лица и пр.
Пример чистого продукта без примеси R&D.
Интересно, найдет своего платящего пользователя?
https://bulkimagegeneration.com/
Боюсь, что нет, ибо 1000 картинок В МЕСЯЦ за 82 доллара (десять генераций?) - это как бы шутка...
Ну и мне кажется что в glif.app это же можно собрать сильно дешевле
@cgevent
BulkImageGeneration.com
Bulk AI Image Generator | Create Images With AI
Generate high-quality AI images in bulk - up to 100 professional images in seconds. Perfect for product photos, social media content, and enterprise needs
👍14❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Голосовой ввод, говорите? Синхронный перевод в Айрподсах? Войс ассистент?
Принес вам нетленку десятилетней давности.
Помнится много лет назад я приехал на тренинг по Maya 0 beta 6 в Лондон и сел в такси. Кокни-драйвер попытался прокоммуницировать со мной, а я с ним. Примерно как на видео. Через 10 минут я достал ручку и бумажку и просто написал адрес. И всю дорогу слушал инопланетную речь, полную неведомых гласных.
Оригинал тут:
https://youtu.be/HbDnxzrbxn4?si=1XTSC6t6gwNZowlT
@cgevent
Принес вам нетленку десятилетней давности.
Помнится много лет назад я приехал на тренинг по Maya 0 beta 6 в Лондон и сел в такси. Кокни-драйвер попытался прокоммуницировать со мной, а я с ним. Примерно как на видео. Через 10 минут я достал ручку и бумажку и просто написал адрес. И всю дорогу слушал инопланетную речь, полную неведомых гласных.
Оригинал тут:
https://youtu.be/HbDnxzrbxn4?si=1XTSC6t6gwNZowlT
@cgevent
14😁119👍14
Forwarded from Data Secrets
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56😱16🔥10👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Я не успел написать про Сезам, может и к лучшему, ибо сейчас новостей поднакопилось не просто на "вот смотрит что еще", а возможность пощупать самим.
Sesame AI - это Conversational Speech Model, предназначенная для генерации речи. У них на сайте есть демо, где вы можете поговорить с Майя (правильное имя), которую еще называют голосовым ассистентом. Ее фишка в реалистичности не только голоса, но и передаваемых эмоций, нюансов и чувствования контекста, так сказать.
За Майей стоит Brendan Iribe, который создал Oculus VR и продал его Facebook. И да, у компании планы на создание своих(!?) ИИ-очков с этой самой Сезам на борту (на переносице?).
Попробуйте сами, впечатляет. Их рекламный слоган - "мы прошли зловещую долину", возможно имеет право на жизнь.
Но крутизна в том, что они взяли и опенсорснули свою модель, разница в между кодом на Гитхабе и моделью с сайта в том, что на сайте файнтюн под конкретные два голоса, а модель на гитхабе "способна воспроизводить различные голоса, но не была обучена для какого-либо конкретного голоса Модель имеет некоторые возможности для не-английских языков благодаря data contamination(!) в обучающих данных, но, скорее всего, она не будет работать хорошо".
https://github.com/SesameAILabs/csm
Есть демо:
https://huggingface.co/spaces/sesame/csm-1b
Но и это еще не все, гениальный подписчик Вячеслав сделал ноды для Комфи, чтобы это дело можно было погонять
локально:
https://github.com/thezveroboy/ComfyUI-CSM-Nodes
Пробуем.
@cgevent
Sesame AI - это Conversational Speech Model, предназначенная для генерации речи. У них на сайте есть демо, где вы можете поговорить с Майя (правильное имя), которую еще называют голосовым ассистентом. Ее фишка в реалистичности не только голоса, но и передаваемых эмоций, нюансов и чувствования контекста, так сказать.
За Майей стоит Brendan Iribe, который создал Oculus VR и продал его Facebook. И да, у компании планы на создание своих(!?) ИИ-очков с этой самой Сезам на борту (на переносице?).
Попробуйте сами, впечатляет. Их рекламный слоган - "мы прошли зловещую долину", возможно имеет право на жизнь.
Но крутизна в том, что они взяли и опенсорснули свою модель, разница в между кодом на Гитхабе и моделью с сайта в том, что на сайте файнтюн под конкретные два голоса, а модель на гитхабе "способна воспроизводить различные голоса, но не была обучена для какого-либо конкретного голоса Модель имеет некоторые возможности для не-английских языков благодаря data contamination(!) в обучающих данных, но, скорее всего, она не будет работать хорошо".
https://github.com/SesameAILabs/csm
Есть демо:
https://huggingface.co/spaces/sesame/csm-1b
Но и это еще не все, гениальный подписчик Вячеслав сделал ноды для Комфи, чтобы это дело можно было погонять
локально:
https://github.com/thezveroboy/ComfyUI-CSM-Nodes
Пробуем.
@cgevent
🔥64👍22❤6
Минимах разродился генератором картинок.
Это стало уже трендом, когда видеогенераторы порождают субпродукт - генерация изображений.
Обсуждать особо нечего, надо тестировать. Есть только минимум настроек - улучшайзер промпта и аспект.
На первый взгляд, как у всех, шарахание от анатомии, очень хорошее понимание промпта, кожа - не айс.
Я погенерил бутылочек и X-Ray - на стилях и абстракциях ведет себя хорошо.
visualized as an X-Ray Crystalline Structure, revealing internal geometries and hidden patterns. Employ stark white lines and shapes on a deep black background to mimic the look of scientific imaging
За 10 баксов - 1000 картинок в месяц (малавата).
За 0 баксов - есть бесплатные ежедневные кредиты (пока)
Есть апи под запрос.
Кстати, на сайте есть навернутый, но странно оформленный в ноушене юзер гайд.
@cgevent
Это стало уже трендом, когда видеогенераторы порождают субпродукт - генерация изображений.
Обсуждать особо нечего, надо тестировать. Есть только минимум настроек - улучшайзер промпта и аспект.
На первый взгляд, как у всех, шарахание от анатомии, очень хорошее понимание промпта, кожа - не айс.
Я погенерил бутылочек и X-Ray - на стилях и абстракциях ведет себя хорошо.
visualized as an X-Ray Crystalline Structure, revealing internal geometries and hidden patterns. Employ stark white lines and shapes on a deep black background to mimic the look of scientific imaging
За 10 баксов - 1000 картинок в месяц (малавата).
За 0 баксов - есть бесплатные ежедневные кредиты (пока)
Есть апи под запрос.
Кстати, на сайте есть навернутый, но странно оформленный в ноушене юзер гайд.
@cgevent
👍16❤11🔥1