Описание и расшифровка происходящего на видео с ютюба без использования субтитров.
Увидел вот такой твит от Демиса Хассабиса (главный в DeepMind).
Я уже постил про то, что в chatGPT можно кидать не только картинки, но и целые видосы, и просить описать происходящее.
А в Google AI Studio можно кидать ссылки на Ютюб.
Специально взял видео, где нет субтитров и где из названия видео нельзя, например, достать цвет песка.
https://www.youtube.com/watch?v=E7qRkUYu580
Кинул эту ссылку в AI Studio, оно справилось.
Видел примеры, как народ спрашивает "а с какой минуты начинает говорить товарищ N", но там есть баги с точностью тайм кодов.
В общем мультимодальность на марше - модель реально "понимает происходящее на видео". Причем все это можно использовать и через API.
Вероятно будет полезно некоторым стартапам.
@cgevent
Увидел вот такой твит от Демиса Хассабиса (главный в DeepMind).
Я уже постил про то, что в chatGPT можно кидать не только картинки, но и целые видосы, и просить описать происходящее.
А в Google AI Studio можно кидать ссылки на Ютюб.
Специально взял видео, где нет субтитров и где из названия видео нельзя, например, достать цвет песка.
https://www.youtube.com/watch?v=E7qRkUYu580
Кинул эту ссылку в AI Studio, оно справилось.
Видел примеры, как народ спрашивает "а с какой минуты начинает говорить товарищ N", но там есть баги с точностью тайм кодов.
В общем мультимодальность на марше - модель реально "понимает происходящее на видео". Причем все это можно использовать и через API.
Вероятно будет полезно некоторым стартапам.
@cgevent
👍36🔥22❤3
Better Call Mike. Про поиск людей.
Если ищете исполнителей или закрываете вакансии, то есть Майк Волков (@mikevolkov).
Он умеет закрывать сложнейшие позиции в AI и IT в целом.
Майк не просто рекрутер. Он находит тех, кто реально решает задачи бизнеса.
Приводит людей, которые не ищут работу, но готовы делать сильный продукт.
В общем Better Call Mike, если вам нужно реальное усиление команды, напишите Майку.
А вообще, если тема найма, поиска людей и сильных кандидатов вам интересна, то можно подписаться на канал Майка @huntermikevolkov.
Там он пишет о хантинге, рынке IT и реальных кейсах – коротко, полезно, без лишнего мусора.
Особенно полезно фаундерам, HR и тем, кто сам ищет работу.
Как привлекать сильных людей и не терять их.
Как работает найм в топовых IT-компаниях.
Кейсы, фейлы, успешные истории – только практика.
Подписывайтесь – @huntermikevolkov.
#промо
Если ищете исполнителей или закрываете вакансии, то есть Майк Волков (@mikevolkov).
Он умеет закрывать сложнейшие позиции в AI и IT в целом.
Майк не просто рекрутер. Он находит тех, кто реально решает задачи бизнеса.
Приводит людей, которые не ищут работу, но готовы делать сильный продукт.
В общем Better Call Mike, если вам нужно реальное усиление команды, напишите Майку.
А вообще, если тема найма, поиска людей и сильных кандидатов вам интересна, то можно подписаться на канал Майка @huntermikevolkov.
Там он пишет о хантинге, рынке IT и реальных кейсах – коротко, полезно, без лишнего мусора.
Особенно полезно фаундерам, HR и тем, кто сам ищет работу.
Как привлекать сильных людей и не терять их.
Как работает найм в топовых IT-компаниях.
Кейсы, фейлы, успешные истории – только практика.
Подписывайтесь – @huntermikevolkov.
#промо
Telegram
Mike | IT Recruitment Expert
Best IT recruiter. Hard, executive hiring. I'll save your time and nerves, and grow your business. Superpowers for satisfied clients.
👎37😱7👍5🔥3
Russian AI: GigaChat 2 MAX vs. YandexGPT 5 Pro.
На днях вышло тестирование двух ведущих российских нейросетей — GigaChat 2 MAX от Сбера и YandexGPT 5 Pro. Автор эксперимента сравнивал ответы по 10 вопросам и сделал упор на скорость, но при этом упустил важный момент — глубину анализа.
Что показал тест?
• GigaChat 2 MAX выдает развернутые и детализированные ответы, лучше понимая контекст.
• YandexGPT 5 Pro отвечает быстрее, но при этом иногда упрощает информацию.
На первый взгляд кажется, что скорость — это ключевой параметр. Но если запрос сложный, требует пояснений или анализа, важнее не просто ответить быстро, а выдать действительно полезную информацию. Здесь у GigaChat 2 MAX заметное преимущество.
Например, в сценариях, где нужно не просто выдать справочную информацию, а сформировать рекомендации, предложить несколько вариантов решения или проанализировать сложные данные, GigaChat 2 MAX справляется лучше.
Кроме того, он более гибкий в обработке нестандартных формулировок и уточняющих вопросов, что делает его ближе к роли интеллектуального ассистента, а не просто генератора ответов.
Стоит ли считать это избыточностью? Вопрос субъективный. Но если важна не просто скорость, а глубина и релевантность информации, GigaChat 2 MAX определенно выглядит увереннее среди других аналогов на рынке.
@cgevent
На днях вышло тестирование двух ведущих российских нейросетей — GigaChat 2 MAX от Сбера и YandexGPT 5 Pro. Автор эксперимента сравнивал ответы по 10 вопросам и сделал упор на скорость, но при этом упустил важный момент — глубину анализа.
Что показал тест?
• GigaChat 2 MAX выдает развернутые и детализированные ответы, лучше понимая контекст.
• YandexGPT 5 Pro отвечает быстрее, но при этом иногда упрощает информацию.
На первый взгляд кажется, что скорость — это ключевой параметр. Но если запрос сложный, требует пояснений или анализа, важнее не просто ответить быстро, а выдать действительно полезную информацию. Здесь у GigaChat 2 MAX заметное преимущество.
Например, в сценариях, где нужно не просто выдать справочную информацию, а сформировать рекомендации, предложить несколько вариантов решения или проанализировать сложные данные, GigaChat 2 MAX справляется лучше.
Кроме того, он более гибкий в обработке нестандартных формулировок и уточняющих вопросов, что делает его ближе к роли интеллектуального ассистента, а не просто генератора ответов.
Стоит ли считать это избыточностью? Вопрос субъективный. Но если важна не просто скорость, а глубина и релевантность информации, GigaChat 2 MAX определенно выглядит увереннее среди других аналогов на рынке.
@cgevent
2👍57👎54😁14❤6😱6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Если кто-то сидит на Freepik, то туда завезли Google Gemini AI image editor
Ну да, тот самый, который "Фотошоп на словах".
@cgevent
Ну да, тот самый, который "Фотошоп на словах".
@cgevent
1🔥38👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Photoshop vs Google Flash 2.0 Experimental Image Editing
Ну и кстати, оцениваем количество усилий по исправлению осанки на фото в Фотошопе и на словах, так сказать.
Интересно, во что трансформируются курсы по Фотошопу?
@cgevent
Ну и кстати, оцениваем количество усилий по исправлению осанки на фото в Фотошопе и на словах, так сказать.
Интересно, во что трансформируются курсы по Фотошопу?
@cgevent
🔥53👍15😁7❤2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Roblox Cube: Вы будете смеяться, но у нас новый 3Д-генератор.
И знаете от кого?
От Роблокса!
И да, они обещают код.
Пока text-to-3Д, потом на входе картинки.
Амбиции очень серьезные:
"Мы хотим, чтобы создаваемые нами 3D-объекты и сцены были полностью функциональными. Мы называем это 4D-творением, где четвертое измерение — это взаимодействие между объектами, средами и людьми. Достижение этого требует способности не только создавать захватывающие 3D-объекты и сцены, но и понимать контексты и отношения между этими объектами. Именно к этому мы и направляемся с Cube.
Помимо этого первого варианта использования генерации сетки, мы планируем расширить генерацию и понимание сцен. Мы сможем обслуживать пользователей тем опытом, который им наиболее интересен, и дополнять сцены, добавляя объекты в контексте. Например, в опыте с лесной сценой разработчик может попросить Assistant заменить все пышные зеленые листья на деревьях осенней листвой, чтобы обозначить смену сезона. Наши инструменты AI Assistant реагируют на запросы разработчика, помогая им быстро создавать, адаптировать и масштабировать свой опыт.
Мы поделимся обновлениями и новыми функциями, продолжая улучшать и расширять нашу базовую модель. До тех пор мы надеемся, что вам понравится использовать и строить поверх нашей версии модели Cube 3D с открытым исходным кодом, которая будет доступна позже на этой неделе."
Их главное преимущество - нереальных размеров датасет, и тонна метаданных вокруг их моделей.
Ждем кода и подробностей, а пока почитайте тут:
https://corp.roblox.com/newsroom/2025/03/introducing-roblox-cube
@cgevent
И знаете от кого?
От Роблокса!
И да, они обещают код.
Пока text-to-3Д, потом на входе картинки.
Амбиции очень серьезные:
"Мы хотим, чтобы создаваемые нами 3D-объекты и сцены были полностью функциональными. Мы называем это 4D-творением, где четвертое измерение — это взаимодействие между объектами, средами и людьми. Достижение этого требует способности не только создавать захватывающие 3D-объекты и сцены, но и понимать контексты и отношения между этими объектами. Именно к этому мы и направляемся с Cube.
Помимо этого первого варианта использования генерации сетки, мы планируем расширить генерацию и понимание сцен. Мы сможем обслуживать пользователей тем опытом, который им наиболее интересен, и дополнять сцены, добавляя объекты в контексте. Например, в опыте с лесной сценой разработчик может попросить Assistant заменить все пышные зеленые листья на деревьях осенней листвой, чтобы обозначить смену сезона. Наши инструменты AI Assistant реагируют на запросы разработчика, помогая им быстро создавать, адаптировать и масштабировать свой опыт.
Мы поделимся обновлениями и новыми функциями, продолжая улучшать и расширять нашу базовую модель. До тех пор мы надеемся, что вам понравится использовать и строить поверх нашей версии модели Cube 3D с открытым исходным кодом, которая будет доступна позже на этой неделе."
Их главное преимущество - нереальных размеров датасет, и тонна метаданных вокруг их моделей.
Ждем кода и подробностей, а пока почитайте тут:
https://corp.roblox.com/newsroom/2025/03/introducing-roblox-cube
@cgevent
🔥49👍16❤9👎3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Новый видео генератор в Grok
В январе Маск уже поминал, что через несколько месяцев они сделают видеогенератор. А вчера CEO Hotspot твитторнул, что их полностью покупает xAI.
Hotspot это малопримечательый видеогенератор, про который я как-то упоминал. У них своя база пользователей, но на фоне Клинга и Минимакса - это игрок второго плана(скорее по фичам, а не по качеству).
Зато теперь у них будет доступ к кластеру Маска - Colossus. И тренировка видео-модели может пойти иными темпами.
Тем временем Hotspot закрывает все генерации на своем сате и предлагает скачать свои гениальные видосы до 30 марта.
Конкуренция - это прекрасно. А зная Маска\Грок, наверняка новая видеомодель будет не такая пугливая и ханжеская как Sora или Veo2.
Ждем.
https://techcrunch.com/2025/03/17/elon-musks-ai-company-xai-acquires-a-generative-ai-video-startup/
@cgevent
В январе Маск уже поминал, что через несколько месяцев они сделают видеогенератор. А вчера CEO Hotspot твитторнул, что их полностью покупает xAI.
Hotspot это малопримечательый видеогенератор, про который я как-то упоминал. У них своя база пользователей, но на фоне Клинга и Минимакса - это игрок второго плана(скорее по фичам, а не по качеству).
Зато теперь у них будет доступ к кластеру Маска - Colossus. И тренировка видео-модели может пойти иными темпами.
Тем временем Hotspot закрывает все генерации на своем сате и предлагает скачать свои гениальные видосы до 30 марта.
Конкуренция - это прекрасно. А зная Маска\Грок, наверняка новая видеомодель будет не такая пугливая и ханжеская как Sora или Veo2.
Ждем.
https://techcrunch.com/2025/03/17/elon-musks-ai-company-xai-acquires-a-generative-ai-video-startup/
@cgevent
👍42🔥19❤4
3Дай Студио
Сегодня у нас 3Д-марафон. На дворе GDC, много апдейтов.
Для начала принес вот такой комбайн. Он сегодня еще будет фигурировать в тестах 3Д генераторов, как один из лучших.
Тут ребята развернулись не на шутку. 3Д-вьюпорт, text-to-3D, image-to-3D, Remesh AI и даже упоминания про Video AI.
И прямой коннект с Блендором.
Выглядит действительно неплохо, хороший конкурент Rodin Pro.
Бесплатного плана нет, а базовый выглядит дороговато 40 центов за одну генерацию (16 евро в месяц за 40 генераций).
Ремешер я не смог попробовать, хотя он как бы бесплатный, нужно навалить кредитов на баланс, чтобы появился Экспорт.
И у них свои 3Д-нейромодели из который Prism выглядит как самая продвинутая.
В общем, еще один игрок на рынке закрытых 3Д-генераторов.
https://www.3daistudio.com/
@cgevent
Сегодня у нас 3Д-марафон. На дворе GDC, много апдейтов.
Для начала принес вот такой комбайн. Он сегодня еще будет фигурировать в тестах 3Д генераторов, как один из лучших.
Тут ребята развернулись не на шутку. 3Д-вьюпорт, text-to-3D, image-to-3D, Remesh AI и даже упоминания про Video AI.
И прямой коннект с Блендором.
Выглядит действительно неплохо, хороший конкурент Rodin Pro.
Бесплатного плана нет, а базовый выглядит дороговато 40 центов за одну генерацию (16 евро в месяц за 40 генераций).
Ремешер я не смог попробовать, хотя он как бы бесплатный, нужно навалить кредитов на баланс, чтобы появился Экспорт.
И у них свои 3Д-нейромодели из который Prism выглядит как самая продвинутая.
В общем, еще один игрок на рынке закрытых 3Д-генераторов.
https://www.3daistudio.com/
@cgevent
👍12🔥7👎2❤1
А тем временем Хуньянь обновил свой 3Д-генератор.
Теперь там две модели.
2mini - 0.6B параметров, но генерит шустрее и лучше, чем предыдущая модель на 1.1B параметров.
2mv - multiview, генерация по нескольким картинкам (до 4 штук) с текстурированием.
Требования к памяти такие:
It takes 6 GB VRAM for shape generation and 12 GB for shape and texture generation in total with cpu offloading.
Все можно скачать и установить локально.
https://github.com/tencent/Hunyuan3D-2
Более того, есть демо-спейсы для тестирования:
https://huggingface.co/spaces/tencent/Hunyuan3D-2mv
https://huggingface.co/tencent/Hunyuan3D-2mini
@cgevent
Теперь там две модели.
2mini - 0.6B параметров, но генерит шустрее и лучше, чем предыдущая модель на 1.1B параметров.
2mv - multiview, генерация по нескольким картинкам (до 4 штук) с текстурированием.
Требования к памяти такие:
It takes 6 GB VRAM for shape generation and 12 GB for shape and texture generation in total with cpu offloading.
Все можно скачать и установить локально.
https://github.com/tencent/Hunyuan3D-2
Более того, есть демо-спейсы для тестирования:
https://huggingface.co/spaces/tencent/Hunyuan3D-2mv
https://huggingface.co/tencent/Hunyuan3D-2mini
@cgevent
❤23🔥21👍12
This media is not supported in your browser
VIEW IN TELEGRAM
Нейромоделинг, нейрориг, нейромокап плюс Unreal Engine (тут скоро будет нейрорендер).
Роден сгенерировал 3D-модель Патрика Стара, автоматически заригал ее, потом импорт в UE, где она была санимирована в реалтаймовом нейромокапе CYAN AI.
Понятно, что криво-косо, но это 5 минут вместо недели. И это пока.
Кнопка "сделать красиво" все ближе
@cgevent
Роден сгенерировал 3D-модель Патрика Стара, автоматически заригал ее, потом импорт в UE, где она была санимирована в реалтаймовом нейромокапе CYAN AI.
Понятно, что криво-косо, но это 5 минут вместо недели. И это пока.
Кнопка "сделать красиво" все ближе
@cgevent
🔥42👍11😁6❤1
Рендер или видео?
Ускорено или нет?
Рендер - 👍
Видео -🔥
Китайцы из EngineAI, конечно, приподзажигают со своими робатами.
А мы тут такие, 3Д генераторы, Wonder Dynamics, все дела..
@cgevent
Ускорено или нет?
Рендер - 👍
Видео -
Китайцы из EngineAI, конечно, приподзажигают со своими робатами.
А мы тут такие, 3Д генераторы, Wonder Dynamics, все дела..
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
36🔥131👍34❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Помните старый фильм Живая сталь (Real Steel, 2011)?
Сколько интересно был бюджет на графику\аниматронику.
А сейчас можно взять робата из предыдущего поста и просто снять, а потом ускорить. 😄
@cgevent
Сколько интересно был бюджет на графику\аниматронику.
А сейчас можно взять робата из предыдущего поста и просто снять, а потом ускорить. 😄
@cgevent
👍26❤4
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ идет по спирали.
Когда-то у Диснея еще в 2018(!!) году была удивительная работа (Cardinal AI) по конвертации сценариев(сторибордов) прямо в анимацию, а не в статичные модели. Они обновили ее в 2019 году (ссылка), и там это выглядело не только как построение лэйаутов, а еще и генерация анимации. И да, все это работало на основе библиотеки моделей, откуда таскались ассеты.
А теперь поглядите куда мы пришли со связкой Блендор + Клод + MCP.
На прошлой неделе Клод моделил самолетики и мебель, а сейчас смышленые парни прикрутили туда 3Д-сток с модельками, чтобы он не мучился, а таскал ассеты оттуда.
Вы просто покрутите видео и поглядите как импортируются текстуры, модели и хдри. И создается сцена с пляжем
И вот тут пора расчехляться Шаттерстоку...
Проматываем вперед: стоки забиты сгенерированными текстурами и 3Д-моделями, над ними парит Блендор, который на стероидах Клода, быстро собирает лего в соответствии с промптами (нет, не юзера, а) LLM, которая переводит хотелки заказчика в нужные промпты.
А Блендор нейрорендерит все это под нужный стиль..
@cgevent
Когда-то у Диснея еще в 2018(!!) году была удивительная работа (Cardinal AI) по конвертации сценариев(сторибордов) прямо в анимацию, а не в статичные модели. Они обновили ее в 2019 году (ссылка), и там это выглядело не только как построение лэйаутов, а еще и генерация анимации. И да, все это работало на основе библиотеки моделей, откуда таскались ассеты.
А теперь поглядите куда мы пришли со связкой Блендор + Клод + MCP.
На прошлой неделе Клод моделил самолетики и мебель, а сейчас смышленые парни прикрутили туда 3Д-сток с модельками, чтобы он не мучился, а таскал ассеты оттуда.
Вы просто покрутите видео и поглядите как импортируются текстуры, модели и хдри. И создается сцена с пляжем
И вот тут пора расчехляться Шаттерстоку...
Проматываем вперед: стоки забиты сгенерированными текстурами и 3Д-моделями, над ними парит Блендор, который на стероидах Клода, быстро собирает лего в соответствии с промптами (нет, не юзера, а) LLM, которая переводит хотелки заказчика в нужные промпты.
А Блендор нейрорендерит все это под нужный стиль..
@cgevent
4🔥64👍12❤3
Квази-3Д-генерация. И квази-ретопология.
Берете картинку, открываете Google AI Studio (бесплатно), берете модель 2.0 Flash или 2.0 Flash Thinking, даете ей на вход свою картинку и просите:
Гугл выдает вам, грубо говоря, wireframe render.
Он сам сегментирует объекты, честно пытается представить их топологию в 3Д и выдает вам варианты.
Скажу заранее, вам придется с ним как следует поругаться, прежде чем он что-то начнет выдавать. Например, сначала попросите сгенерить просто любую картинку.
Еще раз, это просто 2Д-картинка. Тут нет 3Д модели.
Но очень интересно смотреть, как он "понимает" сцену.
Я сгенерил бутылку на столе(первая картинка) - сцена простая, но вы можете его помучить на более сложных сценах. Обратите внимание на топологию стола и окна на второй картинке.
@cgevent
Берете картинку, открываете Google AI Studio (бесплатно), берете модель 2.0 Flash или 2.0 Flash Thinking, даете ей на вход свою картинку и просите:
edit this image to generate with Imagen3 a 3d wireframe representation (as image) of every unique object and subject in this scene. it should look like a blender 3d viewport with wireframe mode turned on.
Гугл выдает вам, грубо говоря, wireframe render.
Он сам сегментирует объекты, честно пытается представить их топологию в 3Д и выдает вам варианты.
Скажу заранее, вам придется с ним как следует поругаться, прежде чем он что-то начнет выдавать. Например, сначала попросите сгенерить просто любую картинку.
Еще раз, это просто 2Д-картинка. Тут нет 3Д модели.
Но очень интересно смотреть, как он "понимает" сцену.
Я сгенерил бутылку на столе(первая картинка) - сцена простая, но вы можете его помучить на более сложных сценах. Обратите внимание на топологию стола и окна на второй картинке.
@cgevent
2❤23👍18😁3