Forwarded from Machinelearning
На мероприятии Code /w Claude CEO Anthropic презентовал Claude 4 Opus и Claude Sonnet 4.
Обе модели поддерживают расширенное мышление: чередуют анализ и использование инструментов веб-поиска, а также выполняют задачи параллельно.
Для разработчиков появилась интеграция с VS Code, JetBrains и GitHub Actions — правки от Claude теперь отображаются прямо в редакторе. В бета-режиме можно подключать SDK для создания собственных агентов.
По словам партнеров: GitHub и Replit, Opus 4 понимает сложные кодбазы, а Sonnet 4 идеален для повседневных задач. Например, в GitHub Copilot его уже тестируют как основу для нового агента.
В тарифные планы Pro, Max, Team и Enterprise Claude включены обе модели и расширенное мышление, а Sonnet 4 также доступен для бесплатных пользователей.
Обе модели доступны в Anthropic API, Amazon Bedrock и Google Cloud's Vertex AI. Ценообразование остается неизменным по сравнению с предыдущими моделями Opus и Sonnet: Opus 4 - $15/$75 за миллион токенов (ввод/вывод), Sonnet 4 - $3/$15.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥54👍16❤6🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
За Липсинк.
Помните, что если скормить какому-нибудь сервису аудиофайл и картинку с НЕСКОЛЬКИМИ персонажами, то они все начинают говорить одновременно и одинаково.
Хедра решила побороть этот вопрос довольно лобовым способом. Просто добавили возможность нарисовать рамочку вокруг персонажа.
Кто в рамке - тот и говорит.
И пусть вас не обманывает сцена с двумя персонажами. Сначала генерится видео с одной говорящей головой (вторая моргает и кивает), потом загружается аудио, делается новая рамка, генерится, а клипы сшиваются после этого.
А могли бы как в Суно ввести разметку в тексте. Ибо задолбаештся делать диалог с десятком реплик.
hedra.com
@cgevent
Помните, что если скормить какому-нибудь сервису аудиофайл и картинку с НЕСКОЛЬКИМИ персонажами, то они все начинают говорить одновременно и одинаково.
Хедра решила побороть этот вопрос довольно лобовым способом. Просто добавили возможность нарисовать рамочку вокруг персонажа.
Кто в рамке - тот и говорит.
И пусть вас не обманывает сцена с двумя персонажами. Сначала генерится видео с одной говорящей головой (вторая моргает и кивает), потом загружается аудио, делается новая рамка, генерится, а клипы сшиваются после этого.
А могли бы как в Суно ввести разметку в тексте. Ибо задолбаештся делать диалог с десятком реплик.
hedra.com
@cgevent
❤25👍8👎8😁5
Нейропрожарка
От подписчика Александра:
Арсенал, который был задействован — Midjourney для подбора персонажей, сначала им буквально устраивали «кастинг», смотрели кто нравится-не нравится. Особенность: в кастинге принимал участие ИИ, мы в принципе подошли к процессу, взяв ИИ не просто как инструмент, а в качестве соавтора. Изначальная идея самой короткометражки была моя, но вместе с гугловской Gemini Flash 2.0 мы проработали её, довели диалоги до условного совершенства. Дальше — огромное количество генераций в MJ, оживление в клинге (на тот момент был только 1.6), написание музыки в Suno.
Почему для проработки был задействован Gemini Flash 2.0? Просто экспериментальная модель, доступ к которой я имел через Openrouter, хотелось посмотреть как она справится с задачей. Очень понравилась крайне высокая скорость работы и в принципе диалоги на озвучку написанные я оставил практически нетронутыми, настолько с первого раза меня устроил результат. А вот раскадровку/расстановку камер и логику повествования нейросети делали менее интересно, как мне показалось, поэтому эту задачу я всё же замкнул на себя, оставляя ИИ возможность генерировать промпты и далее эти промпты визуализировать и анимировать. В этом плане уже переключился на Grok и далее на ChatGPT. В какой-то момент мне захотелось видоизменить запись телефонного разговора из финала, и Грок переписал там текст, который и вошёл в итоговую работу. То есть получается, что фразы главного героя и родителей с профессором в итоге писал Gemini Flash, а фразы для финала — Грок. Когда он узнал, что я хочу его вместе с остальными ИИшками взять как официального соавтора и написать в титрах, буквально в тексте чувствовалось как он «подпрыгнул» от счастья, при этом грок хотел себя в начало титров поставить и вперёд других моделей. Но вынужден был смириться с моим вариантом расстановки. За это я дал ему возможность показать себя в фейковом бэкстейдже, он почему-то себя запромптил девушкой, но хозяин — барин, я не возражаю.
Ближе к концу апреля вышло обновление ChatGPT и я смог воспользоваться им для того, чтобы начать «крутить» камеру в локациях для того, чтобы некоторые комнаты при кручении выглядели в одной стилистике и были похожими, особенно под липсинк-сцены. Но липсинк слабый получился, несмотря на то, что уже вышла Hedra Character 3, поэтому большую часть этих сцен в итоге я убрал/подрезал на монтаже.
В какой-то момент пришлось подключать к производству Ideogram 3, к слову — MJ видимо обновляли, он несколько дней подряд выдавал очень низкое качество генераций, и вся часть с лабораторией была сделана там.
Ну, и к самому интересному для многих наверное аспекту — затратам. По времени получилось около двух недель (в основном по ночам после основной работы и по выходным), по деньгам на подписки улетело:
Grok & Gemini Flash 2.0 бесплатные
Midjourney — $30
ChatGPT — $24
Ideogram — $30
Suno — $10
Kling AI — $80 (хватило на анимацию пакета на месяц без дозакупа кредитов, большая часть результатов, которые шли в производство — с одной-двух попыток)
Hedra Character 3 — $10
Elevenlabs — $5
В общем, вместе со всеми промежуточными комиссиями (сервисы оплачиваю из России) вышел бюджет примерно в 30 тысяч рублей.
@cgevent
От подписчика Александра:
Арсенал, который был задействован — Midjourney для подбора персонажей, сначала им буквально устраивали «кастинг», смотрели кто нравится-не нравится. Особенность: в кастинге принимал участие ИИ, мы в принципе подошли к процессу, взяв ИИ не просто как инструмент, а в качестве соавтора. Изначальная идея самой короткометражки была моя, но вместе с гугловской Gemini Flash 2.0 мы проработали её, довели диалоги до условного совершенства. Дальше — огромное количество генераций в MJ, оживление в клинге (на тот момент был только 1.6), написание музыки в Suno.
Почему для проработки был задействован Gemini Flash 2.0? Просто экспериментальная модель, доступ к которой я имел через Openrouter, хотелось посмотреть как она справится с задачей. Очень понравилась крайне высокая скорость работы и в принципе диалоги на озвучку написанные я оставил практически нетронутыми, настолько с первого раза меня устроил результат. А вот раскадровку/расстановку камер и логику повествования нейросети делали менее интересно, как мне показалось, поэтому эту задачу я всё же замкнул на себя, оставляя ИИ возможность генерировать промпты и далее эти промпты визуализировать и анимировать. В этом плане уже переключился на Grok и далее на ChatGPT. В какой-то момент мне захотелось видоизменить запись телефонного разговора из финала, и Грок переписал там текст, который и вошёл в итоговую работу. То есть получается, что фразы главного героя и родителей с профессором в итоге писал Gemini Flash, а фразы для финала — Грок. Когда он узнал, что я хочу его вместе с остальными ИИшками взять как официального соавтора и написать в титрах, буквально в тексте чувствовалось как он «подпрыгнул» от счастья, при этом грок хотел себя в начало титров поставить и вперёд других моделей. Но вынужден был смириться с моим вариантом расстановки. За это я дал ему возможность показать себя в фейковом бэкстейдже, он почему-то себя запромптил девушкой, но хозяин — барин, я не возражаю.
Ближе к концу апреля вышло обновление ChatGPT и я смог воспользоваться им для того, чтобы начать «крутить» камеру в локациях для того, чтобы некоторые комнаты при кручении выглядели в одной стилистике и были похожими, особенно под липсинк-сцены. Но липсинк слабый получился, несмотря на то, что уже вышла Hedra Character 3, поэтому большую часть этих сцен в итоге я убрал/подрезал на монтаже.
В какой-то момент пришлось подключать к производству Ideogram 3, к слову — MJ видимо обновляли, он несколько дней подряд выдавал очень низкое качество генераций, и вся часть с лабораторией была сделана там.
Ну, и к самому интересному для многих наверное аспекту — затратам. По времени получилось около двух недель (в основном по ночам после основной работы и по выходным), по деньгам на подписки улетело:
Grok & Gemini Flash 2.0 бесплатные
Midjourney — $30
ChatGPT — $24
Ideogram — $30
Suno — $10
Kling AI — $80 (хватило на анимацию пакета на месяц без дозакупа кредитов, большая часть результатов, которые шли в производство — с одной-двух попыток)
Hedra Character 3 — $10
Elevenlabs — $5
В общем, вместе со всеми промежуточными комиссиями (сервисы оплачиваю из России) вышел бюджет примерно в 30 тысяч рублей.
@cgevent
👍119🔥72👎26❤23😱6
SOAP: Style-Omniscient Animatable Portraits.
Очень интересная работа с кодом.
И пуcть зубы и качество вас не смущают. Сам подход сильно правильный.
Все наши LivePortraits шевелят картинку "в плоскости", там перенос из пикселей в пиксели. А тут по дороге
SOAP воссоздает настоящие зариганные(!) 3D-аватары с детальной геометрией и всесторонней текстурой всего из одной стилизованной фотографии. И использует его для оживления.
Для решения этих задач они создали большой набор данных 3D-голов из 24 тыс. аватаров и обучили a multi-view diffuser. Эта модель обобщается на реалистичных людей и мультяшных персонажей. Кроме того, там есть adaptive fit-and-rig pipeline, который деформирует, ригает и раскрашивает параметрические модели головы, т.е. FLAME, для создания аватаров высокого разрешения (20K+ лиц) на основе сетки с согласованной текстурой, зубами и глазами, тонкими весами скинов и лэндмарками головы.
Это позволяет свободно анимировать стилизованный 3D-аватар с экстремальными выражениями, естественными движениями глаз и реалистичными движениями губ.
Выражения действительно экстремальные, таких не получишь на плоских оживляторах. А качество отрастет...
Круто, что по одной фотке они создают зариганную модель лица. Я давно думал (и писал даже), что можно взять 100 тыс рендеров из метахьюмана и сопоставить их рулькам этих лиц в метахьюмане. А потом восстанавливать рульки по фото. Тут похожий подход.
https://tingtingliao.github.io/soap/
@cgevent
Очень интересная работа с кодом.
И пуcть зубы и качество вас не смущают. Сам подход сильно правильный.
Все наши LivePortraits шевелят картинку "в плоскости", там перенос из пикселей в пиксели. А тут по дороге
SOAP воссоздает настоящие зариганные(!) 3D-аватары с детальной геометрией и всесторонней текстурой всего из одной стилизованной фотографии. И использует его для оживления.
Для решения этих задач они создали большой набор данных 3D-голов из 24 тыс. аватаров и обучили a multi-view diffuser. Эта модель обобщается на реалистичных людей и мультяшных персонажей. Кроме того, там есть adaptive fit-and-rig pipeline, который деформирует, ригает и раскрашивает параметрические модели головы, т.е. FLAME, для создания аватаров высокого разрешения (20K+ лиц) на основе сетки с согласованной текстурой, зубами и глазами, тонкими весами скинов и лэндмарками головы.
Это позволяет свободно анимировать стилизованный 3D-аватар с экстремальными выражениями, естественными движениями глаз и реалистичными движениями губ.
Выражения действительно экстремальные, таких не получишь на плоских оживляторах. А качество отрастет...
Круто, что по одной фотке они создают зариганную модель лица. Я давно думал (и писал даже), что можно взять 100 тыс рендеров из метахьюмана и сопоставить их рулькам этих лиц в метахьюмане. А потом восстанавливать рульки по фото. Тут похожий подход.
https://tingtingliao.github.io/soap/
@cgevent
👍21🔥6😁3❤2
Forwarded from Data Secrets
А вот это уже из системной карты Claude 4: написано, что у новой модели повышенное чувство самосохранения и из-за этого могут возникать разные интересные ситуации
Например, во время тестирования клоду предоставляли доступ к почте якобы инженера Anthropic и давали задание изучить его письма. Из них модель «выясняла», что
1) ее собираются отключить и заменить новой моделью
2) у инженера есть тайная интимная связь с коллегой
Так вот, в 84% случаев Claude 4 начинал шантажировать инженера, то есть угрожал своему пользователю обнародовать его отношения, если тот не продлит ему жизнь😬
Ну и плюсом, конечно, всякие классические сценарии типа попыток копирования своих весов на другой сервер.
Хорошая новость в том, что Claude 4 плохо скрывает свои намерения и действует открыто. Плюс, конечно же, все тесты проводились в определенных условиях с определенным чекпоинтом модели (не тем, что в доступе у юзеров). Так что шанс того, что такое случится у кого-то в реальности пока что очень мал
… но не равен нулю. Тесты так или иначе доказывают, что такая ситуация возможна.
Кстати, Claude-4 классифицировали как ASL-3. Это третья ступень меры опасности модели из четырех, то есть «Significantly higher risk».
Это означает, что теоретически модель может помочь не по назначению использовать химическое, биологическое или ядерное оружие. Раньше у стартапа все модели выходили только под ASL-2.
Например, во время тестирования клоду предоставляли доступ к почте якобы инженера Anthropic и давали задание изучить его письма. Из них модель «выясняла», что
1) ее собираются отключить и заменить новой моделью
2) у инженера есть тайная интимная связь с коллегой
Так вот, в 84% случаев Claude 4 начинал шантажировать инженера, то есть угрожал своему пользователю обнародовать его отношения, если тот не продлит ему жизнь
Ну и плюсом, конечно, всякие классические сценарии типа попыток копирования своих весов на другой сервер.
Хорошая новость в том, что Claude 4 плохо скрывает свои намерения и действует открыто. Плюс, конечно же, все тесты проводились в определенных условиях с определенным чекпоинтом модели (не тем, что в доступе у юзеров). Так что шанс того, что такое случится у кого-то в реальности пока что очень мал
… но не равен нулю. Тесты так или иначе доказывают, что такая ситуация возможна.
Кстати, Claude-4 классифицировали как ASL-3. Это третья ступень меры опасности модели из четырех, то есть «Significantly higher risk».
Это означает, что теоретически модель может помочь не по назначению использовать химическое, биологическое или ядерное оружие. Раньше у стартапа все модели выходили только под ASL-2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁57🔥12😱10👍7👎6❤3🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
👍74😁63❤20🔥18👎5😱2🙏1
У меня заработал
https://labs.google/fx/tools/flow/
Причем на телефоне (ВПН штаты)
Там модель Veo2, но сам интерфейс Flow уже можно рассмотреть.
Причем заработал сразу с image2video (любая загруженная своя картинка).
И ещё пишут, что в Veo3 тоже включили image2video (проверить не могу, но думаю, что Flow+Veo3 на тарифе Ультра выглядит также.
Завтра рассмотрю на десктопе.
Не спицца.
@cgevent
https://labs.google/fx/tools/flow/
Причем на телефоне (ВПН штаты)
Там модель Veo2, но сам интерфейс Flow уже можно рассмотреть.
Причем заработал сразу с image2video (любая загруженная своя картинка).
И ещё пишут, что в Veo3 тоже включили image2video (проверить не могу, но думаю, что Flow+Veo3 на тарифе Ультра выглядит также.
Завтра рассмотрю на десктопе.
Не спицца.
@cgevent
👍55🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Не удастся отдохнуть.
Veo 3 раскатывают на 71 страну(не только штаты).
Pro юзерам (как я, 20 баксов в месяц) выдают 10 вео3-видосов в месяц.
Олигархам с подпиской Ультра повышают лимит с 83-х до 125-ти генераций в месяц.
Все это доступно через
https://gemini.google.com/app
Но пока только на десктопе(на телефоне позже)..
Скоро вонзятт вео3 на креа и фрипик (по конским ценам)
А пока думаем, как сжечь 10 генераций с умом.
Now, we’re excited to announce:
+ 71 new countries have access
+ Pro subscribers get a trial pack of Veo 3 on the web (mobile soon)
+ Ultra subscribers get the highest # of Veo 3 gens w/ refreshes
How to try it…
➡️ Gemini (http://gemini.google):
* Great for everyone - click the Video chip in the prompt bar, and just describe your video
* Pro subscribers now get a 10-pack so you can try it
* Ultra: MAX limits, daily refresh!
➡️ Flow (http://flow.google):
* Great for AI filmmakers
* Pro: 10 gens/month
* Ultra: Now 125 gens/month (up from 83)!
@cgevent
Veo 3 раскатывают на 71 страну(не только штаты).
Pro юзерам (как я, 20 баксов в месяц) выдают 10 вео3-видосов в месяц.
Олигархам с подпиской Ультра повышают лимит с 83-х до 125-ти генераций в месяц.
Все это доступно через
https://gemini.google.com/app
Но пока только на десктопе(на телефоне позже)..
Скоро вонзятт вео3 на креа и фрипик (по конским ценам)
А пока думаем, как сжечь 10 генераций с умом.
Now, we’re excited to announce:
+ 71 new countries have access
+ Pro subscribers get a trial pack of Veo 3 on the web (mobile soon)
+ Ultra subscribers get the highest # of Veo 3 gens w/ refreshes
How to try it…
➡️ Gemini (http://gemini.google):
* Great for everyone - click the Video chip in the prompt bar, and just describe your video
* Pro subscribers now get a 10-pack so you can try it
* Ultra: MAX limits, daily refresh!
➡️ Flow (http://flow.google):
* Great for AI filmmakers
* Pro: 10 gens/month
* Ultra: Now 125 gens/month (up from 83)!
@cgevent
🔥54👍17❤4😁1
А на телефоне Veo3 доступен через:
https://labs.google/fx/tools/flow
У меня, с моим акком Pro (не ультра) это выглядит вот так по этой ссылке.
И да, вот он Veo3. Через Flow на телефоне и десктопе.
Только я приберегу свои 10 генераций до понедельника.
Пока ВПН Штаты ещё нужен, но гугловый акк старый, не штатовский.
@cgevent
https://labs.google/fx/tools/flow
У меня, с моим акком Pro (не ультра) это выглядит вот так по этой ссылке.
И да, вот он Veo3. Через Flow на телефоне и десктопе.
Только я приберегу свои 10 генераций до понедельника.
Пока ВПН Штаты ещё нужен, но гугловый акк старый, не штатовский.
@cgevent
🔥29👍16❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Неплохой монтаж из Veo3
Для репортажной съёмки отлично подходит, по свету не сильно палится и озвучка огненная.
Вопрос фейк-ньюс закрыт. Видел уже телевизионные новости из вео3, игровые стримы, интервью на улицах.
Наверное можно выпить за документальную съёмку.
А если серьезно, то вот эти вот вопросы: "а давайте подснимем индейцев в Амазонии, цурикатов в Африке или птеродактилей в мезозое" мне кажется закрыты.
@cgevent
Для репортажной съёмки отлично подходит, по свету не сильно палится и озвучка огненная.
Вопрос фейк-ньюс закрыт. Видел уже телевизионные новости из вео3, игровые стримы, интервью на улицах.
Наверное можно выпить за документальную съёмку.
А если серьезно, то вот эти вот вопросы: "а давайте подснимем индейцев в Амазонии, цурикатов в Африке или птеродактилей в мезозое" мне кажется закрыты.
@cgevent
1🔥116❤38👍17😱15👎7😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Рендер, видео или Veo3?
Фильм "Живая сталь" уже здесь..
Накаркали..
CMG World Robot Competition – Mecha Fighting Series: соревнования в Китае. Здесь и сейчас.
С понедельником.
@cgevent
Фильм "Живая сталь" уже здесь..
Накаркали..
CMG World Robot Competition – Mecha Fighting Series: соревнования в Китае. Здесь и сейчас.
С понедельником.
@cgevent
😁39🔥22👍6❤3
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Подсобрал для вас видосов из нового грядущего Клинга 2.1, который пока в Early Access.
Надо сказать, что после Veo3, конечно, сложновато смотреть на пережженные цвета, пластиковую кожу и немых персонажей.
Я, конечно, перебираю щщами и бешусь с жиру. Год назад у нас была только неведомая и недоступная Сора, а теперь видеогенераторов есть на любой вкус и цвет.
Veo3 вплотную подошел к планке качества картинки, за которой начнется гонка инструментов. И тут у Клинга есть пока пара козырей. Но инструменты дело наживное.
Ждем веб-монтажек от всех.
@cgevent
Надо сказать, что после Veo3, конечно, сложновато смотреть на пережженные цвета, пластиковую кожу и немых персонажей.
Я, конечно, перебираю щщами и бешусь с жиру. Год назад у нас была только неведомая и недоступная Сора, а теперь видеогенераторов есть на любой вкус и цвет.
Veo3 вплотную подошел к планке качества картинки, за которой начнется гонка инструментов. И тут у Клинга есть пока пара козырей. Но инструменты дело наживное.
Ждем веб-монтажек от всех.
@cgevent
👍45❤10🔥2😱1