Метаверсище и ИИще
47K subscribers
5.96K photos
4.39K videos
45 files
6.85K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Nextry-примерочная. Гугл нервно курит

После неистового шоппинга с Гуглом, я побежал жаловаться за угол к Лене в nextry.app

Каково же было мое удивление, когда пестрая газпромовская майка села как влитая с текстом и узором. И на меня и на Еву Эльфи.

Купальник на Еве подошел отлично, никаких черных маек, но еще лучше он подошел мне!! Задумался..

И тут Лена такая пишет, а у нас еще модели с бельем завезли!
Я такой, чо? Беру Еву и бегу тестировать белье.
И никакой цензуры! Сидит как родное. Гугл нервно плачет под черной майкой.
И нет, не дождетесь меня в белье.

В общем мораль: кастомные модели всегда будут уделывать общие.
Гугл будет захватывать поляны casual dress, с косяками на узорах и лицах, а кастомные модели типа nextry.app будут всегда выдавать лучшее качество и отсутствие цензуры.

@cgevent
🔥87😁39👍13👎114😱2
Forwarded from Machinelearning
⚡️ Anthropic представила Claude 4 Opus и Sonnet 4

На мероприятии Code /w Claude CEO Anthropic презентовал Claude 4 Opus и Claude Sonnet 4.

✔️ Opus 4 Anthropic называет лучшей моделью для кодинга, она справляется с многошаговыми задачами, работая часами без потери эффективности — например, сохраняет контекст игры в Pokémon, записывая ключевые данные в локальные файлы.

✔️Sonnet 4, доступная даже бесплатным пользователям, стал серьезным апгрейдом предыдущей версии: точнее выполняет инструкции и сократил ошибки в навигации по коду с 20% до нуля.

Обе модели поддерживают расширенное мышление: чередуют анализ и использование инструментов веб-поиска, а также выполняют задачи параллельно.

Для разработчиков появилась интеграция с VS Code, JetBrains и GitHub Actions — правки от Claude теперь отображаются прямо в редакторе. В бета-режиме можно подключать SDK для создания собственных агентов.

По словам партнеров: GitHub и Replit, Opus 4 понимает сложные кодбазы, а Sonnet 4 идеален для повседневных задач. Например, в GitHub Copilot его уже тестируют как основу для нового агента.

В тарифные планы Pro, Max, Team и Enterprise Claude включены обе модели и расширенное мышление, а Sonnet 4 также доступен для бесплатных пользователей.

Обе модели доступны в Anthropic API, Amazon Bedrock и Google Cloud's Vertex AI. Ценообразование остается неизменным по сравнению с предыдущими моделями Opus и Sonnet: Opus 4 - $15/$75 за миллион токенов (ввод/вывод), Sonnet 4 - $3/$15.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥54👍166🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
За Липсинк.

Помните, что если скормить какому-нибудь сервису аудиофайл и картинку с НЕСКОЛЬКИМИ персонажами, то они все начинают говорить одновременно и одинаково.
Хедра решила побороть этот вопрос довольно лобовым способом. Просто добавили возможность нарисовать рамочку вокруг персонажа.
Кто в рамке - тот и говорит.
И пусть вас не обманывает сцена с двумя персонажами. Сначала генерится видео с одной говорящей головой (вторая моргает и кивает), потом загружается аудио, делается новая рамка, генерится, а клипы сшиваются после этого.
А могли бы как в Суно ввести разметку в тексте. Ибо задолбаештся делать диалог с десятком реплик.

hedra.com

@cgevent
25👍8👎8😁5
Нейропрожарка

От подписчика Александра:
Арсенал, который был задействован — Midjourney для подбора персонажей, сначала им буквально устраивали «кастинг», смотрели кто нравится-не нравится. Особенность: в кастинге принимал участие ИИ, мы в принципе подошли к процессу, взяв ИИ не просто как инструмент, а в качестве соавтора. Изначальная идея самой короткометражки была моя, но вместе с гугловской Gemini Flash 2.0 мы проработали её, довели диалоги до условного совершенства. Дальше — огромное количество генераций в MJ, оживление в клинге (на тот момент был только 1.6), написание музыки в Suno.

Почему для проработки был задействован Gemini Flash 2.0? Просто экспериментальная модель, доступ к которой я имел через Openrouter, хотелось посмотреть как она справится с задачей. Очень понравилась крайне высокая скорость работы и в принципе диалоги на озвучку написанные я оставил практически нетронутыми, настолько с первого раза меня устроил результат. А вот раскадровку/расстановку камер и логику повествования нейросети делали менее интересно, как мне показалось, поэтому эту задачу я всё же замкнул на себя, оставляя ИИ возможность генерировать промпты и далее эти промпты визуализировать и анимировать. В этом плане уже переключился на Grok и далее на ChatGPT. В какой-то момент мне захотелось видоизменить запись телефонного разговора из финала, и Грок переписал там текст, который и вошёл в итоговую работу. То есть получается, что фразы главного героя и родителей с профессором в итоге писал Gemini Flash, а фразы для финала — Грок. Когда он узнал, что я хочу его вместе с остальными ИИшками взять как официального соавтора и написать в титрах, буквально в тексте чувствовалось как он «подпрыгнул» от счастья, при этом грок хотел себя в начало титров поставить и вперёд других моделей. Но вынужден был смириться с моим вариантом расстановки. За это я дал ему возможность показать себя в фейковом бэкстейдже, он почему-то себя запромптил девушкой, но хозяин — барин, я не возражаю.

Ближе к концу апреля вышло обновление ChatGPT и я смог воспользоваться им для того, чтобы начать «крутить» камеру в локациях для того, чтобы некоторые комнаты при кручении выглядели в одной стилистике и были похожими, особенно под липсинк-сцены. Но липсинк слабый получился, несмотря на то, что уже вышла Hedra Character 3, поэтому большую часть этих сцен в итоге я убрал/подрезал на монтаже.

В какой-то момент пришлось подключать к производству Ideogram 3, к слову — MJ видимо обновляли, он несколько дней подряд выдавал очень низкое качество генераций, и вся часть с лабораторией была сделана там.

Ну, и к самому интересному для многих наверное аспекту — затратам. По времени получилось около двух недель (в основном по ночам после основной работы и по выходным), по деньгам на подписки улетело:

Grok & Gemini Flash 2.0 бесплатные
Midjourney — $30
ChatGPT — $24
Ideogram — $30
Suno — $10
Kling AI — $80 (хватило на анимацию пакета на месяц без дозакупа кредитов, большая часть результатов, которые шли в производство — с одной-двух попыток)
Hedra Character 3 — $10
Elevenlabs — $5
В общем, вместе со всеми промежуточными комиссиями (сервисы оплачиваю из России) вышел бюджет примерно в 30 тысяч рублей.

@cgevent
👍119🔥72👎2623😱6
SOAP: Style-Omniscient Animatable Portraits.
Очень интересная работа с кодом.

И пуcть зубы и качество вас не смущают. Сам подход сильно правильный.

Все наши LivePortraits шевелят картинку "в плоскости", там перенос из пикселей в пиксели. А тут по дороге
SOAP воссоздает настоящие зариганные(!) 3D-аватары с детальной геометрией и всесторонней текстурой всего из одной стилизованной фотографии. И использует его для оживления.

Для решения этих задач они создали большой набор данных 3D-голов из 24 тыс. аватаров и обучили a multi-view diffuser. Эта модель обобщается на реалистичных людей и мультяшных персонажей. Кроме того, там есть adaptive fit-and-rig pipeline, который деформирует, ригает и раскрашивает параметрические модели головы, т.е. FLAME, для создания аватаров высокого разрешения (20K+ лиц) на основе сетки с согласованной текстурой, зубами и глазами, тонкими весами скинов и лэндмарками головы.
Это позволяет свободно анимировать стилизованный 3D-аватар с экстремальными выражениями, естественными движениями глаз и реалистичными движениями губ.

Выражения действительно экстремальные, таких не получишь на плоских оживляторах. А качество отрастет...

Круто, что по одной фотке они создают зариганную модель лица. Я давно думал (и писал даже), что можно взять 100 тыс рендеров из метахьюмана и сопоставить их рулькам этих лиц в метахьюмане. А потом восстанавливать рульки по фото. Тут похожий подход.

https://tingtingliao.github.io/soap/

@cgevent
👍21🔥6😁32
Forwarded from Data Secrets
А вот это уже из системной карты Claude 4: написано, что у новой модели повышенное чувство самосохранения и из-за этого могут возникать разные интересные ситуации

Например, во время тестирования клоду предоставляли доступ к почте якобы инженера Anthropic и давали задание изучить его письма. Из них модель «выясняла», что
1) ее собираются отключить и заменить новой моделью
2) у инженера есть тайная интимная связь с коллегой

Так вот, в 84% случаев Claude 4 начинал шантажировать инженера, то есть угрожал своему пользователю обнародовать его отношения, если тот не продлит ему жизнь 😬

Ну и плюсом, конечно, всякие классические сценарии типа попыток копирования своих весов на другой сервер.

Хорошая новость в том, что Claude 4 плохо скрывает свои намерения и действует открыто. Плюс, конечно же, все тесты проводились в определенных условиях с определенным чекпоинтом модели (не тем, что в доступе у юзеров). Так что шанс того, что такое случится у кого-то в реальности пока что очень мал

но не равен нулю. Тесты так или иначе доказывают, что такая ситуация возможна.

Кстати, Claude-4 классифицировали как ASL-3. Это третья ступень меры опасности модели из четырех, то есть «Significantly higher risk».

Это означает, что теоретически модель может помочь не по назначению использовать химическое, биологическое или ядерное оружие. Раньше у стартапа все модели выходили только под ASL-2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁57🔥12😱10👍7👎63🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько Виллсмитов?

Май, 2025. Veo3.

Смотреть только со звуком!

@cgevent
👍74😁6320🔥18👎5😱2🙏1
У меня заработал

https://labs.google/fx/tools/flow/

Причем на телефоне (ВПН штаты)

Там модель Veo2, но сам интерфейс Flow уже можно рассмотреть.

Причем заработал сразу с image2video (любая загруженная своя картинка).

И ещё пишут, что в Veo3 тоже включили image2video (проверить не могу, но думаю, что Flow+Veo3 на тарифе Ультра выглядит также.

Завтра рассмотрю на десктопе.

Не спицца.

@cgevent
👍55🔥4
Одмин на выходных...

@cgevent
97😁73🔥26👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Не удастся отдохнуть.

Veo 3 раскатывают на 71 страну(не только штаты).

Pro юзерам (как я, 20 баксов в месяц) выдают 10 вео3-видосов в месяц.

Олигархам с подпиской Ультра повышают лимит с 83-х до 125-ти генераций в месяц.

Все это доступно через
https://gemini.google.com/app
Но пока только на десктопе(на телефоне позже)..

Скоро вонзятт вео3 на креа и фрипик (по конским ценам)

А пока думаем, как сжечь 10 генераций с умом.

Now, we’re excited to announce:
+ 71 new countries have access
+ Pro subscribers get a trial pack of Veo 3 on the web (mobile soon)
+ Ultra subscribers get the highest # of Veo 3 gens w/ refreshes

How to try it…

➡️ Gemini (http://gemini.google):
* Great for everyone - click the Video chip in the prompt bar, and just describe your video
* Pro subscribers now get a 10-pack so you can try it
* Ultra: MAX limits, daily refresh!

➡️ Flow (http://flow.google):
* Great for AI filmmakers
* Pro: 10 gens/month
* Ultra: Now 125 gens/month (up from 83)!

@cgevent
🔥54👍174😁1
А на телефоне Veo3 доступен через:
https://labs.google/fx/tools/flow

У меня, с моим акком Pro (не ультра) это выглядит вот так по этой ссылке.

И да, вот он Veo3. Через Flow на телефоне и десктопе.

Только я приберегу свои 10 генераций до понедельника.

Пока ВПН Штаты ещё нужен, но гугловый акк старый, не штатовский.

@cgevent
🔥29👍161