Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Группа инвесторов во главе с Илоном Маском предложила около 97,4 миллиарда долларов за покупку некоммерческой организации behind OpenAI, которую Маск помог основать десять лет назад.
Альман отреагировал мгновенно.

@cgevent
😁32👍27👎12🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos

Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами

- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API


Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами

#voicecloning #tts #text2speech
3🔥46👍92
Недавно писал про новый апскейлер видео от Топаза. Он был в закрытой бете.

Дали воду в хату доступ для всех.
Го тестировать.

Дают немного кредитов.

https://app.topazlabs.com/experiments/starlight

@cgevent
👍205
Media is too big
VIEW IN TELEGRAM
Если честно, то даже я приподохренел.

Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...





















Пришлось смотреть 3 раза.

Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.

Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes

Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI

Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.

От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.

Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.

P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.

@cgevent
🔥165😱38👍2524👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас опять новый видеогенератор!

Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.

Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!

Итак, что интересного.

Image2Video из коробки, но это не главное, главное С-Скорость!

Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.

Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.

Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.

Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.

Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).

VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False

А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>

(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).

Stan Travis, готов? Ждем веса.

Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.

https://github.com/DA-Group-PKU

@cgevent
🔥41👍97😁2
Вопрос про телеграм. Я голову сломал, но не нашел ответа.

Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.

Вставьте буфер в текстовый редактор, получите link (http://www.link.url)

Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".

Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.

Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"

Вопрос: как Телега это делает? что она запоминает по дороге и где?

Надеюсь внятно написал

@cgevent
😁43👍115😱4
Forwarded from Neural Shit
Почти все видеогенераторы не умеют нормально генерировать людей вверх ногами. Если сгенерировать такое видео, а после перевернуть его на 180 градусов, то получается забавный эффект — люди моргают нижним веком + часто испытывают проблемы со ртом.

Сейчас знатно залип на генерации таких криповых уродцев
😁80😱12👍62👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Новый уже доступный видео-генератор.

Про Adobe Firefly Video Model мы уже слышали в прошлом году. Адобченко похвастался, привалил видосов в твиттор и ушел в очень закрытую бету.

А сейчас открыл бету. Для всех. За деньги. Можно пробовать.

За 10 баксов в месяц - 20 роликов по пять секунд.

За 30 баксов - 70 роликов.

Будет еще Unlimited Plan (там типа 500 генераций, а потом медленная очередь, но это неточно)

Также пишут: Try it yourself - first 2 video generations are free.

Из фишек: Generative Extend позволяет продлить видео. Пишут также про Fill the Gap - заполнение между клипами.

Scene to Image - 3D болванки можно использовать как референс. Что-то подобное видели в Креа, но тут интересна UX-реализация. Дело очень хорошее.

Только 1080p, 16:9, углы камеры и обзора можно регулировать.
Дичайшая цензура. Плохо, очень плохо генерирует людей. Не хочет
24 кадра в секунду - неплохо.

Translate and Lip Sync - тут 11lаbs поперхнулись немного. Но потом выдохнули: Translate Audio и Translate Video доступны на 20+ языках, а функция синхронизации губ доступна только корпоративным клиентам.

А теперь внимание Адобченко "работает над еще одним видеоинструментом с искусственным интеллектом, который поможет в преподакшене. Этот инструмент, который еще не анонсирован, поможет прийти к единому видению, создав грубый набросок того, как будет выглядеть сцена или ряд сцен."

О, как!

Как пишет Крис Каштанова, морфинг и турнтэйблы генерятся отлично, видно, что в датасете было много этого добра со стоков. "“rotate around” в промпте решает.

Готовьте свои деньги и бессонницу, в общем.

https://blog.adobe.com/en/publish/2025/02/12/meet-firefly-video-model-ai-powered-creation-with-unparalleled-creative-control

@cgevent
👍269🔥8👎1
Media is too big
VIEW IN TELEGRAM
Я подсобрал инфо про Firefly Video Model.

Довольно пластиковый лук. Очень характерный для Адобовских моделей.

Людей и портреты не получится. Хотя дети просачиваются.

По качеству (и охвату тем) очень далеко до Veo2. До Клинга думаю тоже, но надо смотреть.

Возможно для моушен дизайна зайдет, ловкие морфы и облеты, но мало данных пока.

@cgevent
👍204
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
🔥70👍2512👎2
Оставлю это здесь для гиков. Их есть в канале, судя по коментам.

This SDK can be used to integrate GitHub Copilot into any editor or IDE. See the documentation on the package to get started.

https://github.blog/changelog/2025-02-10-copilot-language-server-sdk-is-now-available/
🔥22👍8
RTX 5090 в три раза быстрее, чем RTX 3090TI?

Турецкий XpucT и инфант террибль реддита по имени Сефуркан (если вы в теме, то вы оцените шутку) отхватил за 4 косых RTX 5090 и ну тестировать ея на генерации картинок.

Тестировал FLUX DEV, SD 3.5 Large, SD 3.5 Medium, SDXL, SD 1.5.
RTX 5090 сравнивался с RTX 3090 TI во всех бенчмарках. Кроме того, сравнивались FP8 и FP16, а также влияние оперативки. Проц был AMD 9950X.

Мне даже читать посты Сефуркана сложно, а уж слушать и смотреть совсем больно, но вы держитесь. Его плюс в невыносимой занудности, что для тестов - самое то.

Если нервной энергии не хватит, то выводы (из видео) такие:

5090 уделывает 3090TI порой в ТРИ раза, а в среднем в 2.5.
Драйвера для 5090 все еще кривые и возможно дальнейшее увеличение скорости
ComfyUI (плюс SwarmUI) - пока единственный вариант погонять 5090. Хм(?)


Умные люди за пределами видео пишут, что по сравнению с 4090 прирост будет не так велик, около 1.3x

Но надо ждать допиленных драйверов и поддержки других библиотек, чтобы тесты стали более объективными.

А пока плачем, колемся, но смотрим видео.

https://www.youtube.com/watch?v=jHlGzaDLkto

@cgevent
😁26👍1412
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за аниматоров!

Я уже писал про работу от Нвидия, по анимации болванов текстовыми промптами.
Просто теперь ее сделали в 40 раз быстрее!
И она умеет переключаться между промптами на лету.
Я бы присмотрелся, код и весь фарш имеется.

https://github.com/GuyTevet/motion-diffusion-model


@cgevent
🔥59👍23😁7😱53👎1
Forwarded from Denis Sexy IT 🤖
Сделал простой гайд какие модели когда использовать в ChatGPT:

GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям

GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может их придумывать; перевожу ей картинки в текст если нужно быстро. Ее ответы нужно всегда факт-чекать. Зато эта модель имеет доступ к памяти (где все про вас), с ней можно общаться голосом, через нее можно вызывать генерацию картинок Dalle. Не рекомендую обрабатывать большие файлы с ней

GPT-4o with scheduled tasks (beta) – использую только для To Do: модель пишет мне каждое утро и спрашивает приоритеты, показывает текущий список задач и тп

o3-mini – хорошая модель для кодинга и жизни, хорошо ищет в интернете, неплохо следуют инструкциям и при этом очень быстрая; если вам некогда и нужен быстрый ответ, то берите ее. Для анализа картинок и файлов «быстро» хороший кандидат. Не имеет доступа к памяти. Реже ошибается в фактах, но ошибается. В Plus тире – 150 сообщений в день.

o3-mini-high – это просто версия o3-mini, которую просят думать подольше перед тем как дать ответ – работает она медленнее, но еще реже ошибается, и еще качественнее решает задачи. Великолепно следует инструкциям. Хорошо работает с файлами. Я бы советовал сначала тратить 50 запросов этой модели, и дальше переходить к o3-mini или o1.

o1 – модель генератор отчетов, эссе и рефератов. Медленная модель. Хорошо следует инструкциям, может ошибиться в фактах. Не может искать в интернете. Хорошо видит картинки и читает файлы, не теряя деталей. У вас всего 50 запросов в неделю. Требует промптинга с описанием отчета которого вы хотите получить.

o1 pro mode – лучшая модель на рынке: почти никогда не ошибается в фактах, решает самые сложные задачи кодинга, дольше всех думает, лучше всех понимает изображения, но не умеет искать в интернете и не умеет работать с файлами напрямую. С точки зрения фактов – модель всегда сама себя перепроверяет, за ~3 месяца использования я только один раз поймал ее на неточности. Требует детального промптинга с описанием отчета который вы хотите. Доступна только в Pro тире, лимитов нет.

Deep research – несмотря на то, что модель выведена в отдельную кнопку, это версия новой o3 для поиска в интернете, как ей лучше пользоваться я напишу отдельно когда дадут доступ всем. Модель ищет в интернете и сама пишет код (который вам не покажет) для анализа найденных данных, чтобы, например включить в отчет графики. Лучшее, что есть на рынке для поиска данных в интернете. Пока доступна только в Pro.

Tldr:
Для повседневных задач ваш лучший выбор – o3-mini-high, потом o3-mini, когда у первой кончились лимиты
👍7619🔥9😁6👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Для гиков.
Omnigen в Блендоре через Палладиум.

https://github.com/tin2tin/Pallaidium

Палладиум - это довольно несвежий, но живой проект: A generative AI movie studio integrated into the Blender Video Editor.

@cgevent
👍14🔥73😁1
Imagen 3 + Magnific Upscaler = FLUID

Похоже на рынке устаканиваются два крупных аггрегатора генеративных сервисов: Krea и Freepik.

Про Креа мы все в курсе, про Фрипик чуть подробнее.

Это был просто стоковый сервис, но они некоторое время назад пожрали Магнифик.

А Магнифик знаменит своим креативным (и очень дорогим) апскейлером MagnificAI.

А еще тем, что они брали чужие модели, наваливали на них апскейл и выдавали их за свои "новые модели"

В общем щас на Freepik полный фарш: они релизнули Freepik AI Suite, где есть FluxPro с инпейнтом и аггрегация видеомоделей.

Из последних новостей: Freepik AI Suite теперь включает тот самый дорогой Magnific AI.

Но это была подводка.

Сегодня они бахнули коллаб с Гуглом: Imagen 3 + Magnific Upscaler = FLUID

Они попять называют Флюид новой моделью, хотя это, грубо говоря ловко собранный воркфлоу\пайплайн

В общем выглядит это очень хорошо, ибо Imagen 3 довольно хорошо докрутили до годного, а сверху еще и лучший коммерческий апскейлер с рынка.

Получается отличное коммерческое комбо.

Поглядите сравнения тут, впечатляет.

@cgevent
24🔥12👍3👎1
Forwarded from Сиолошная
TheInformation пишет — но это и не секрет — что Anthropic близки к выпуску своей размышляющей модели. Не секрет это потому, что Dylan Patel и Semianalysis уже дважды говорил, что он слышал, что Anthropic имеет модель, сильнее o3, и что она пока не анонсирована.

Отличие от OpenAI в том, что «модель совмещает в себе как обычную LLM, так и рассуждающую», то есть для простых запросов она не думает долго, а сразу пишет ответ. Правда, не ясно, в чём функциональное отличие от OpenAI — у меня o1 иногда начинает писать ответ через 2 секунды, когда вопрос плёвый. Уверен, что можно сократить и до около нуля. У модели Anthropic тоже будут уровни, позволяющие контролировать длительность (и стоимость) рассуждений.

А про качество газетчики написали следующее: «когда модели позволяют думать в течение максимального количества времени, она превосходит самую продвинутую модель рассуждений OpenAI, к которой сегодня имеют доступ клиенты (то есть ее модель o3-mini-high) в некоторых тестах программирования»

Однако главный вопрос, на который пока нет ответа, заключается в том, сколько будет стоить новая модель Anthropic и будет ли она дешевле недавно выпущенной модели o3-mini от OpenAI (которая дешевле, чем нерассуждающая GPT-4o).

Компания планирует выпустить модель в ближайшие недели. 👍


🤪 блин а Claude 4.0 то когда
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍18😁7👎1