Метаверсище и ИИще

Группа инвесторов во главе с Илоном Маском предложила около 97,4 миллиарда долларов за покупку некоммерческой организации behind OpenAI, которую Маск помог основать десять лет назад.
Альман отреагировал мгновенно.

@cgevent

😁32👍27👎12🔥3❤1

7.6K viewsSergey Tsyptsyn ️️, edited 11:13

Метаверсище и ИИще

Forwarded from Нейронавт | Нейросети в творчестве

1:21

This media is not supported in your browser

VIEW IN TELEGRAM

Zonos

Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами

- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API

Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами

#voicecloning #tts #text2speech

3🔥46👍9❤2

7.22K viewsSergey Tsyptsyn ️️, 12:32

Метаверсище и ИИще

Недавно писал про новый апскейлер видео от Топаза. Он был в закрытой бете.

Дали воду в хату доступ для всех.
Го тестировать.

Дают немного кредитов.

https://app.topazlabs.com/experiments/starlight

@cgevent

👍20❤5

8.68K viewsSergey Tsyptsyn ️️, 13:00

Если честно, то даже я приподохренел.

Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...

Пришлось смотреть 3 раза.

Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.

Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes

Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI

Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.

От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.

Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.

P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.

@cgevent

🔥165😱38👍25❤24👎1

15.9K viewsSergey Tsyptsyn ️️, edited 23:31

Метаверсище и ИИще

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Вы будете смеяться, но у нас опять новый видеогенератор!

Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.

Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!

Итак, что интересного.

Image2Video из коробки, но это не главное, главное С-Скорость!

Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.

Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.

Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.

Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.

Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).

VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False

А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>

(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).

Stan Travis, готов? Ждем веса.

Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.

https://github.com/DA-Group-PKU

@cgevent

🔥41👍9❤7😁2

7.84K viewsSergey Tsyptsyn ️️, edited 10:08

Метаверсище и ИИще

Вопрос про телеграм. Я голову сломал, но не нашел ответа.

Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.

Вставьте буфер в текстовый редактор, получите link (http://www.link.url)

Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".

Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.

Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"

Вопрос: как Телега это делает? что она запоминает по дороге и где?

Надеюсь внятно написал

@cgevent

😁43👍11❤5😱4

7.63K viewsSergey Tsyptsyn ️️, edited 10:30

Метаверсище и ИИще

Forwarded from Neural Shit

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Почти все видеогенераторы не умеют нормально генерировать людей вверх ногами. Если сгенерировать такое видео, а после перевернуть его на 180 градусов, то получается забавный эффект — люди моргают нижним веком + часто испытывают проблемы со ртом.

Сейчас знатно залип на генерации таких криповых уродцев

😁80😱12👍6❤2👎1

6.84K viewsSergey Tsyptsyn ️️, 12:01

Метаверсище и ИИще

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Новый уже доступный видео-генератор.

Про Adobe Firefly Video Model мы уже слышали в прошлом году. Адобченко похвастался, привалил видосов в твиттор и ушел в очень закрытую бету.

А сейчас открыл бету. Для всех. За деньги. Можно пробовать.

За 10 баксов в месяц - 20 роликов по пять секунд.

За 30 баксов - 70 роликов.

Будет еще Unlimited Plan (там типа 500 генераций, а потом медленная очередь, но это неточно)

Также пишут: Try it yourself - first 2 video generations are free.

Из фишек: Generative Extend позволяет продлить видео. Пишут также про Fill the Gap - заполнение между клипами.

Scene to Image - 3D болванки можно использовать как референс. Что-то подобное видели в Креа, но тут интересна UX-реализация. Дело очень хорошее.

Только 1080p, 16:9, углы камеры и обзора можно регулировать.
Дичайшая цензура. Плохо, очень плохо генерирует людей. Не хочет
24 кадра в секунду - неплохо.

Translate and Lip Sync - тут 11lаbs поперхнулись немного. Но потом выдохнули: Translate Audio и Translate Video доступны на 20+ языках, а функция синхронизации губ доступна только корпоративным клиентам.

А теперь внимание Адобченко "работает над еще одним видеоинструментом с искусственным интеллектом, который поможет в преподакшене. Этот инструмент, который еще не анонсирован, поможет прийти к единому видению, создав грубый набросок того, как будет выглядеть сцена или ряд сцен."

О, как!

Как пишет Крис Каштанова, морфинг и турнтэйблы генерятся отлично, видно, что в датасете было много этого добра со стоков. "“rotate around” в промпте решает.

Готовьте свои деньги и бессонницу, в общем.

https://blog.adobe.com/en/publish/2025/02/12/meet-firefly-video-model-ai-powered-creation-with-unparalleled-creative-control

@cgevent

👍26❤9🔥8👎1

7.84K viewsSergey Tsyptsyn ️️, edited 15:42

Я подсобрал инфо про Firefly Video Model.

Довольно пластиковый лук. Очень характерный для Адобовских моделей.

Людей и портреты не получится. Хотя дети просачиваются.

По качеству (и охвату тем) очень далеко до Veo2. До Клинга думаю тоже, но надо смотреть.

Возможно для моушен дизайна зайдет, ловкие морфы и облеты, но мало данных пока.

@cgevent

👍20❤4

8.37K viewsSergey Tsyptsyn ️️, 15:59

Метаверсище и ИИще

Forwarded from Адель и МЛь

Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!

X (formerly Twitter)

Sam Altman (@sama) on X

OPENAI ROADMAP UPDATE FOR GPT-4.5 and GPT-5:

We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings.

We want AI to “just work” for you; we realize how complicated our model and product offerings…

🔥70👍25❤12👎2

6.35K viewsSergey Tsyptsyn ️️, 20:08

Метаверсище и ИИще

Оставлю это здесь для гиков. Их есть в канале, судя по коментам.

This SDK can be used to integrate GitHub Copilot into any editor or IDE. See the documentation on the package to get started.

https://github.blog/changelog/2025-02-10-copilot-language-server-sdk-is-now-available/

The GitHub Blog

Copilot Language Server SDK is now available - GitHub Changelog

We are excited to announce that the Copilot Language Server SDK is now publicly available. This enables any editor or IDE to integrate with GitHub Copilot via the language server…

🔥22👍8

8.35K viewsSergey Tsyptsyn ️️, 08:20

Метаверсище и ИИще

RTX 5090 в три раза быстрее, чем RTX 3090TI?

Турецкий XpucT и инфант террибль реддита по имени Сефуркан (если вы в теме, то вы оцените шутку) отхватил за 4 косых RTX 5090 и ну тестировать ея на генерации картинок.

Тестировал FLUX DEV, SD 3.5 Large, SD 3.5 Medium, SDXL, SD 1.5.
RTX 5090 сравнивался с RTX 3090 TI во всех бенчмарках. Кроме того, сравнивались FP8 и FP16, а также влияние оперативки. Проц был AMD 9950X.

Мне даже читать посты Сефуркана сложно, а уж слушать и смотреть совсем больно, но вы держитесь. Его плюс в невыносимой занудности, что для тестов - самое то.

Если нервной энергии не хватит, то выводы (из видео) такие:

5090 уделывает 3090TI порой в ТРИ раза, а в среднем в 2.5.
Драйвера для 5090 все еще кривые и возможно дальнейшее увеличение скорости
ComfyUI (плюс SwarmUI) - пока единственный вариант погонять 5090. Хм(?)

Умные люди за пределами видео пишут, что по сравнению с 4090 прирост будет не так велик, около 1.3x

Но надо ждать допиленных драйверов и поддержки других библиотек, чтобы тесты стали более объективными.

А пока плачем, колемся, но смотрим видео.

https://www.youtube.com/watch?v=jHlGzaDLkto

@cgevent

😁26👍14❤12

8.77K viewsSergey Tsyptsyn ️️, 09:17

Метаверсище и ИИще

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Ну, за аниматоров!

Я уже писал про работу от Нвидия, по анимации болванов текстовыми промптами.
Просто теперь ее сделали в 40 раз быстрее!
И она умеет переключаться между промптами на лету.
Я бы присмотрелся, код и весь фарш имеется.

https://github.com/GuyTevet/motion-diffusion-model

@cgevent

🔥59👍23😁7😱5❤3👎1

9.32K viewsSergey Tsyptsyn ️️, 11:38

Метаверсище и ИИще

Forwarded from Denis Sexy IT 🤖

Сделал простой гайд какие модели когда использовать в ChatGPT:

GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям

GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может их придумывать; перевожу ей картинки в текст если нужно быстро. Ее ответы нужно всегда факт-чекать. Зато эта модель имеет доступ к памяти (где все про вас), с ней можно общаться голосом, через нее можно вызывать генерацию картинок Dalle. Не рекомендую обрабатывать большие файлы с ней

GPT-4o with scheduled tasks (beta) – использую только для To Do: модель пишет мне каждое утро и спрашивает приоритеты, показывает текущий список задач и тп

o3-mini – хорошая модель для кодинга и жизни, хорошо ищет в интернете, неплохо следуют инструкциям и при этом очень быстрая; если вам некогда и нужен быстрый ответ, то берите ее. Для анализа картинок и файлов «быстро» хороший кандидат. Не имеет доступа к памяти. Реже ошибается в фактах, но ошибается. В Plus тире – 150 сообщений в день.

✨o3-mini-high – это просто версия o3-mini, которую просят думать подольше перед тем как дать ответ – работает она медленнее, но еще реже ошибается, и еще качественнее решает задачи. Великолепно следует инструкциям. Хорошо работает с файлами. Я бы советовал сначала тратить 50 запросов этой модели, и дальше переходить к o3-mini или o1.

o1 – модель генератор отчетов, эссе и рефератов. Медленная модель. Хорошо следует инструкциям, может ошибиться в фактах. Не может искать в интернете. Хорошо видит картинки и читает файлы, не теряя деталей. У вас всего 50 запросов в неделю. Требует промптинга с описанием отчета которого вы хотите получить.

o1 pro mode – лучшая модель на рынке: почти никогда не ошибается в фактах, решает самые сложные задачи кодинга, дольше всех думает, лучше всех понимает изображения, но не умеет искать в интернете и не умеет работать с файлами напрямую. С точки зрения фактов – модель всегда сама себя перепроверяет, за ~3 месяца использования я только один раз поймал ее на неточности. Требует детального промптинга с описанием отчета который вы хотите. Доступна только в Pro тире, лимитов нет.

Deep research – несмотря на то, что модель выведена в отдельную кнопку, это версия новой o3 для поиска в интернете, как ей лучше пользоваться я напишу отдельно когда дадут доступ всем. Модель ищет в интернете и сама пишет код (который вам не покажет) для анализа найденных данных, чтобы, например включить в отчет графики. Лучшее, что есть на рынке для поиска данных в интернете. Пока доступна только в Pro.

Tldr:
Для повседневных задач ваш лучший выбор – o3-mini-high, потом o3-mini, когда у первой кончились лимиты

👍76❤19🔥9😁6👎3

6.41K viewsSergey Tsyptsyn ️️, 13:12

Метаверсище и ИИще

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Для гиков.
Omnigen в Блендоре через Палладиум.

https://github.com/tin2tin/Pallaidium

Палладиум - это довольно несвежий, но живой проект: A generative AI movie studio integrated into the Blender Video Editor.

@cgevent

👍14🔥7❤3😁1

7.86K viewsSergey Tsyptsyn ️️, edited 16:47

Метаверсище и ИИще

Imagen 3 + Magnific Upscaler = FLUID

Похоже на рынке устаканиваются два крупных аггрегатора генеративных сервисов: Krea и Freepik.

Про Креа мы все в курсе, про Фрипик чуть подробнее.

Это был просто стоковый сервис, но они некоторое время назад пожрали Магнифик.

А Магнифик знаменит своим креативным (и очень дорогим) апскейлером MagnificAI.

А еще тем, что они брали чужие модели, наваливали на них апскейл и выдавали их за свои "новые модели"

В общем щас на Freepik полный фарш: они релизнули Freepik AI Suite, где есть FluxPro с инпейнтом и аггрегация видеомоделей.

Из последних новостей: Freepik AI Suite теперь включает тот самый дорогой Magnific AI.

Но это была подводка.

Сегодня они бахнули коллаб с Гуглом: Imagen 3 + Magnific Upscaler = FLUID

Они попять называют Флюид новой моделью, хотя это, грубо говоря ловко собранный воркфлоу\пайплайн

В общем выглядит это очень хорошо, ибо Imagen 3 довольно хорошо докрутили до годного, а сверху еще и лучший коммерческий апскейлер с рынка.

Получается отличное коммерческое комбо.

Поглядите сравнения тут, впечатляет.

@cgevent

❤24🔥12👍3👎1

8.61K viewsSergey Tsyptsyn ️️, 17:11

Метаверсище и ИИще

Forwarded from Сиолошная

TheInformation пишет — но это и не секрет — что Anthropic близки к выпуску своей размышляющей модели. Не секрет это потому, что Dylan Patel и Semianalysis уже дважды говорил, что он слышал, что Anthropic имеет модель, сильнее o3, и что она пока не анонсирована.

Отличие от OpenAI в том, что «модель совмещает в себе как обычную LLM, так и рассуждающую», то есть для простых запросов она не думает долго, а сразу пишет ответ. Правда, не ясно, в чём функциональное отличие от OpenAI — у меня o1 иногда начинает писать ответ через 2 секунды, когда вопрос плёвый. Уверен, что можно сократить и до около нуля. У модели Anthropic тоже будут уровни, позволяющие контролировать длительность (и стоимость) рассуждений.

А про качество газетчики написали следующее: «когда модели позволяют думать в течение максимального количества времени, она превосходит самую продвинутую модель рассуждений OpenAI, к которой сегодня имеют доступ клиенты (то есть ее модель o3-mini-high) в некоторых тестах программирования»

Однако главный вопрос, на который пока нет ответа, заключается в том, сколько будет стоить новая модель Anthropic и будет ли она дешевле недавно выпущенной модели o3-mini от OpenAI (которая дешевле, чем нерассуждающая GPT-4o).

Компания планирует выпустить модель в ближайшие недели.

👍

🤪 блин а Claude 4.0 то когда

Please open Telegram to view this post

VIEW IN TELEGRAM

❤22👍18😁7👎1

6.49K viewsSergey Tsyptsyn ️️, 18:14

About

Blog

Apps

Platform