Метаверсище и ИИще – Telegram

Метаверсище и ИИще

47.1K subscribers

5.99K photos

4.45K videos

45 files

6.89K links

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn

Download Telegram

About

Blog

Apps

Platform

Метаверсище и ИИще

47.1K subscribers

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Пика жжот. Буквально. Эффектами.

По ходу видегенераторов скоро будет (или уже есть) больше, чем генераторов картинок.
Ну и когда мы говорим "генератор" - мы имеем в виду код со своей foundation model, а не нашлепки над Stable Diffusion или Flux типа Leonardo или Mystic (ну ок, Леонардо недавно натренили свою модель, хорошо бы знать, сколько их юзеров пользуют ее, а сколько файнтюны SD).

Короче, всеми позабытая PIKA бахнула обновление до версии 1.5

И вместо того, чтобы делать упор на фотореализьм или монтажные фичи, они сделали акцент на .. производство VFX! Ну то есть на видосы с разными эффектами типа взрывов, дымов и "разорви-мои-мозги сейчас".

Демо из их твиттора выглядит слишком нарядным и явно обработанным на посте, чтобы его постить тут. А я вам привалю реальных генераций из новой Пики 1.5.
Ну и две новости

Хорошая. У них такие есть бесплатные кредиты на попробовать (негусто)
Плохая. Все намертво висит. Как писал Денис, халявные кредиты выжигают железо и, к сожалению, бюджет.

Но в целом новость отличная. Ибо конкуренция - это отлично!

P.S. Смотрите ролик про унитаз. Работа с физикой просто поражает. И меня у Пики не особо трясет качество, а именно работа с "пониманием" пространства. Ну и B-movie типа "смерть в унитазе" не знают что делать, плакать или радоваться. Вот оно дешевое производство, как оно есть.

P.P.S. Теперь точно за эфыксеров, не чокаясь.
@cgevent

3🔥44👍9❤5👎5😁2

12.5K viewsSergey Tsyptsyn ️️, 09:05

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Берем производную от мемов.

Отдельного поста заслуживает совершенно мемная фича в новой ПИКЕ 1.5 по названием "раздави(сомни в труху) это"

Мемная, потому что эффект как бы один и быстро взлетит и быстро надоест.

Зато можно брать мемы и мемно над ними издеваться. И не только над мемами.

Знаете какой тут сложный промт, инфоцыгане?

Image to video prompt: 'Squish it'

@cgevent

1🔥42😁14❤6👎3😱2👍1

13.4K viewsSergey Tsyptsyn ️️, 09:12

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и простите, что я завис на новой PIKA 1.5 и видеогенераторах, но я не могу удержаться и не поставить эти ролики рядом.

Помните, как Тима Кука пожрали с говном за ролик про криейторов и всяких художников с музикантами, работы которых давились прессом?

Ну за рекламные отделы и их постпродакшены, не чокаясь.

@cgevent

3🔥42😁9👎4👍3

6.15K viewsSergey Tsyptsyn ️️, 09:24

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Недавно вышел новый липсинкер, под названием Lipdub.
Создатели говорят, что целят в high-grade lipsync и в Холливуд.

https://www.lipdub.ai/product

Выглядит действительно хорошо.

Это как бы первая часть новости.

А второй ролик - это демонстрация того, как может выглядеть тот самый Холивуд через пару лет, точнее производство контента. Разбитый на кусочки совершенно новых пайплайнов.

Смотрите, это запилено с Runway Gen-3 Turbo, на входе картинка из Ideogram, апскейленная в Magnific, озвученная в Eleven Labs и залипсинканная в Lipdub

Ну, за павильоны.

Кстати, их твиттор lipdubai читается как Лип Дубай))

@cgevent

👍44🔥14😁6👎5

7.05K viewsSergey Tsyptsyn ️️, 10:49

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Помните я постил самые первые Лоры и КонтролНеты для Flux?

Их сделала команда XLabs и сейчас у них уже есть и IP Адаптеры и даже свои текстовые энкодеры.
Поглядите тут: https://huggingface.co/XLabs-AI

Я даже успел познакомиться с командой и у них огромные амбициознные планы, которые выходят за рамки генерации картинок. И распространяются, например, на музыку!

В связи с этим они проводят хакатон XLabs AI, который пройдет с 2 по 17 ноября.

Где участникам предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем.

Программа:
Уникальная задача и 2 недели на разработку решения совместно с экспертами AI индустрии.
Призовой фонд 2 миллиона рублей!
Возможность стать сотрудником в передовой AI-лаборатории и выступить на будущей ИИ-конференции

Интересно? Собирайте команду до 5 человек или ищите себе тиммейтов, которые готовы объединиться и победить вот в этом чате.

Подавайте заявку до 1 ноября 23:59 и попробуйте себя в ИИ-музыке.

@cgevent

1👍20🔥10❤3👎1😱1

6.07K viewsSergey Tsyptsyn ️️, edited 14:46

Метаверсище и ИИще

Forwarded from Сиолошная

На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:

1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡

2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!

Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).

3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.

4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.

5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.

=====

И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://xn--r1a.website/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:

Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.

Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.

И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»

Ждём 2025-го! o2, GPT-4.5/5, 😯

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16👎14❤8🔥6😁1

4.84K viewsSergey Tsyptsyn ️️, 16:03