Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Пика жжот. Буквально. Эффектами.

По ходу видегенераторов скоро будет (или уже есть) больше, чем генераторов картинок.
Ну и когда мы говорим "генератор" - мы имеем в виду код со своей foundation model, а не нашлепки над Stable Diffusion или Flux типа Leonardo или Mystic (ну ок, Леонардо недавно натренили свою модель, хорошо бы знать, сколько их юзеров пользуют ее, а сколько файнтюны SD).

Короче, всеми позабытая PIKA бахнула обновление до версии 1.5

И вместо того, чтобы делать упор на фотореализьм или монтажные фичи, они сделали акцент на .. производство VFX! Ну то есть на видосы с разными эффектами типа взрывов, дымов и "разорви-мои-мозги сейчас".

Демо из их твиттора выглядит слишком нарядным и явно обработанным на посте, чтобы его постить тут. А я вам привалю реальных генераций из новой Пики 1.5.
Ну и две новости

Хорошая. У них такие есть бесплатные кредиты на попробовать (негусто)
Плохая. Все намертво висит. Как писал Денис, халявные кредиты выжигают железо и, к сожалению, бюджет.

Но в целом новость отличная. Ибо конкуренция - это отлично!

P.S. Смотрите ролик про унитаз. Работа с физикой просто поражает. И меня у Пики не особо трясет качество, а именно работа с "пониманием" пространства. Ну и B-movie типа "смерть в унитазе" не знают что делать, плакать или радоваться. Вот оно дешевое производство, как оно есть.

P.P.S. Теперь точно за эфыксеров, не чокаясь.
@cgevent
3🔥44👍95👎5😁2
Берем производную от мемов.

Отдельного поста заслуживает совершенно мемная фича в новой ПИКЕ 1.5 по названием "раздави(сомни в труху) это"

Мемная, потому что эффект как бы один и быстро взлетит и быстро надоест.

Зато можно брать мемы и мемно над ними издеваться. И не только над мемами.

Знаете какой тут сложный промт, инфоцыгане?

Image to video prompt: 'Squish it'

@cgevent
1🔥42😁146👎3😱2👍1
Ну и простите, что я завис на новой PIKA 1.5 и видеогенераторах, но я не могу удержаться и не поставить эти ролики рядом.

Помните, как Тима Кука пожрали с говном за ролик про криейторов и всяких художников с музикантами, работы которых давились прессом?

Ну за рекламные отделы и их постпродакшены, не чокаясь.

@cgevent
3🔥42😁9👎4👍3
Недавно вышел новый липсинкер, под названием Lipdub.
Создатели говорят, что целят в high-grade lipsync и в Холливуд.


https://www.lipdub.ai/product

Выглядит действительно хорошо.

Это как бы первая часть новости.

А второй ролик - это демонстрация того, как может выглядеть тот самый Холивуд через пару лет, точнее производство контента. Разбитый на кусочки совершенно новых пайплайнов.

Смотрите, это запилено с Runway Gen-3 Turbo, на входе картинка из Ideogram, апскейленная в Magnific, озвученная в Eleven Labs и залипсинканная в Lipdub

Ну, за павильоны.

Кстати, их твиттор lipdubai читается как Лип Дубай))

@cgevent
👍44🔥14😁6👎5
This media is not supported in your browser
VIEW IN TELEGRAM
Помните я постил самые первые Лоры и КонтролНеты для Flux?

Их сделала команда XLabs и сейчас у них уже есть и IP Адаптеры и даже свои текстовые энкодеры.
Поглядите тут: https://huggingface.co/XLabs-AI

Я даже успел познакомиться с командой и у них огромные амбициознные планы, которые выходят за рамки генерации картинок. И распространяются, например, на музыку!

В связи с этим они проводят хакатон XLabs AI, который пройдет с 2 по 17 ноября.

Где участникам предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем.

Программа:
Уникальная задача и 2 недели на разработку решения совместно с экспертами AI индустрии.
Призовой фонд 2 миллиона рублей!
Возможность стать сотрудником в передовой AI-лаборатории и выступить на будущей ИИ-конференции

Интересно? Собирайте команду до 5 человек или ищите себе тиммейтов, которые готовы объединиться и победить вот в этом чате.

Подавайте заявку до 1 ноября 23:59 и попробуйте себя в ИИ-музыке.

@cgevent
1👍20🔥103👎1😱1
Forwarded from Сиолошная
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:

1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡

2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!

Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).

3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.

4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.

5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.

=====

И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://xn--r1a.website/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:

Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.

Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.

И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»

Ждём 2025-го! o2, GPT-4.5/5, 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16👎148🔥6😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Это просто прекрасно, я залип.

Я вообще залипаю на нетривиальных визуализациях, выходящих за рамки диаграм.
Графика, как холст и цифры, как замысел имеют хорошие метрики "понятно-непонятно" и "лаконично-сложно(для восприятия)".
Впору поискать статистические мемы.

А я вам следующим постом привалю работу от того же автора, подпишитесь на него, там просто шедевры.

@cgevent
2👍65🔥20😁1
Помните все эти фильмы с Томом Круизом про будущее?

Кстати, 90% всех эти оверлеев и компьютерных экранов будущего в кино делается в Cinema4D. Ну или делалось, пока я проводил Cg Event.

Смотрите, это управление визуализацией графиков(медиа), основанных на временных рядах(ну или просто меняющихся со временем) с помощью жестового управления.

Если посмотреть раз пять, то понимаешь, что тут просто переключается тип диаграммы и изменяются начальные условия.

Но выглядит убойно и как это сделано!!!

А вот как:

using blankensmithing ‘s mediapipe plugin for hand tracking in touchdesigner

Поглядите в этот твиттор, он божественный.
https://x.com/poetengineer__/status/1839694183331754384

@cgevent
👍16👎4🔥2
Media is too big
VIEW IN TELEGRAM
Я тут уже лет пять пишу про то, как ИИ смотрит на нас сквозь камеры наблюдения: копит данные, анализирует, распознает, сегментирует, учится по ходу, сопоставляет разные камеры, предсказывает кожаные действия - ну вы поняли, в Минорити Репорт все уже расписали (опять Том Круиз).
И все такие - мы не такие, нас не догонят!
Смешные.
Я помню как в 2018 году во время чемпионата мира по футболу персонажей принимали прямо на улице, потому что ИИ с камер распознал их и нашел в базе нежелательных элементов.
Но речь не об этом.

А о том, что камеры теперь будут не просто везде, они будут динамически перемещаться и направляться на ваше личико ибо будут .. у вас на носу и на носу у тех, кто смотрит на вас.

Вот смотрите, Метачка бахнула апдейт свой очков RayBan. По сути это просто камера и микрофон. Вся обработка идет на девайсе или в облаке. Кто мешает смышленым ребятам (или ИИ, который сам напишет кода) забирать данные с кожаного носа, и далее по списку: "копит данные, анализирует, распознает, сегментирует, учится по ходу, сопоставляет разные камеры, предсказывает кожаные действия".

Так вот, смышленые ребята уже сделали технологию распознавания лиц на основе RayBan, чтобы мгновенно распознавать незнакомцев (ну или пробивать знакомцев).

Технология, получившая название I-XRAY (сконнекченная с сервисом распознавания лиц Pimeyes), работает за счет использования способности умных очков транслировать видео в Instagram. Затем она отслеживает этот поток и с помощью искусственного интеллекта идентифицирует лица. Затем эти фотографии попадают в публичные базы данных, где можно найти имена, адреса, номера телефонов и даже родственников. Затем эта информация возвращается через приложение для телефона.

Публичные базы данных... хех..

Тут цифровые луддиты возопят - мы не такие, мы снесли инсту, вк, фб и анонимно сидим в телеге(сигнале).

Хех. А утекшие базы с KYC-авторизацией, сливы с госуслуг или базы с правами вы тоже будете сносить?

Вы пока подумайте, а у меня идея для стартапа.

Перелицовка.

Постите только свои дипфейки и фейковые (сгенеренные) фото.
Точнее, это сервис, который на лету переодевает все ваши фотки и видосы в нужного персонажа. Аналог почившей СнапКамеры.

ИИ-такой? А так можно было?

Но как быть с желанием похвастаццо своей жизнь - непонятно. Хотя в принципе, это продолжение идеи бьютификации своих фоток Только теперь вы будете жить чужую жизнь, как вот эти вот все цифровые типа инфлюенсеры...

Почитайте тут, занятно:
https://www.theverge.com/2024/10/2/24260262/ray-ban-meta-smart-glasses-doxxing-privacy

Ну и там между строк "если уж два студента смогли, то взрослые мальчики давно так делают".

@cgevent
431😱18👍8🔥4😁4👎3
This media is not supported in your browser
VIEW IN TELEGRAM
После DevDay OpenAI бахнули Whisper Turbo: аудио в текст. Работает в 8+ раз быстрее, точность выше. Ибо WebGPU.

Берет ссылку на файл или прямо с микрофона, а экспортировать умеет в TXT и JSON.

2 минуты речи требуют 12 секунд обработки.

А теперь внимание - это опен-сорс!

GitHub тут,
демо https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu

@cgevent
👍54🔥3910