Метаверсище и ИИще
47.1K subscribers
6K photos
4.45K videos
46 files
6.9K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Ну и простите, что я завис на новой PIKA 1.5 и видеогенераторах, но я не могу удержаться и не поставить эти ролики рядом.

Помните, как Тима Кука пожрали с говном за ролик про криейторов и всяких художников с музикантами, работы которых давились прессом?

Ну за рекламные отделы и их постпродакшены, не чокаясь.

@cgevent
3🔥42😁9👎4👍3
Недавно вышел новый липсинкер, под названием Lipdub.
Создатели говорят, что целят в high-grade lipsync и в Холливуд.


https://www.lipdub.ai/product

Выглядит действительно хорошо.

Это как бы первая часть новости.

А второй ролик - это демонстрация того, как может выглядеть тот самый Холивуд через пару лет, точнее производство контента. Разбитый на кусочки совершенно новых пайплайнов.

Смотрите, это запилено с Runway Gen-3 Turbo, на входе картинка из Ideogram, апскейленная в Magnific, озвученная в Eleven Labs и залипсинканная в Lipdub

Ну, за павильоны.

Кстати, их твиттор lipdubai читается как Лип Дубай))

@cgevent
👍44🔥14😁6👎5
This media is not supported in your browser
VIEW IN TELEGRAM
Помните я постил самые первые Лоры и КонтролНеты для Flux?

Их сделала команда XLabs и сейчас у них уже есть и IP Адаптеры и даже свои текстовые энкодеры.
Поглядите тут: https://huggingface.co/XLabs-AI

Я даже успел познакомиться с командой и у них огромные амбициознные планы, которые выходят за рамки генерации картинок. И распространяются, например, на музыку!

В связи с этим они проводят хакатон XLabs AI, который пройдет с 2 по 17 ноября.

Где участникам предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем.

Программа:
Уникальная задача и 2 недели на разработку решения совместно с экспертами AI индустрии.
Призовой фонд 2 миллиона рублей!
Возможность стать сотрудником в передовой AI-лаборатории и выступить на будущей ИИ-конференции

Интересно? Собирайте команду до 5 человек или ищите себе тиммейтов, которые готовы объединиться и победить вот в этом чате.

Подавайте заявку до 1 ноября 23:59 и попробуйте себя в ИИ-музыке.

@cgevent
1👍20🔥103👎1😱1
Forwarded from Сиолошная
На прошедшем демо-дне представили несколько фичей, но ничего крышесносного. Сделал краткую выжимку, часть пунктов опущены:

1. Realtime API: доступ к speech-to-speech модели для создания голосовых агентов с низкой задержкой (API поддерживает стриминг). Доступно 6 голосов (те же, что были основными в ChatGPT). В ближайшем будущем поддержка речи доедет и до Chat Completions, то есть можно будет получать на вход текст, а выдавать голос, и наоборот (сейчас, повторюсь, только speech-to-speech в реальном времени). Ценник за аудио выглядит конским ($200 за миллион сгенерированных токенов), но на самом деле за час общения будет выходить $6-10 в зависимости от баланса входной/выходной звук. Пока, наверное, чуть дороже колл-центров на Филиппинах или в Индии 🫡

2. Кэширование промптов: наконец-то можно платить меньше за запросы, у которых существенная часть начала запроса повторяется (например, ваша инструкция + примеры работы). Очень долгожданная фича, OpenAI тут буквально последние — Google, Anthropic и DeepSeek уже все добавили. Если хотите узнать больше про кэширвоание, то читайте тут. И да, картинки тоже можно кэшировать!

Дисконт составляет всего лишь 50% на токены запроса, зато вы не платите за хранение, и код менять не нужно: всё происходит на сервере без вашего ведома (минимальная длина промпта — 1024 токена, иначе кэширование не включается). Кеш хранится 5-10 минут, и гарантировано удаляется через час, что не идеально — иногда запросы размазаны по времени. Скидка 50% тоже не шик — Anthropic и DeepSeek просят платить всего 10%, а Google 25% (но чарджат за хранение по часам).

3. Vision Finetuning: теперь можно дообучать модели, подавая на вход изображения (раньше было только из текста в текст). Весь тюнинг бесплатен до конца месяца, поэтому поторопитесь, если хотите провести эксперименты — можно поиграться за копейки.

4. Model Distillation: продолжая тему дообучения, теперь можно удобно, прямо из UI, обучить маленькую модель на ответах большой (и таким образом платить меньше за примерно такое же качество). Для этого можно помечать свои сообщения флагом «store», и они вместе с ответами будут сохраняться у OpenAI. А затем вы можете запустить обучение на всех сохранённых ответах, попутно отслеживая качество на нескольких десятках/сотнях примеров, разметка которых подтверждена вами вручную.

5. o1 теперь доступна в API разработчикам tier 3 уровня — это те, кто потратил не меньше $100 за всё время (за вычетом подписки ChatGPT). Дальше, видимо, уже раскатят всем.

=====

И отдельно в конце DevDay был часовой разговор с CEO компании Sam Altman. Все вопросы и ответы записал и выложил Артём, автор канала AI для всех: https://xn--r1a.website/nn_for_science/2224 и ниже. А вот полу-корявая видеозапись из зала на YouTube от кого-то другого. Ниже — моя выборка некоторых Q/A оттуда:

Q: Когда появятся вызовы функций в O1?
A: Вероятно, до конца года. Модель будет становиться лучше очень быстро. Мы знаем, как масштабироваться от GPT-2 до GPT-4, и сделаем это для O1.

Q: Почему мы не можем разрешить пение для advanced voice mode?
A: Я сам задавал этот вопрос 4 раза. Проблема в авторских правах на песни. Сейчас это сложный и тонкий вопрос. Мы хотим, чтобы модели могли петь, но пока это невозможно.

И ещё в какой-то момент Sam спросил, кто в аудитории считает себя умнее o1. Несколько людей подняли руки. «Думаете, вы будете умнее о2? Нет? Никто не хочет сделать ставку?»

Ждём 2025-го! o2, GPT-4.5/5, 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16👎148🔥6😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Это просто прекрасно, я залип.

Я вообще залипаю на нетривиальных визуализациях, выходящих за рамки диаграм.
Графика, как холст и цифры, как замысел имеют хорошие метрики "понятно-непонятно" и "лаконично-сложно(для восприятия)".
Впору поискать статистические мемы.

А я вам следующим постом привалю работу от того же автора, подпишитесь на него, там просто шедевры.

@cgevent
2👍65🔥20😁1
Помните все эти фильмы с Томом Круизом про будущее?

Кстати, 90% всех эти оверлеев и компьютерных экранов будущего в кино делается в Cinema4D. Ну или делалось, пока я проводил Cg Event.

Смотрите, это управление визуализацией графиков(медиа), основанных на временных рядах(ну или просто меняющихся со временем) с помощью жестового управления.

Если посмотреть раз пять, то понимаешь, что тут просто переключается тип диаграммы и изменяются начальные условия.

Но выглядит убойно и как это сделано!!!

А вот как:

using blankensmithing ‘s mediapipe plugin for hand tracking in touchdesigner

Поглядите в этот твиттор, он божественный.
https://x.com/poetengineer__/status/1839694183331754384

@cgevent
👍16👎4🔥2
Media is too big
VIEW IN TELEGRAM
Я тут уже лет пять пишу про то, как ИИ смотрит на нас сквозь камеры наблюдения: копит данные, анализирует, распознает, сегментирует, учится по ходу, сопоставляет разные камеры, предсказывает кожаные действия - ну вы поняли, в Минорити Репорт все уже расписали (опять Том Круиз).
И все такие - мы не такие, нас не догонят!
Смешные.
Я помню как в 2018 году во время чемпионата мира по футболу персонажей принимали прямо на улице, потому что ИИ с камер распознал их и нашел в базе нежелательных элементов.
Но речь не об этом.

А о том, что камеры теперь будут не просто везде, они будут динамически перемещаться и направляться на ваше личико ибо будут .. у вас на носу и на носу у тех, кто смотрит на вас.

Вот смотрите, Метачка бахнула апдейт свой очков RayBan. По сути это просто камера и микрофон. Вся обработка идет на девайсе или в облаке. Кто мешает смышленым ребятам (или ИИ, который сам напишет кода) забирать данные с кожаного носа, и далее по списку: "копит данные, анализирует, распознает, сегментирует, учится по ходу, сопоставляет разные камеры, предсказывает кожаные действия".

Так вот, смышленые ребята уже сделали технологию распознавания лиц на основе RayBan, чтобы мгновенно распознавать незнакомцев (ну или пробивать знакомцев).

Технология, получившая название I-XRAY (сконнекченная с сервисом распознавания лиц Pimeyes), работает за счет использования способности умных очков транслировать видео в Instagram. Затем она отслеживает этот поток и с помощью искусственного интеллекта идентифицирует лица. Затем эти фотографии попадают в публичные базы данных, где можно найти имена, адреса, номера телефонов и даже родственников. Затем эта информация возвращается через приложение для телефона.

Публичные базы данных... хех..

Тут цифровые луддиты возопят - мы не такие, мы снесли инсту, вк, фб и анонимно сидим в телеге(сигнале).

Хех. А утекшие базы с KYC-авторизацией, сливы с госуслуг или базы с правами вы тоже будете сносить?

Вы пока подумайте, а у меня идея для стартапа.

Перелицовка.

Постите только свои дипфейки и фейковые (сгенеренные) фото.
Точнее, это сервис, который на лету переодевает все ваши фотки и видосы в нужного персонажа. Аналог почившей СнапКамеры.

ИИ-такой? А так можно было?

Но как быть с желанием похвастаццо своей жизнь - непонятно. Хотя в принципе, это продолжение идеи бьютификации своих фоток Только теперь вы будете жить чужую жизнь, как вот эти вот все цифровые типа инфлюенсеры...

Почитайте тут, занятно:
https://www.theverge.com/2024/10/2/24260262/ray-ban-meta-smart-glasses-doxxing-privacy

Ну и там между строк "если уж два студента смогли, то взрослые мальчики давно так делают".

@cgevent
431😱18👍8🔥4😁4👎3
This media is not supported in your browser
VIEW IN TELEGRAM
После DevDay OpenAI бахнули Whisper Turbo: аудио в текст. Работает в 8+ раз быстрее, точность выше. Ибо WebGPU.

Берет ссылку на файл или прямо с микрофона, а экспортировать умеет в TXT и JSON.

2 минуты речи требуют 12 секунд обработки.

А теперь внимание - это опен-сорс!

GitHub тут,
демо https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu

@cgevent
👍54🔥3910
Я очень, прям очень переживаю и одновременно хочу выпить за всех этих супер-героев. Не без удовольствия

Точнее за конские бюджеты на их производство.
Многие уже выросли на них и не замечают бессмысленности происходящего на экране, ибо новая насмотренность, коды и все такое. Но когда-то трава была зеленая, а кино осмысленным, но с 2009 года и чуть раньше, что-то пошло не так. Ну точнее так, с точки зрения заработка, а не осмысленности.
Еще 15 лет назад, великолепный Женя Вендровский делал пророческий доклад "Комикс рулит Голливудом"
https://cgevent.ru/archives/724
С тех пор стало только .. сильнее.
Это я к тому, что производить комиксоподобные истории с минимумом смыслов будет все проще. Их будет все больше, они будут все проще. И тут ИИ будет несложно спуститься на уровень кожаной культуры потребления и дать им то, что они хотят.

Просто исторгнув вот такой вот промпт:
"Close-up of the Hulk seated at a tiny café table, his massive hands holding delicate tweezers. In front of him is a small, elegant plate of pastel macaroons. With extreme precision, he uses the tweezers to delicately place a macaroon in his gigantic mouth, pleasure as he chews each one delicately."

Это Minmax, если что.

@cgevent
👍24🔥13😁42👎1
А знаете, кто скрывался под загадочным названием blueberry - модели, которая в клочья разорвала Image Arena? (я писал тут)

Это FLUX1.1 [pro]!!

Срочно читаем про Announcing FLUX1.1 [pro] and the BFL API тут:

https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/

Это доступ только по API.
Никаких новый Flux Dev или Schnell, кодов, весов и прочая - не анонсированно.

Я проверил, на Glif.app пока не завезли.

"FLUX1.1 [pro] генерирует в шесть раз быстрее, чем его предшественник FLUX.1 [pro], при этом улучшая качество изображения, оперативность и разнообразие. В то же время мы обновили FLUX.1 [pro], чтобы генерировать тот же результат, что и раньше, но в два раза быстрее." - тут я запуталсо.
1🔥29👍7😱7
Forwarded from Psy Eyes
Media is too big
VIEW IN TELEGRAM
Небольшой тест MIDIJourney.

Suno и Udio вам при упоминании конкретных артистов и треков откажутся что-либо генерить. А вот языковым моделям (LLM) всё-равно.

Попросил Perplexity (будет работать и с другими, имхо) расписать промты на кик, бас, синты, итд. Дальше просто закидывал их в MIDIjourney внутри Ableton и генерил миди.

Не все инструменты звучат сразу годно, да и это не Prodigy как в промте, но так как мы в DAW, то тут можно детально отредактировать звук в отличие от музыкальных генераторов.

Для голоса можно дорожки экспортировать в Suno и сгенерить его поверх. Скачать вокальный стэм, и, если нужно, вправить слова через Udio.

Дальше, чтобы всё собрать гармонично всё также нужны ручки и скиллы.

Гитхаб
2👍34😁5🔥3
Тут OpenAI сделал AI Notebook++. Нет, скорее Wordpad.

Подписчики мне пишут, что это типа аналог Курсора, но давайте немного разберемся.

Я тут часто поругиваю OpenAI за то, что технологии космические, а продуктовые упаковки - ну такое.
Плагины, не взлетевший магазин джипитишек, сам интерфейс chatGPT - все это похоже на "давайте быстро сделаем вебморду" и поглядим.

В общем к chatGPT прикрутили возможность редактировать его ответы примерно как в любом текстовом редакторе.
Но "редактировать" не тыкая пальчиком в букафки (хотя и это тоже), а промптами, то есть указаниями типа "перепиши кусок", "напиши что думаешь по этому поводу", "убери воду, графоман".
А обновления будут прямо в тексте!

Да, для кодинга это тоже работает и по идее для кода это здорово, когда можно работать с выделенными кусками. Но я вот не уверен, что это прям конкурент курсора - тут замысел более широкий и менее нишевый - редактирование текста беседой с автором текста (chatGPT).

В общем поглядите два видоса, все сами поймете.

P.S. У Гугла и Микрософта продуктовая экспертиза примерно в 1000 раз лучше, чем у openAI, поэтому я думаю, что интеграция в продуктах Гугла или в Офисе будет на порядок.. ловчее.
Но мы же любим chatGPT не за это..
А за красоту и за идею.

У меня еще не появилось...

@cgevent
538👍14🔥8
К вопросу о генерации контента. Причем хорошего контента.

Моя ранняя риторика состояла в том, что сейчас ИИ засрет весь интернет среднего и шлакового уровня контентом, а мы будем платить деньги за просеивание и доступ к нормальному контенту.

Похоже ИИ засрет интернет хорошим контентом. Основательно притом. Ибо уже умеет.

Смотрите, вот последний твит Адрея Карпатого:

За последние ~2 часа я подготовил новый подкаст из 10 эпизодов под названием "Histories of Mysteries".
Найти его на Spotify можно здесь

10 эпизодов этого сезона:
Эп 1: Затерянный город Атлантида
Эп 2: Багдадская батарея
Эп 3: Колония Roanoke
Эп 4: Антикитерский механизм
Эп 5: Манускрипт Войнича
Эп 6: Крах позднего бронзового века
Эп 7: Ого! сигнал
Эп 8: Мария Целеста
Эп 9: Гöбекли-Тепе
Эп 10: LUCA: Last Universal Common Ancestor

Процесс:
- Я исследовал крутые темы, используя ChatGPT, Claude, Google
- Я связал NotebookLM с записью в Википедии по каждой теме и сгенерировал аудио подкаста
- Я использовал NotebookLM для написания описаний подкаста/эпизодов
- Ideogram для создания всех цифровых артов для эпизодов и самого подкаста
- Spotify для загрузки и размещения подкаста

Я сделал это как исследование пространства возможностей, открываемых генеративным ИИ, и механизмов, доступных при использовании ИИ. Тот факт, что я, как один человек, могу за 2 часа создать подкаст, кажется мне просто невероятным. Я также полностью понимаю и признаю потенциальную и непосредственную опасность, когда сгенерированные ИИ помои захватывают интернет. Думаю, послушайте подкаст, когда пойдете гулять/ездить в следующий раз, и поглядите, что вы думаете об этом.


А теперь просто послушайте, это не просто слушабельно, это интересно.

Ну и про засирание интернета. Как только вышел OmniGen, я облазил весь твиттор, реддит и гитхаб (код в октябре) и потом оказался по ссылкам на Youtube. Так вот, там оказалось (через пару дней после анонса) тьма подкастов про OmniGen! Я, алкая, полез слушать, и понял, что инфоцыгане, набивающие трафик, тупо берут хайповые бумаги или новости, фигачат это в подкасты и заливают ютюб таким вот добром.

Куда это все прикатится, я уже не понимаю..

https://open.spotify.com/show/3K4LRyMCP44kBbiOziwJjb

@cgevent
👍32🔥13😱7👎51