Метаверсище и ИИще
47.2K subscribers
6K photos
4.46K videos
46 files
6.9K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Помните все эти фильмы с Томом Круизом про будущее?

Кстати, 90% всех эти оверлеев и компьютерных экранов будущего в кино делается в Cinema4D. Ну или делалось, пока я проводил Cg Event.

Смотрите, это управление визуализацией графиков(медиа), основанных на временных рядах(ну или просто меняющихся со временем) с помощью жестового управления.

Если посмотреть раз пять, то понимаешь, что тут просто переключается тип диаграммы и изменяются начальные условия.

Но выглядит убойно и как это сделано!!!

А вот как:

using blankensmithing ‘s mediapipe plugin for hand tracking in touchdesigner

Поглядите в этот твиттор, он божественный.
https://x.com/poetengineer__/status/1839694183331754384

@cgevent
👍16👎4🔥2
Media is too big
VIEW IN TELEGRAM
Я тут уже лет пять пишу про то, как ИИ смотрит на нас сквозь камеры наблюдения: копит данные, анализирует, распознает, сегментирует, учится по ходу, сопоставляет разные камеры, предсказывает кожаные действия - ну вы поняли, в Минорити Репорт все уже расписали (опять Том Круиз).
И все такие - мы не такие, нас не догонят!
Смешные.
Я помню как в 2018 году во время чемпионата мира по футболу персонажей принимали прямо на улице, потому что ИИ с камер распознал их и нашел в базе нежелательных элементов.
Но речь не об этом.

А о том, что камеры теперь будут не просто везде, они будут динамически перемещаться и направляться на ваше личико ибо будут .. у вас на носу и на носу у тех, кто смотрит на вас.

Вот смотрите, Метачка бахнула апдейт свой очков RayBan. По сути это просто камера и микрофон. Вся обработка идет на девайсе или в облаке. Кто мешает смышленым ребятам (или ИИ, который сам напишет кода) забирать данные с кожаного носа, и далее по списку: "копит данные, анализирует, распознает, сегментирует, учится по ходу, сопоставляет разные камеры, предсказывает кожаные действия".

Так вот, смышленые ребята уже сделали технологию распознавания лиц на основе RayBan, чтобы мгновенно распознавать незнакомцев (ну или пробивать знакомцев).

Технология, получившая название I-XRAY (сконнекченная с сервисом распознавания лиц Pimeyes), работает за счет использования способности умных очков транслировать видео в Instagram. Затем она отслеживает этот поток и с помощью искусственного интеллекта идентифицирует лица. Затем эти фотографии попадают в публичные базы данных, где можно найти имена, адреса, номера телефонов и даже родственников. Затем эта информация возвращается через приложение для телефона.

Публичные базы данных... хех..

Тут цифровые луддиты возопят - мы не такие, мы снесли инсту, вк, фб и анонимно сидим в телеге(сигнале).

Хех. А утекшие базы с KYC-авторизацией, сливы с госуслуг или базы с правами вы тоже будете сносить?

Вы пока подумайте, а у меня идея для стартапа.

Перелицовка.

Постите только свои дипфейки и фейковые (сгенеренные) фото.
Точнее, это сервис, который на лету переодевает все ваши фотки и видосы в нужного персонажа. Аналог почившей СнапКамеры.

ИИ-такой? А так можно было?

Но как быть с желанием похвастаццо своей жизнь - непонятно. Хотя в принципе, это продолжение идеи бьютификации своих фоток Только теперь вы будете жить чужую жизнь, как вот эти вот все цифровые типа инфлюенсеры...

Почитайте тут, занятно:
https://www.theverge.com/2024/10/2/24260262/ray-ban-meta-smart-glasses-doxxing-privacy

Ну и там между строк "если уж два студента смогли, то взрослые мальчики давно так делают".

@cgevent
431😱18👍8🔥4😁4👎3
This media is not supported in your browser
VIEW IN TELEGRAM
После DevDay OpenAI бахнули Whisper Turbo: аудио в текст. Работает в 8+ раз быстрее, точность выше. Ибо WebGPU.

Берет ссылку на файл или прямо с микрофона, а экспортировать умеет в TXT и JSON.

2 минуты речи требуют 12 секунд обработки.

А теперь внимание - это опен-сорс!

GitHub тут,
демо https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu

@cgevent
👍54🔥3910
Я очень, прям очень переживаю и одновременно хочу выпить за всех этих супер-героев. Не без удовольствия

Точнее за конские бюджеты на их производство.
Многие уже выросли на них и не замечают бессмысленности происходящего на экране, ибо новая насмотренность, коды и все такое. Но когда-то трава была зеленая, а кино осмысленным, но с 2009 года и чуть раньше, что-то пошло не так. Ну точнее так, с точки зрения заработка, а не осмысленности.
Еще 15 лет назад, великолепный Женя Вендровский делал пророческий доклад "Комикс рулит Голливудом"
https://cgevent.ru/archives/724
С тех пор стало только .. сильнее.
Это я к тому, что производить комиксоподобные истории с минимумом смыслов будет все проще. Их будет все больше, они будут все проще. И тут ИИ будет несложно спуститься на уровень кожаной культуры потребления и дать им то, что они хотят.

Просто исторгнув вот такой вот промпт:
"Close-up of the Hulk seated at a tiny café table, his massive hands holding delicate tweezers. In front of him is a small, elegant plate of pastel macaroons. With extreme precision, he uses the tweezers to delicately place a macaroon in his gigantic mouth, pleasure as he chews each one delicately."

Это Minmax, если что.

@cgevent
👍24🔥13😁42👎1
А знаете, кто скрывался под загадочным названием blueberry - модели, которая в клочья разорвала Image Arena? (я писал тут)

Это FLUX1.1 [pro]!!

Срочно читаем про Announcing FLUX1.1 [pro] and the BFL API тут:

https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/

Это доступ только по API.
Никаких новый Flux Dev или Schnell, кодов, весов и прочая - не анонсированно.

Я проверил, на Glif.app пока не завезли.

"FLUX1.1 [pro] генерирует в шесть раз быстрее, чем его предшественник FLUX.1 [pro], при этом улучшая качество изображения, оперативность и разнообразие. В то же время мы обновили FLUX.1 [pro], чтобы генерировать тот же результат, что и раньше, но в два раза быстрее." - тут я запуталсо.
1🔥29👍7😱7
Forwarded from Psy Eyes
Media is too big
VIEW IN TELEGRAM
Небольшой тест MIDIJourney.

Suno и Udio вам при упоминании конкретных артистов и треков откажутся что-либо генерить. А вот языковым моделям (LLM) всё-равно.

Попросил Perplexity (будет работать и с другими, имхо) расписать промты на кик, бас, синты, итд. Дальше просто закидывал их в MIDIjourney внутри Ableton и генерил миди.

Не все инструменты звучат сразу годно, да и это не Prodigy как в промте, но так как мы в DAW, то тут можно детально отредактировать звук в отличие от музыкальных генераторов.

Для голоса можно дорожки экспортировать в Suno и сгенерить его поверх. Скачать вокальный стэм, и, если нужно, вправить слова через Udio.

Дальше, чтобы всё собрать гармонично всё также нужны ручки и скиллы.

Гитхаб
2👍34😁5🔥3
Тут OpenAI сделал AI Notebook++. Нет, скорее Wordpad.

Подписчики мне пишут, что это типа аналог Курсора, но давайте немного разберемся.

Я тут часто поругиваю OpenAI за то, что технологии космические, а продуктовые упаковки - ну такое.
Плагины, не взлетевший магазин джипитишек, сам интерфейс chatGPT - все это похоже на "давайте быстро сделаем вебморду" и поглядим.

В общем к chatGPT прикрутили возможность редактировать его ответы примерно как в любом текстовом редакторе.
Но "редактировать" не тыкая пальчиком в букафки (хотя и это тоже), а промптами, то есть указаниями типа "перепиши кусок", "напиши что думаешь по этому поводу", "убери воду, графоман".
А обновления будут прямо в тексте!

Да, для кодинга это тоже работает и по идее для кода это здорово, когда можно работать с выделенными кусками. Но я вот не уверен, что это прям конкурент курсора - тут замысел более широкий и менее нишевый - редактирование текста беседой с автором текста (chatGPT).

В общем поглядите два видоса, все сами поймете.

P.S. У Гугла и Микрософта продуктовая экспертиза примерно в 1000 раз лучше, чем у openAI, поэтому я думаю, что интеграция в продуктах Гугла или в Офисе будет на порядок.. ловчее.
Но мы же любим chatGPT не за это..
А за красоту и за идею.

У меня еще не появилось...

@cgevent
538👍14🔥8
К вопросу о генерации контента. Причем хорошего контента.

Моя ранняя риторика состояла в том, что сейчас ИИ засрет весь интернет среднего и шлакового уровня контентом, а мы будем платить деньги за просеивание и доступ к нормальному контенту.

Похоже ИИ засрет интернет хорошим контентом. Основательно притом. Ибо уже умеет.

Смотрите, вот последний твит Адрея Карпатого:

За последние ~2 часа я подготовил новый подкаст из 10 эпизодов под названием "Histories of Mysteries".
Найти его на Spotify можно здесь

10 эпизодов этого сезона:
Эп 1: Затерянный город Атлантида
Эп 2: Багдадская батарея
Эп 3: Колония Roanoke
Эп 4: Антикитерский механизм
Эп 5: Манускрипт Войнича
Эп 6: Крах позднего бронзового века
Эп 7: Ого! сигнал
Эп 8: Мария Целеста
Эп 9: Гöбекли-Тепе
Эп 10: LUCA: Last Universal Common Ancestor

Процесс:
- Я исследовал крутые темы, используя ChatGPT, Claude, Google
- Я связал NotebookLM с записью в Википедии по каждой теме и сгенерировал аудио подкаста
- Я использовал NotebookLM для написания описаний подкаста/эпизодов
- Ideogram для создания всех цифровых артов для эпизодов и самого подкаста
- Spotify для загрузки и размещения подкаста

Я сделал это как исследование пространства возможностей, открываемых генеративным ИИ, и механизмов, доступных при использовании ИИ. Тот факт, что я, как один человек, могу за 2 часа создать подкаст, кажется мне просто невероятным. Я также полностью понимаю и признаю потенциальную и непосредственную опасность, когда сгенерированные ИИ помои захватывают интернет. Думаю, послушайте подкаст, когда пойдете гулять/ездить в следующий раз, и поглядите, что вы думаете об этом.


А теперь просто послушайте, это не просто слушабельно, это интересно.

Ну и про засирание интернета. Как только вышел OmniGen, я облазил весь твиттор, реддит и гитхаб (код в октябре) и потом оказался по ссылкам на Youtube. Так вот, там оказалось (через пару дней после анонса) тьма подкастов про OmniGen! Я, алкая, полез слушать, и понял, что инфоцыгане, набивающие трафик, тупо берут хайповые бумаги или новости, фигачат это в подкасты и заливают ютюб таким вот добром.

Куда это все прикатится, я уже не понимаю..

https://open.spotify.com/show/3K4LRyMCP44kBbiOziwJjb

@cgevent
👍32🔥13😱7👎51
На Глифченко завезли Флюксенко 1.1 Про

Короче, на glif.app появился Flux 1.1 Pro

Причем дают 20 генераций в день и они быстрые. И в отличие от остальных платформ, тут дают порулить и сидом, и, что важно, Steps. А то на каком-нибудь Freepik или Replicate ничего нарулить нельзя.

Go Glif!

@cgevent
🔥22👍74
ИИ-люди, астанавитесь!

Новый апдейт Хедры:

Character-2 - новая foundation model для генерации
Вертикальные видео (Тикток ликуэ)
Нет ограничения на соотношения сторон
Ну и самое главное, приподзатащили качество наконец-то!
Мылит точно меньше.
Ну и в отличие от Хейгена Хедра умеет приподдать эмоций, даже когда в аудиотреке тишина.
Ну и 4 минуты!

В демо-ролике у них, конечно, все сладчайше, но мы-то сразу видим пост.
Поэтому вот вам пара новоиспеченных роликов прям из Хедры.
Да, качество подтянули, но видно, что сильно зависит от исходника, и, мне кажется, от освещения на исходнике.
Ну и в отличие от Хейгена на вход можно присовывать любые генерации-фантазии, а не только фото.

Пластилиновый перс на демо - огненный конечно.

И у них до фига бесплатных кредитов и они не падают!
https://www.hedra.com/

@cgevent
👍509👎5😁4🔥3
Утренняя разминка с визуализацией.

Сегодня на завтрак ряды Фурье божественно представленные в лаконичном виде.
И да, в пределе нужно бесконечное количество окружностей.

P.S. Чтобы приукрасить пост и сделать его менее скучным, попросил chatGPT написать промпт, иллюстрирующий природу рядов Фурье. Потом сгенерил эти картинки в DALL·E 3 и Flux 1.1

@cgevent
2👍468👎2🔥1😱1
Тут интернетик приподвзорвался новым "хаком" для генерации во Flux.

Выглядит это примерно так:

Try using a prompt like "IMG_1025.HEIC" to get very very realistic images with FLUX1.1.

Это я взял с линкедИна, на твитторе пишут:
If you give FLUX1.1 a prompt like "IMG_1018.CR2" you get back images that are so very hard to tell they're AI.

Вы можете также использовать хорошо знакомые по телефонам: DSC_0123.JPG

Если не просто репостить, а немного потестить, то выясняется, что линкедыновские просто переизобрели все эти олдскульные теги из Stable Diffusion 1.5, типа "wow", "trending on artstation" или "redshift render".

Я погонял это в Фордже для Flux.Dev - благо там есть Plot X\Y\Z - эти промпты дают рандомные картинки, но можно убедить себя, что они как будто фотки (но нет). Там много мусора.

Флюкс Про 1.1 по ним генерит в основном ... траву. И цветочки.

Ну а теперь делаем простой эксперимент - во Флюксе 1.1, чтобы как у людей.

photo of a chineese character
photo of a chineese character DSC_0123.JPG

Получаем иллюстрацию для первого промпта и закос по 3Д и одновременно под фото - для второго.

Ну да, получается, что эта шаманская добавка добавляет как бы фоториал стиль.

В этом смысле - это лайфхак, потому что Флюкс не очень дружит со стилями из коробки и без Лор.

Но это очень частный случай.

И, кстати, это будет работать только на коротких промптах.

Ну и попробуйте понять, где тут пара из Pro 1.1, а где Dev.

Кстати, я немного еще потестил - "raw photo" в промпте дает похожий эффект

@cgevent
👍18😁112👎1🔥1