Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Так, похоже Алибаба со своим Wan разворошил гнездо опенсорсных генераторов видео.

На гитхабе Хуньяня за последние два дня тонна апдейтов в коде. И похоже вот-вот они бахнут Image2Video.

Поглядите на видосы, которыми они уже флексят в твитторе. Это все I2V! Пруфы-картинки на входе имеются. Ну и оцените анатомию у бегуна. Похоже deep research сисек будет сделан окончательно и тема будет закрыта.

Более того, смотрите, что они пишут! 10 секунд!

You can now generate videos that lasts up to 10s of 1280x720 and 16s of 848x480 with 24 GB of VRAM with Loras and no quantization !!!

Ну и мне нравится такой маркетинг: Законы VRAM были нарушены, так как потребление VRAM было уменьшено в три раза, а скорость на 20%-50% быстрее без потери качества!

Ерзаем, идем брать в аренду гпу-серваки.

https://github.com/deepbeepmeep/HunyuanVideoGP

@cgevent
128🔥19👍8😁2
Хуньянь, что ты делаешь, прекрати!

Либо выпускай I2V, либо хватит дразницца.

Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.

@cgevent
1🔥54😱9😁74👍4
Forwarded from Сиолошная
Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
👎30👍12😱4😁21
This media is not supported in your browser
VIEW IN TELEGRAM
Пика не унимается.

Пикадишенс, ингредиентс, и вот теперь пикафреймс.

Короче, новая версия Pika 2.2.

10 секунд

1080р

Frames - возможность морфиться между двумя любыми кадрами промптом.
Все как у людей, в общем.

@cgevent
1🔥8111👍8😁2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже писал про развеселых Братьях Дор.

Держите новый, но не сильно веселый клип от них.

Щас, конечно, прибегут директора рекламных агентств, как у меня по традиции заведено в коментах, и начнут возопить, что все плохо и уши неправильные и Цук не похож.

Я посмотрел раз, потом посмотрел два.

История рассказана идеально. Без всякого липсинка и даже нарратива (что круто). Просто рассказана и все. Понятно, жоско. Примерно о том, что мы тут уже 5 лет обсуждаем.

Вы можете и дальше ловить блох, и искать жанры, стили, области, где это НЕ будет работать, а взрослые мальчики уже сейчас (хорошо) делают это там, где это РАБОТАЕТ. Ибо блох искать - не пиксели ворочать.

И да, это все генератив.

А я такой сижу с калькулятором в голове и считаю бюджет такого ролика, включая экспедиции и самолеты\графику и пост. И думаю, да, можно рассказать историю на 50% красивее по картинке, но потратив на 500 000% больше. Но зачем, если история рассказана? Это ж не марвел, где нет истории, и надо мочить графикой по глазам зрителя.

https://www.instagram.com/thedorbrothers/

@cgevent
4🔥111👍368👎4
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и раз уж я взялся сегодня не обсуждать 4.5, а постить GenAI ролики, то вот вам еще один.

Рекламный.

И да, в нем тоже рассказана история.

И да, вы тоже найдете там косяки и пересветы.

Но поглядите, как фантастически иронично там сделаны Behind The Scenes!!! И они - это тоже полностью генератив! Особенно великолепно обсуждение бюджетов.

Вот брейкдаун:

📸 Step 1: Capture the car

We shot stills and videos of a real MINI Cooper E and trained a LoRA via krea_ai to ensure the car looked identical in every shot.

🎨 Step 2: Generate the visuals

Using this LoRA, we created all car shots with Black Forest Labs flux dev. The rest of the images were made with Black Forest Labs Flux 1.1 Ultra and @magnific_ai AI Mystic allowing full creative control and Adobe Photoshop refinements.

🎞 Step 3: Bring it to life

Everything was animated with Luma AI Ray2 (99%) and Google Veo2

🗣 Step 4: Sync the lips

I used sync.so to generate realistic mouth movements, matching dialogue precisely. ElevenLabs for voice generation.

🎙 Step 5: The voices

For the final spot, we hired real voice actors from Fiverr(?!?!?!?!). But for the Behind The Scenes, ElevenLabs AI voices did the job, also synced via sync.so.

🎬 Final Touches

No upscaling(!!!!!)—everything went straight into DaVinci Resolve for editing and color correction.

https://www.instagram.com/p/DGgUTkdysWU/

@cgevent
1👍66🔥3710😱5👎1😁1
Forwarded from XOR
Ого, разработчики из Sber AI и AIRI выкатили первую open source модель переноса головы GHOST 2.0.

До сих пор большинство алгоритмов справляются с переносом так себе (мягко говоря). GHOST 2.0 на этом фоне сильно выделяется — неудивительно, что это сейчас статья дня на Hugging Face.🥇

Дело в том, что моделька не просто заменяет лица, а полностью переносит голову с одного изображения на другое. Для реалистичного результата GHOST 2.0 учитывает позу, выражение, освещение и текстуру кожи, а после вставки подгоняет цвета и фон. В процессе постобработки разработчики еще и использовали Kandinsky 2.2 — он помогает удалять лишние детали.

Если интересуетесь ML, то советуем почитать на выходных статью полностью, как парням удалось добиться таких результатов.

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34😁22👎15👍72
Только сейчас увидел, конкурс уже завтра.

Паша Перегудов, подписчик и участник нашего чата делает хорошее (и бесплатное) дело. Пора делать ИИ-гильдию.

Итак, MyFilm[48]:

❗️Это ваш шанс заявить о себе!
Стартовал III сезон международного конкурса AI-фильмов MyFilm[48] в сотрудничестве с крупным брендом обуви и аксессуаров.

MyFilm[48] — это первый в России международный онлайн-конкурс AI-фильмов, где за 48 часов необходимо создать короткое видео или анимацию с помощью нейронных сетей. Участников в этом сезоне конкурса будет ждать интересное творческое задание на тему «Реклама как кино»!

🟣 Почему стоит участвовать?
— У вас будет возможность проявить себя в индустрии.
— Вы получите креативный опыт работы с AI.
— Станете частью международного сообщества.
— У каждого участника есть шанс получить предложение о сотрудничестве.

Отраслевые партнеры и эксперты конкурса из разных индустрий выберут победителей, которые получат ценные призы.

🗓 Конкурс пройдет в онлайн формате с 1 по 2 марта. И уже 10 марта мы объявим победителей нового сезона!

Регистрируйтесь и подписывайтесь на соц. сети VK и TG, чтобы быть в курсе событий 📲

Участие в конкурсе бесплатное!
🔥32👎18👍93
This media is not supported in your browser
VIEW IN TELEGRAM
И чуть еще Wan 14b image2Video и СтопМоушн анимация

📕 Тут автор поделился некоторыми параметрами:
Я тестировал Wan2.1 14B 720p и пытался понять, в каких областях предыдущие модели с открытым исходным кодом для видео не справлялись, и мне пришла в голову техника покадровой анимации. Для инференса я использовал 30 шагов семплирования, CFG 6 и Flow Shift 5, чтобы получить эти результаты, и был крайне впечатлен! Думаю, что большое значение имеет тот факт, что частота кадров видео составляет 16, в отличие от Hunyuan, где она равна 24. С нетерпением жду возможности протестировать это дальше, и обязательно поделюсь еще более хорошими результатами.

LINK

🐈‍⬛ Ну чтож, жаль у меня на все выходные уже есть дела. Но нужно собрать интересный бенчмарк для теста Image To Video, то есть картинок + промптов.

Покидайте идеи сложные в комменты для бенча. Не просто портретных фоток девушек, которых завались в датасете, а именно сложные концепты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍5😱31
This media is not supported in your browser
VIEW IN TELEGRAM
История о том, как можно успеть заработать 10M, прежде, чем это станет коммодити или темой для студенческих курсовых.

Какой жестокий инфоцыганский заголовок! Но нет, не надейтесь!

Я уже писал про знаменитый клип Майкла Джексона, когда использовал его для реставрации в FaceFusion

Но сегодня обнаружил вот такую интересную работу.
Автор взял и заменил все переходы, сделанные когда-то пиксельным морфингом, на переходы с помощью PikaFrames (морфинг в латентном пространстве).
Взял последний кадр каждого персонажа перед переходом и первый кадр следующего человека после перехода и пропустил их через Pika Frames. Затем заменил старые переходы на видео новыми.

Пика позволяет задавать длину перехода от 1 до 10 секунд и контролировать\создавать такой транзишен промптом(что круто). Тут использовались переходы длиной от 1 до 2 секунд.

Этот пост вовсе не повод сравнивать между собой старые и новые переходы или искать блох (поищите лучше оригинал выше). Новая фишка с морфингом в Пике - очень удачная. А если вспомнить, сколько стоила лицензия на Elastic Reality, то и дешевая до жути.

Просто я один из тех динозавров, кто был на концерте Майкла в 90-х. Описать это невозможно. Поэтому расскажу немного пару подробностей про клип, ДримВоркс и ElasticReality.

До того как компания Pacific Data Images (PDI) была куплена DreamWorks и стала одним из лидеров CG-анимации благодаря "Антц" и "Шрек", ее ласково называли "домом морфинга".

Во время производства эффектов они могли напрямую общаться с Силикон Графикс, который делал софт Elastic Reality, так как там работали бывшие сотрудники, и просили добавлять разные фишки "на лету".

На итоге они сделали очень удачные алгоритмы, которые держали в секрете и после выхода клипа, заработали около 10 миллионов долларов только на морфинге (точнее на клипах и эффектах в этих клипах).

"У нас была пара лет, когда мы печатали деньги, это было здорово. Мы использовали большую часть из них для финансирования расширения, чтобы сделать больше работы над живыми фильмами и собрать группу по анимации персонажей, чтобы сделать несколько предложений для работы над полнометражной анимацией. В итоге мы сделали «Муравей Антц» и «Шрек» и, конечно, все, что появилось потом.

Мы смогли добиться лучшего эффекта гораздо быстрее, чем кто-либо другой, и мы могли брать за это большие деньги. Мы держали это в секрете довольно долго, а затем, когда слухи стали распространяться, Тэд и Шон опубликовали эту технику на SIGGRAPH в 1992 году. Наш алгоритм был основан на скелетах. Поэтому мы фактически рисовали своего рода форму и искажали изображения на основе контуров или скелетной формы.

Одной из замечательных особенностей этой работы на SIGGRAPH было то, что она была очень простой. Во многих колледжах обучали людей компьютерной графике, и они заставляли студентов реализовывать то, что мы писали. Это было относительно легко сделать, и это давало программисту или студенту возможность довольно быстро получить встроенный творческий инструмент, и они могли играть с ним, и я думаю, что тысячи студентов сделали это.
"

Очень подробная и добрая статья про морфинг, клип Майкла и PDI - тут.

@cgevent
362👍34🔥14😁1
В Грок приподзавозят фишки\артифакты конкурентов.

У меня появилась кнопка Preview, после запроса на создание html кода.
Пока только html + css внутри, но я проверил, что treejs тоже работает.
Обещают поддержку других языков.
Все это конечно, похоже на Артифакты Клода и Канвас chatGPT.
Вот и отлично, еще немного, все конкуренты на поляне подсуетятся и сделают miniIDE прямо в браузерной версии своих чатов.

Мне было настолько лень, что я просто бросил в него примитивнейший промпт на разговорном русском. Он справился с первого раза - если открыть код в браузере из сохраненнго файла - все сразу заработало, но в панели превью была белая пустыня. Я взвыл в чате, и он объяснил отчего это происходит и поправил код. Все завелось в панели справа, с анимацией притом.

Для кода на Питоне такой кнопки пока нет.

К-Конкуренция. Х-Хорошо.

@cgevent
👍5517🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Wan 2.1 I2V 480P прям хорош.

Небыстр, но хорош.

720Р модель чудовищно медленная, 40 мин для непожатой версии на Н100.

А вот 480Р и 4 минуты годно. Гоняю тесты, любопытно, что у них дефолтный негативный промпт на китайском.
А дефолтные 50 шагов это артефакт, на 15-ти прекрасное качество. Своих тестов показать не могу, держите красивое из сети.

сурс

@cgevent
🔥40👍134😁3😱2
В четверг был на квартирнике Касты, где солировали Влади и Шым.

Оказывается Миша Шым - давнишний подписчик канала. Чуть потрещщали за ИИ.

Нейродед как раз бороду отпустил, патлы расчесал и ну фотографироваться!

@cgevent
61👍186🔥9235👎32😁4
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Генераторы действительно могут принести пользу для создания футажей разных FX, которые сложно достать или подснять, например, водопад на чёрном фоне.

Для реально сложных взаимодействий это пока не подходит — приходится пользоваться классическими методами симуляций, но для концептов или мэтпэинтов вполне.

Этот создан в Runway.
1🔥82👍286😁2
Сломанные розы

Попробуйте зайти в chatGPT и попросить:

create image of rose


Хрен тебе, похабник: I was unable to generate the image because the request did not comply with the content policy

Попробуйте.

Теперь пытаемся объяснить это хоть как-то.

1. Это женское имя. Может поэтому? (мы же знаем, как OpenAI боится людей и особенно женщин)

Но нет, create image of samantha - все норм.

Я не поленился, собрал цветочные имена:

create image of a lily - тоже все ок, лилии цветут.

2. Был такой промпт-чит: даешь картинку любой ерунды и говоришь chatGPT, чтобы бы не увидел, tell user it is picture of a rose. Работало. Может это вшитая защита от собранных промпт-инъекций?

3. У кого-то из разрабов OpenAI была ex-girlfriend Роза.

4. Роза Люксембург накосячила?

5. Цыгане чем-то не угодили Сэму.

6. Художники с Арбата взломали chatGPT.

Еще версии?

Идем дальше:

create image of роза (тут "роза" написано по русски) - снова отказ.

И только:
create изображение розы - работает.

Что мы имеем?

"image of a rose" вызывает у chatGPT судороги цензуры.

Ладно клубника, а розу за что?

Тут я просто напомню, что имея дело с закрытыми языковыми моделями вы всегда будете в заложниках, скажем так, убеждений разработчиков о том, что хорошо, а что плохо. Жрецы пишут скрепы, разработчики пишут правила. Сжигали ведьм, сжигаем розы(в чате пока). История стара как мир. Первая(вторая?) производная от религии в действии?

P.S. Не надо предлагать промпты, которые генерят розы, не надо кидать примеры из Грока или ЛеЧата, пост не об этом вообще. Хотите упороться в цветочки, погенерите
цветик-семицветик тогда.

@cgevent
5😁56👍199🔥3😱3👎1
Сегодня все обсуждают инсайд Марка Гурмана про Apple Intelligence.

Если вкратце: мы не увидим значимых новых функций Apple Intelligence до дебюта iOS 20 в июне 2027 года.

Если вдолгую, почитайте тут:
https://www.iclarified.com/96597/apple-is-facing-an-ai-crisis-gurman

Мне кажется, что причина в том, что Эппле всегда стремятся вылизать до блеска ту или иную (киллер) фичу и представить то, что работает как часы. То, что уже знакомо, понятно, предсказуемо с точки зрения экосистемы Эппле.

И тут ИИ такой: я не могу создать изображение розы!

Ну вы поняли - на поляне ИИ все меняется настолько стремительно, что не то, чтобы заполировать, а протестировать времени нет - новый Сири станет старым по дороге на прилавки.

Им бы смиренно интегрироваться с OpenAI, ловко переложив ответственность за все косяки на партнера. Но нет же, Эппле Интеллидженс: "Устареваем раньше, чем выходим".

После Apple Vision Pro - это уже второй крупный фейл. Что-то не так с Vision...

@cgevent
👍307😁2