Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
👍40🔥102😱2👎1😁1
Так, похоже Алибаба со своим Wan разворошил гнездо опенсорсных генераторов видео.

На гитхабе Хуньяня за последние два дня тонна апдейтов в коде. И похоже вот-вот они бахнут Image2Video.

Поглядите на видосы, которыми они уже флексят в твитторе. Это все I2V! Пруфы-картинки на входе имеются. Ну и оцените анатомию у бегуна. Похоже deep research сисек будет сделан окончательно и тема будет закрыта.

Более того, смотрите, что они пишут! 10 секунд!

You can now generate videos that lasts up to 10s of 1280x720 and 16s of 848x480 with 24 GB of VRAM with Loras and no quantization !!!

Ну и мне нравится такой маркетинг: Законы VRAM были нарушены, так как потребление VRAM было уменьшено в три раза, а скорость на 20%-50% быстрее без потери качества!

Ерзаем, идем брать в аренду гпу-серваки.

https://github.com/deepbeepmeep/HunyuanVideoGP

@cgevent
128🔥19👍8😁2
Хуньянь, что ты делаешь, прекрати!

Либо выпускай I2V, либо хватит дразницца.

Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.

@cgevent
1🔥54😱9😁74👍4
Forwarded from Сиолошная
Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
👎30👍12😱4😁21
This media is not supported in your browser
VIEW IN TELEGRAM
Пика не унимается.

Пикадишенс, ингредиентс, и вот теперь пикафреймс.

Короче, новая версия Pika 2.2.

10 секунд

1080р

Frames - возможность морфиться между двумя любыми кадрами промптом.
Все как у людей, в общем.

@cgevent
1🔥8111👍8😁2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже писал про развеселых Братьях Дор.

Держите новый, но не сильно веселый клип от них.

Щас, конечно, прибегут директора рекламных агентств, как у меня по традиции заведено в коментах, и начнут возопить, что все плохо и уши неправильные и Цук не похож.

Я посмотрел раз, потом посмотрел два.

История рассказана идеально. Без всякого липсинка и даже нарратива (что круто). Просто рассказана и все. Понятно, жоско. Примерно о том, что мы тут уже 5 лет обсуждаем.

Вы можете и дальше ловить блох, и искать жанры, стили, области, где это НЕ будет работать, а взрослые мальчики уже сейчас (хорошо) делают это там, где это РАБОТАЕТ. Ибо блох искать - не пиксели ворочать.

И да, это все генератив.

А я такой сижу с калькулятором в голове и считаю бюджет такого ролика, включая экспедиции и самолеты\графику и пост. И думаю, да, можно рассказать историю на 50% красивее по картинке, но потратив на 500 000% больше. Но зачем, если история рассказана? Это ж не марвел, где нет истории, и надо мочить графикой по глазам зрителя.

https://www.instagram.com/thedorbrothers/

@cgevent
4🔥111👍368👎4
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и раз уж я взялся сегодня не обсуждать 4.5, а постить GenAI ролики, то вот вам еще один.

Рекламный.

И да, в нем тоже рассказана история.

И да, вы тоже найдете там косяки и пересветы.

Но поглядите, как фантастически иронично там сделаны Behind The Scenes!!! И они - это тоже полностью генератив! Особенно великолепно обсуждение бюджетов.

Вот брейкдаун:

📸 Step 1: Capture the car

We shot stills and videos of a real MINI Cooper E and trained a LoRA via krea_ai to ensure the car looked identical in every shot.

🎨 Step 2: Generate the visuals

Using this LoRA, we created all car shots with Black Forest Labs flux dev. The rest of the images were made with Black Forest Labs Flux 1.1 Ultra and @magnific_ai AI Mystic allowing full creative control and Adobe Photoshop refinements.

🎞 Step 3: Bring it to life

Everything was animated with Luma AI Ray2 (99%) and Google Veo2

🗣 Step 4: Sync the lips

I used sync.so to generate realistic mouth movements, matching dialogue precisely. ElevenLabs for voice generation.

🎙 Step 5: The voices

For the final spot, we hired real voice actors from Fiverr(?!?!?!?!). But for the Behind The Scenes, ElevenLabs AI voices did the job, also synced via sync.so.

🎬 Final Touches

No upscaling(!!!!!)—everything went straight into DaVinci Resolve for editing and color correction.

https://www.instagram.com/p/DGgUTkdysWU/

@cgevent
1👍66🔥3710😱5👎1😁1
Forwarded from XOR
Ого, разработчики из Sber AI и AIRI выкатили первую open source модель переноса головы GHOST 2.0.

До сих пор большинство алгоритмов справляются с переносом так себе (мягко говоря). GHOST 2.0 на этом фоне сильно выделяется — неудивительно, что это сейчас статья дня на Hugging Face.🥇

Дело в том, что моделька не просто заменяет лица, а полностью переносит голову с одного изображения на другое. Для реалистичного результата GHOST 2.0 учитывает позу, выражение, освещение и текстуру кожи, а после вставки подгоняет цвета и фон. В процессе постобработки разработчики еще и использовали Kandinsky 2.2 — он помогает удалять лишние детали.

Если интересуетесь ML, то советуем почитать на выходных статью полностью, как парням удалось добиться таких результатов.

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34😁22👎15👍72
Только сейчас увидел, конкурс уже завтра.

Паша Перегудов, подписчик и участник нашего чата делает хорошее (и бесплатное) дело. Пора делать ИИ-гильдию.

Итак, MyFilm[48]:

❗️Это ваш шанс заявить о себе!
Стартовал III сезон международного конкурса AI-фильмов MyFilm[48] в сотрудничестве с крупным брендом обуви и аксессуаров.

MyFilm[48] — это первый в России международный онлайн-конкурс AI-фильмов, где за 48 часов необходимо создать короткое видео или анимацию с помощью нейронных сетей. Участников в этом сезоне конкурса будет ждать интересное творческое задание на тему «Реклама как кино»!

🟣 Почему стоит участвовать?
— У вас будет возможность проявить себя в индустрии.
— Вы получите креативный опыт работы с AI.
— Станете частью международного сообщества.
— У каждого участника есть шанс получить предложение о сотрудничестве.

Отраслевые партнеры и эксперты конкурса из разных индустрий выберут победителей, которые получат ценные призы.

🗓 Конкурс пройдет в онлайн формате с 1 по 2 марта. И уже 10 марта мы объявим победителей нового сезона!

Регистрируйтесь и подписывайтесь на соц. сети VK и TG, чтобы быть в курсе событий 📲

Участие в конкурсе бесплатное!
🔥32👎18👍93
This media is not supported in your browser
VIEW IN TELEGRAM
И чуть еще Wan 14b image2Video и СтопМоушн анимация

📕 Тут автор поделился некоторыми параметрами:
Я тестировал Wan2.1 14B 720p и пытался понять, в каких областях предыдущие модели с открытым исходным кодом для видео не справлялись, и мне пришла в голову техника покадровой анимации. Для инференса я использовал 30 шагов семплирования, CFG 6 и Flow Shift 5, чтобы получить эти результаты, и был крайне впечатлен! Думаю, что большое значение имеет тот факт, что частота кадров видео составляет 16, в отличие от Hunyuan, где она равна 24. С нетерпением жду возможности протестировать это дальше, и обязательно поделюсь еще более хорошими результатами.

LINK

🐈‍⬛ Ну чтож, жаль у меня на все выходные уже есть дела. Но нужно собрать интересный бенчмарк для теста Image To Video, то есть картинок + промптов.

Покидайте идеи сложные в комменты для бенча. Не просто портретных фоток девушек, которых завались в датасете, а именно сложные концепты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍5😱31