Метаверсище и ИИще
48.2K subscribers
6.06K photos
4.54K videos
47 files
6.97K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent
1👍44🔥315👎1😱1
HunyuanVideo GP. GP = GPU POOR

Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.

https://github.com/deepbeepmeep/HunyuanVideoGP
1🔥27👍10👎1
Smartest AI on Earth

Доживём до понедельника...

@cgevent
1😁74👍17😱7👎21
A - Alignment.

Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.

Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.

Ждём-с.

O - Offtop по выходным

@cgevent
1😁72👍102👎1😱1
OpenAI без помпы выложили гайд по промптингу своих моделей (в связи с их растущим многообразием).

Там есть:
Разница между рассуждающими и не рассуждающими моделями

Когда использовать именно рассуждающие модели

Как эффективно промптить рассуждающие модели

Думаю, что если вы в теме, попросите chatGPT суммаризировать гайд сами.

Для ленивых - последний пункт про эффективный промптинг:


Developer messages - это новые системные сообщения: Начиная с o1-2024-12-17, модели рассуждений поддерживают Developer messages, а не системные сообщения, чтобы соответствовать поведению цепочки команд, описанному в спецификации модели.

Делайте простые и прямые промпты: модели отлично понимают и отвечают на краткие, четкие инструкции. Избегайте промптов в виде цепочки мыслей: Поскольку эти модели выполняют рассуждения внутренне, предлагать им "продумать шаг за шагом" или "объяснить свои рассуждения" не нужно.

Используйте разделители для ясности, такие как разметка, XML-теги и заголовки разделов, чтобы четко обозначить разные части входных данных, помогая модели интерпретировать различные разделы должным образом.

Try zero shot first, then few shot if needed: Для получения хороших результатов моделям рассуждений часто не требуется несколько примеров, поэтому сначала попробуйте написать промпты без примеров. Если у вас есть более сложные требования к желаемому результату, возможно, вам поможет включение в подсказку нескольких примеров входных и желаемых результатов. Только убедитесь, что примеры очень точно соответствуют инструкциям промпта, так как расхождения между ними могут привести к плохим результатам.

Дайте конкретные указания: если вы явно хотите ограничить ответ модели (например, "предложить решение с бюджетом менее 500 долларов"), явно укажите эти ограничения в промпте.

Будьте предельно конкретны в отношении конечной цели: в инструкциях постарайтесь указать очень конкретные параметры успешного ответа и поощряйте модель продолжать рассуждения и итерации до тех пор, пока она не будет соответствовать вашим критериям успеха.

Форматирование в формате markdown: Начиная с o1-2024-12-17, модели рассуждений в API будут избегать генерирования ответов с форматированием в markdown. Чтобы указать модели, когда вы хотите, чтобы в ответе было форматирование, включите строку Formatting re-enabled в первую строку вашего сообщения разработчику.

https://platform.openai.com/docs/guides/reasoning-best-practices

@cgevent
2👍49🔥109👎3
Step-Video-T2V
30B open-source text-to-video generation model

Вы будете смеяться, но у нас новы видеогенератор.

И нет, это не пароварка(vaporware) типа Animate Anywane без кода и надежды на код.

Это прям добротная китайская работа. Настолько добротная, что вы сейчас будете плакать (начну с плохого, понедельник на дворе).

Ибо требования к памяти\железу вот такие:
77.64 GB для 544x992 и 204 кадров
Считается такое видео 12 с половиной минут на четырех A100.
Linux
Нет image2video

Из хорошего:
Есть Турбо версия модели (7 минут и надо 72.48 GB VRAM, это был жоский сарказм)

Упор на качество. Они там в конце тренинга посадили группу китайских товарищей, которые отмечали "хорошие" видео. RLHF, который они называют Direct Preference Optimization (DPO)

Напихали туда Hunyuan Clip и массу тяжелого фарша из DiT w/ 3D Full Attention and 3D RoPE, чтобы по моде и по качеству.

В конце пишут, что попросят FastVideo (который кстати только что обновился), поработать над их конскими требованиями к железу и сделать Fast версию.

В пока смотрим видео, арендуем 4хGPU A100 или H100 и ну тестировать.

Ах, да!! Их хорошего еще: есть тестовый спейс, можно попробовать, если знаете китайский, причем регистрация принимает НЕ ТОЛЬКО китайские симки.

И с анатомией похоже все очень неплохо (хотя надо, конечно, проверять)

Полный фарш и ссылки на веса тут:
https://github.com/stepfun-ai/Step-Video-T2V

@cgevent
1🔥30👍11😁53
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и как вам заход со Стивом Джобсом и презентацией на заднем плане от Step-Video-T2V

@cgevent
3🔥29👍62
This media is not supported in your browser
VIEW IN TELEGRAM
Видео, сделанное на демо спейсе от Step-Video-T2V

Это, пожалуй, лучшие пальцы (у гитаристов), что я наблюдал на видео. И посмотрите, как она баррэ ставит. И колки не плывут.

@cgevent
1🔥48👍112
Я думал время оберток над API к генераторам картинок уже прошло вначале 2023.

За это время сформировались реально крутые сервисы с добавленной стоимостью (функционалом), которые стоят своих денег. Krea, Freepik, Glif

Но видеть такое в 2025 - это прям .. как в музей попасть.

Ну и вот это вот World's First Unlimited Free AI Image Generator и ацкие цыганские паттерны на сайте - это шедевр.

Сайт кишит рекламой, мой анивирус (AVG) орет со всей дури, когда я его открываю (URL:Phishing), а в твитторе у них какой-то крипто-треш (твиттор создан в декабре и в фолловерах просто ацкие криптоскамеры)).

Тем не менее он генерит нечто в 1024 и постоянно впаривает вам Upgrade to Premium for 5x faster speed, better quality & ad-free experience. Генерит без регистрации и до лимита я не дошел.

Настроек - ноль.

Этшта?

https://raphael.app/

@cgevent
2😁31👍86👎3🔥1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Помните метаверс? Вот так он выглядит сейчас, миллионы долларов спустя 🌚

Это официальная реклама, где люди в VR-шлемах рассказывают кто кого как бросил в IRL и почему они одни 14го февраля

Напоминает древнюю рекламу сигарет марки Strand, которая вышла под лозунгом:
You’re never alone with a Strand

И засела в головах людей с мыслью, что это сигареты для одиноких людей, обвалив им продажи ¯\_(ツ)_/¯
2😁84👍5👎4🔥3😱32
Forwarded from Сиолошная
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4011👎3😱2🔥1