This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
1👍44🔥31❤5👎1😱1
HunyuanVideo GP. GP = GPU POOR
Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.
https://github.com/deepbeepmeep/HunyuanVideoGP
Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.
https://github.com/deepbeepmeep/HunyuanVideoGP
GitHub
GitHub - deepbeepmeep/HunyuanVideoGP: HunyuanVideo GP: Large Video Generation Model - GPU Poor version
HunyuanVideo GP: Large Video Generation Model - GPU Poor version - deepbeepmeep/HunyuanVideoGP
1🔥27👍10👎1
A - Alignment.
Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.
Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.
Ждём-с.
O - Offtop по выходным
@cgevent
Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.
Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.
Ждём-с.
O - Offtop по выходным
@cgevent
1😁72👍10❤2👎1😱1
OpenAI без помпы выложили гайд по промптингу своих моделей (в связи с их растущим многообразием).
Там есть:
Разница между рассуждающими и не рассуждающими моделями
Когда использовать именно рассуждающие модели
Как эффективно промптить рассуждающие модели
Думаю, что если вы в теме, попросите chatGPT суммаризировать гайд сами.
Для ленивых - последний пункт про эффективный промптинг:
Developer messages - это новые системные сообщения: Начиная с o1-2024-12-17, модели рассуждений поддерживают Developer messages, а не системные сообщения, чтобы соответствовать поведению цепочки команд, описанному в спецификации модели.
Делайте простые и прямые промпты: модели отлично понимают и отвечают на краткие, четкие инструкции. Избегайте промптов в виде цепочки мыслей: Поскольку эти модели выполняют рассуждения внутренне, предлагать им "продумать шаг за шагом" или "объяснить свои рассуждения" не нужно.
Используйте разделители для ясности, такие как разметка, XML-теги и заголовки разделов, чтобы четко обозначить разные части входных данных, помогая модели интерпретировать различные разделы должным образом.
Try zero shot first, then few shot if needed: Для получения хороших результатов моделям рассуждений часто не требуется несколько примеров, поэтому сначала попробуйте написать промпты без примеров. Если у вас есть более сложные требования к желаемому результату, возможно, вам поможет включение в подсказку нескольких примеров входных и желаемых результатов. Только убедитесь, что примеры очень точно соответствуют инструкциям промпта, так как расхождения между ними могут привести к плохим результатам.
Дайте конкретные указания: если вы явно хотите ограничить ответ модели (например, "предложить решение с бюджетом менее 500 долларов"), явно укажите эти ограничения в промпте.
Будьте предельно конкретны в отношении конечной цели: в инструкциях постарайтесь указать очень конкретные параметры успешного ответа и поощряйте модель продолжать рассуждения и итерации до тех пор, пока она не будет соответствовать вашим критериям успеха.
Форматирование в формате markdown: Начиная с o1-2024-12-17, модели рассуждений в API будут избегать генерирования ответов с форматированием в markdown. Чтобы указать модели, когда вы хотите, чтобы в ответе было форматирование, включите строку Formatting re-enabled в первую строку вашего сообщения разработчику.
https://platform.openai.com/docs/guides/reasoning-best-practices
@cgevent
Там есть:
Разница между рассуждающими и не рассуждающими моделями
Когда использовать именно рассуждающие модели
Как эффективно промптить рассуждающие модели
Думаю, что если вы в теме, попросите chatGPT суммаризировать гайд сами.
Для ленивых - последний пункт про эффективный промптинг:
Developer messages - это новые системные сообщения: Начиная с o1-2024-12-17, модели рассуждений поддерживают Developer messages, а не системные сообщения, чтобы соответствовать поведению цепочки команд, описанному в спецификации модели.
Делайте простые и прямые промпты: модели отлично понимают и отвечают на краткие, четкие инструкции. Избегайте промптов в виде цепочки мыслей: Поскольку эти модели выполняют рассуждения внутренне, предлагать им "продумать шаг за шагом" или "объяснить свои рассуждения" не нужно.
Используйте разделители для ясности, такие как разметка, XML-теги и заголовки разделов, чтобы четко обозначить разные части входных данных, помогая модели интерпретировать различные разделы должным образом.
Try zero shot first, then few shot if needed: Для получения хороших результатов моделям рассуждений часто не требуется несколько примеров, поэтому сначала попробуйте написать промпты без примеров. Если у вас есть более сложные требования к желаемому результату, возможно, вам поможет включение в подсказку нескольких примеров входных и желаемых результатов. Только убедитесь, что примеры очень точно соответствуют инструкциям промпта, так как расхождения между ними могут привести к плохим результатам.
Дайте конкретные указания: если вы явно хотите ограничить ответ модели (например, "предложить решение с бюджетом менее 500 долларов"), явно укажите эти ограничения в промпте.
Будьте предельно конкретны в отношении конечной цели: в инструкциях постарайтесь указать очень конкретные параметры успешного ответа и поощряйте модель продолжать рассуждения и итерации до тех пор, пока она не будет соответствовать вашим критериям успеха.
Форматирование в формате markdown: Начиная с o1-2024-12-17, модели рассуждений в API будут избегать генерирования ответов с форматированием в markdown. Чтобы указать модели, когда вы хотите, чтобы в ответе было форматирование, включите строку Formatting re-enabled в первую строку вашего сообщения разработчику.
https://platform.openai.com/docs/guides/reasoning-best-practices
@cgevent
Openai
Reasoning best practices | OpenAI API
Explore best practices for using o-series reasoning models, like o1 and o3-mini, vs. GPT models—including use cases, how to choose a model, and prompting guidance.
2👍49🔥10❤9👎3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V
30B open-source text-to-video generation model
Вы будете смеяться, но у нас новы видеогенератор.
И нет, это не пароварка(vaporware) типа Animate Anywane без кода и надежды на код.
Это прям добротная китайская работа. Настолько добротная, что вы сейчас будете плакать (начну с плохого, понедельник на дворе).
Ибо требования к памяти\железу вот такие:
77.64 GB для 544x992 и 204 кадров
Считается такое видео 12 с половиной минут на четырех A100.
Linux
Нет image2video
Из хорошего:
Есть Турбо версия модели (7 минут и надо 72.48 GB VRAM,это был жоский сарказм )
Упор на качество. Они там в конце тренинга посадили группу китайских товарищей, которые отмечали "хорошие" видео. RLHF, который они называют Direct Preference Optimization (DPO)
Напихали туда Hunyuan Clip и массу тяжелого фарша из DiT w/ 3D Full Attention and 3D RoPE, чтобы по моде и по качеству.
В конце пишут, что попросят FastVideo (который кстати только что обновился), поработать над их конскими требованиями к железу и сделать Fast версию.
В пока смотрим видео, арендуем 4хGPU A100 или H100 и ну тестировать.
Ах, да!! Их хорошего еще: есть тестовый спейс, можно попробовать, если знаете китайский, причем регистрация принимает НЕ ТОЛЬКО китайские симки.
И с анатомией похоже все очень неплохо (хотя надо, конечно, проверять)
Полный фарш и ссылки на веса тут:
https://github.com/stepfun-ai/Step-Video-T2V
@cgevent
30B open-source text-to-video generation model
Вы будете смеяться, но у нас новы видеогенератор.
И нет, это не пароварка(vaporware) типа Animate Anywane без кода и надежды на код.
Это прям добротная китайская работа. Настолько добротная, что вы сейчас будете плакать (начну с плохого, понедельник на дворе).
Ибо требования к памяти\железу вот такие:
77.64 GB для 544x992 и 204 кадров
Считается такое видео 12 с половиной минут на четырех A100.
Linux
Нет image2video
Из хорошего:
Есть Турбо версия модели (7 минут и надо 72.48 GB VRAM,
Упор на качество. Они там в конце тренинга посадили группу китайских товарищей, которые отмечали "хорошие" видео. RLHF, который они называют Direct Preference Optimization (DPO)
Напихали туда Hunyuan Clip и массу тяжелого фарша из DiT w/ 3D Full Attention and 3D RoPE, чтобы по моде и по качеству.
В конце пишут, что попросят FastVideo (который кстати только что обновился), поработать над их конскими требованиями к железу и сделать Fast версию.
В пока смотрим видео, арендуем 4хGPU A100 или H100 и ну тестировать.
Ах, да!! Их хорошего еще: есть тестовый спейс, можно попробовать, если знаете китайский, причем регистрация принимает НЕ ТОЛЬКО китайские симки.
И с анатомией похоже все очень неплохо (хотя надо, конечно, проверять)
Полный фарш и ссылки на веса тут:
https://github.com/stepfun-ai/Step-Video-T2V
@cgevent
1🔥30👍11😁5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Видео, сделанное на демо спейсе от Step-Video-T2V
Это, пожалуй, лучшие пальцы (у гитаристов), что я наблюдал на видео. И посмотрите, как она баррэ ставит. И колки не плывут.
@cgevent
Это, пожалуй, лучшие пальцы (у гитаристов), что я наблюдал на видео. И посмотрите, как она баррэ ставит. И колки не плывут.
@cgevent
1🔥48👍11❤2
Я думал время оберток над API к генераторам картинок уже прошло вначале 2023.
За это время сформировались реально крутые сервисы с добавленной стоимостью (функционалом), которые стоят своих денег. Krea, Freepik, Glif
Но видеть такое в 2025 - это прям .. как в музей попасть.
Ну и вот это вот World's First Unlimited Free AI Image Generator и ацкие цыганские паттерны на сайте - это шедевр.
Сайт кишит рекламой, мой анивирус (AVG) орет со всей дури, когда я его открываю (URL:Phishing), а в твитторе у них какой-то крипто-треш (твиттор создан в декабре и в фолловерах просто ацкие криптоскамеры)).
Тем не менее он генерит нечто в 1024 и постоянно впаривает вам Upgrade to Premium for 5x faster speed, better quality & ad-free experience. Генерит без регистрации и до лимита я не дошел.
Настроек - ноль.
Этшта?
https://raphael.app/
@cgevent
За это время сформировались реально крутые сервисы с добавленной стоимостью (функционалом), которые стоят своих денег. Krea, Freepik, Glif
Но видеть такое в 2025 - это прям .. как в музей попасть.
Ну и вот это вот World's First Unlimited Free AI Image Generator и ацкие цыганские паттерны на сайте - это шедевр.
Сайт кишит рекламой, мой анивирус (AVG) орет со всей дури, когда я его открываю (URL:Phishing), а в твитторе у них какой-то крипто-треш (твиттор создан в декабре и в фолловерах просто ацкие криптоскамеры)).
Тем не менее он генерит нечто в 1024 и постоянно впаривает вам Upgrade to Premium for 5x faster speed, better quality & ad-free experience. Генерит без регистрации и до лимита я не дошел.
Настроек - ноль.
Этшта?
https://raphael.app/
@cgevent
2😁31👍8❤6👎3🔥1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Помните метаверс? Вот так он выглядит сейчас, миллионы долларов спустя 🌚
Это официальная реклама, где люди в VR-шлемах рассказывают кто кого как бросил в IRL и почему они одни 14го февраля
Напоминает древнюю рекламу сигарет марки Strand, которая вышла под лозунгом:
You’re never alone with a Strand
И засела в головах людей с мыслью, что это сигареты для одиноких людей, обвалив им продажи ¯\_(ツ)_/¯
Это официальная реклама, где люди в VR-шлемах рассказывают кто кого как бросил в IRL и почему они одни 14го февраля
Напоминает древнюю рекламу сигарет марки Strand, которая вышла под лозунгом:
You’re never alone with a Strand
И засела в головах людей с мыслью, что это сигареты для одиноких людей, обвалив им продажи ¯\_(ツ)_/¯
2😁84👍5👎4🔥3😱3❤2
Forwarded from Сиолошная
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:
— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.
Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати🤠 ) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.
TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.
<страницы блога пока нет, тоже ждём>
Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.
Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати
TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.
<страницы блога пока нет, тоже ждём>
Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍40❤11👎3😱2🔥1