Метаверсище и ИИще

A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

КонтролНет от\для Клинга.

Я не очень люблю просто пейперы без деталей, демо или оценок (для этого есть Ahsen Khaliq), но тут затевается что-то интересное от Квай.

https://cinemaster-dev.github.io/

Поглядите, на видосы на сайте, прям контролнетконтролнет.

@cgevent

👍26❤4🔥2

7.99K viewsSergey Tsyptsyn ️️, edited 08:49

Метаверсище и ИИще

Forwarded from Denis Sexy IT 🤖

И менее приятные новости для психотерапевтов:

– Исследователи взяли 830 человек и просили отличить ответы ChatGPT от ответов 13 реальных психотерапевтов в области терапии пар (супружеские и тп). В итоге большинство участников не смогли распознать, где ответ АИ, а где – человеческий
¯\_(ツ)_/¯

– Более того, ответ ChatGPT получал более высокие оценки по ключевым принципам психотерапии: правда, возможно, людям просто лень печатать, так как у ChatGPT, как всегда, очень объемные ответы

– Авторы исследования призывают психотерапевтов расширять техническую грамотность (прям так и пишут). Еще добавляют, что интеграция АИ в сферу психического здоровья должна быть тщательно регулируема и проверяема

– Тестировали против людей GPT 4, то есть o3+ будет еще лучше в плане ответов

Источник:
https://journals.plos.org/mentalhealth/article?id=10.1371/journal.pmen.0000145

journals.plos.org

When ELIZA meets therapists: A Turing test for the heart and mind

“Can machines be therapists?” is a question receiving increased attention given the relative ease of working with generative artificial intelligence. Although recent (and decades-old) research has found that humans struggle to tell the difference between…

😁34👍21👎7❤4

5.88K viewsSergey Tsyptsyn ️️, 08:37

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Google только что анонсировала бесконечную память для Gemini.

Чтобы попросить Gemini помнить все прошлые чаты, вам нужен (платный) Gemini Advanced и Gemini 2.0 Flash. И похоже только на английском(?)

На реддите уже называют это Google RAG на стероидах Google Drive.

Для дейтинга и секстинга вообще огонь получается...

@cgevent

🔥51👍20😁8❤4👎2😱2

8.97K viewsSergey Tsyptsyn ️️, 12:19

Метаверсище и ИИще

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Я наверное больше не буду постить ничего от Алибабищенко.

Тут интернетик нам пишет "AnimateAnyone 2 анимирует персонажей по одной картинке".

В каких-то сферических лабораториях или мечтах АлиБабы - наверное да.

Помните, сколько мы ждали код EMO, вместо этого получили EMO2 и тоже без кода.

Animate Anyone 1 обещали опенсорснуть 2 года назад, он набрал 14000 звезд на github, но код до сих пор нигде не обнаружен. И тут нам подсовывают AnimateAnyone 2.

Гусарам же верят на слово?

Я уже писал, что для такого хайпа есть уже термин VapourWare. Бахнуть статью на архив, никто проверять не будет, кода нет, картинки можно любые нарисовать.

Может быть раньше имело смысл такое постить - для вдохновения, так сказать, смарите чо ИИ уже умеет. Но сейчас это уже просто накрутка звезд и внимания. Кожаные не меняются, ибо метрики все те же - звезды, лайки, внимание.

Вместо среднего качества видосов, я вам вот такой скриншот дам. Это лэндинг AnimateAnyone 2 и вверху менюшка типа "Еще ресерч от Алибабы". Так вот НИ ОДИН пункт (кроме Cloth2Tex двухлетней давности) не содержит кода, а многие просто дохлые. Это зачем все постить?

Ну или заведу рубрику ПароВарка - ссылки на проекты без кода...

Идите сами смотреть видосы, которые вы никогда не увидите, сюда:
https://humanaigc.github.io/animate-anyone-2/

@cgevent

1👍22😁11❤6👎2

7.71K viewsSergey Tsyptsyn ️️, 14:07

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent

1👍44🔥31❤5👎1😱1

11.8K viewsSergey Tsyptsyn ️️, edited 14:47

Метаверсище и ИИще

HunyuanVideo GP. GP = GPU POOR

Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.

https://github.com/deepbeepmeep/HunyuanVideoGP

GitHub

GitHub - deepbeepmeep/HunyuanVideoGP: HunyuanVideo GP: Large Video Generation Model - GPU Poor version

HunyuanVideo GP: Large Video Generation Model - GPU Poor version - deepbeepmeep/HunyuanVideoGP

1🔥27👍10👎1

12.1K viewsSergey Tsyptsyn ️️, edited 21:52

Метаверсище и ИИще

Smartest AI on Earth

Доживём до понедельника...

@cgevent

1😁74👍17😱7👎2❤1

8.62K viewsSergey Tsyptsyn ️️, 10:36

Метаверсище и ИИще

A - Alignment.

Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.

Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.

Ждём-с.

O - Offtop по выходным

@cgevent

1😁72👍10❤2👎1😱1

8.83K viewsSergey Tsyptsyn ️️, edited 14:02

Метаверсище и ИИще

OpenAI без помпы выложили гайд по промптингу своих моделей (в связи с их растущим многообразием).

Там есть:
Разница между рассуждающими и не рассуждающими моделями

Когда использовать именно рассуждающие модели

Как эффективно промптить рассуждающие модели

Думаю, что если вы в теме, попросите chatGPT суммаризировать гайд сами.

Для ленивых - последний пункт про эффективный промптинг:

Developer messages - это новые системные сообщения: Начиная с o1-2024-12-17, модели рассуждений поддерживают Developer messages, а не системные сообщения, чтобы соответствовать поведению цепочки команд, описанному в спецификации модели.

Делайте простые и прямые промпты: модели отлично понимают и отвечают на краткие, четкие инструкции. Избегайте промптов в виде цепочки мыслей: Поскольку эти модели выполняют рассуждения внутренне, предлагать им "продумать шаг за шагом" или "объяснить свои рассуждения" не нужно.

Используйте разделители для ясности, такие как разметка, XML-теги и заголовки разделов, чтобы четко обозначить разные части входных данных, помогая модели интерпретировать различные разделы должным образом.

Try zero shot first, then few shot if needed: Для получения хороших результатов моделям рассуждений часто не требуется несколько примеров, поэтому сначала попробуйте написать промпты без примеров. Если у вас есть более сложные требования к желаемому результату, возможно, вам поможет включение в подсказку нескольких примеров входных и желаемых результатов. Только убедитесь, что примеры очень точно соответствуют инструкциям промпта, так как расхождения между ними могут привести к плохим результатам.

Дайте конкретные указания: если вы явно хотите ограничить ответ модели (например, "предложить решение с бюджетом менее 500 долларов"), явно укажите эти ограничения в промпте.

Будьте предельно конкретны в отношении конечной цели: в инструкциях постарайтесь указать очень конкретные параметры успешного ответа и поощряйте модель продолжать рассуждения и итерации до тех пор, пока она не будет соответствовать вашим критериям успеха.

Форматирование в формате markdown: Начиная с o1-2024-12-17, модели рассуждений в API будут избегать генерирования ответов с форматированием в markdown. Чтобы указать модели, когда вы хотите, чтобы в ответе было форматирование, включите строку Formatting re-enabled в первую строку вашего сообщения разработчику.

https://platform.openai.com/docs/guides/reasoning-best-practices

@cgevent

Openai

Reasoning best practices | OpenAI API

Explore best practices for using o-series reasoning models, like o1 and o3-mini, vs. GPT models—including use cases, how to choose a model, and prompting guidance.

2👍49🔥10❤9👎3

9.85K viewsSergey Tsyptsyn ️️, edited 09:22

Метаверсище и ИИще