Метаверсище и ИИще
48.1K subscribers
6.05K photos
4.53K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Denis Sexy IT 🤖
Deep Research стал доступен всем платным пользователям (10 запросов в месяц если у вас Plus), поэтому ловите практические советы как лучше его использовать:

— Неважно какую модель вы выбрали в ChatGPT, у Deep Research своя модель во время поиска, он проигнорируют выбор модели (UI-костыли, привет)
— Указывайте на каком языке писать отчет и на каком языке искать материалы
— Попросите его «ВАЖНО: не дублируй одну и ту же мысль много раз в тексте, если она уже описана», по умолчанию он так делает
— Deep Research не умеет смотреть на картинки — не ожидайте от него исследований где что-то нужно визуально исследовать
— Просите научные источники если хотите максимально научный отчет на фактах, можете также указать год с которого искать релевантные данные
— Поставьте приложение 11 labs — каждый такой отчет, это примерно 30-40 минут прослушивания, идеально для поездок (встроенная в ChatGPT фича глючит с длинным текстом)
— Deep Research основан на рассуждающей модели, это значит что вам все еще нужно очень детально описать, что вы хотите видеть, что не хотите, что считается банальным — иначе получите поверхностный отчет
— Deep Research имеет доступ к написанию кода, то есть он может генерировать графики, таблицы и тп тд, и включать их в финальный отчет
— Можете подсказать ключевые слова на которых стоит сделать акцент, модель же ищет в интернете и там иногда много ненужного
— Deep Research поддерживает файлы (и ссылки), можете сказать ему что в них смотреть, он может их сделать как частью контекста отчета, так и построить поиск на основе файлов (но из-за UI костылей OpenAI, сначала нужно выбрать 4o или любую модель, что поддерживает файлы на входе)
— Это все еще нейрока — ответы могут содержать ошибки и требует верификации человеком, например в тестах видел как модель делала отчет на основе картинок ПО НАЗВАНИЯМ картинок, bruh
— Это все еще лучший автономный ресечер что у нас есть, никто не может конкурировать — и Perplexity, и Google
— Deep Research не умеет смотреть за пейволл, такие статьи нужно прикладывать самим к чату

И напоследок, когда использовать Deep Research:
Когда вы начинаете исследовать какую-то тему — это быстрый и легкий способ погрузиться во что-то, дальше вы можете строить свое исследование на базе знаний из прошлых отчетов, углубляясь в тему с каждым запросом все глубже — от бизнеса до науки, пока не нашел сферу где нельзя было бы применить такой инструмент
140👍17👎6🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Киджай, конечно, машина.

Уже готов первый Комфи-вокфлоу для WanX.

Как я понял только image2video пока работает.
И модель пожата в fp8_e4m3fn

https://huggingface.co/Kijai/WanVideo_comfy/tree/main
Код:
https://github.com/kijai/ComfyUI-WanVideoWrapper

Как упихать это в 16 гиг посмотрите тут:
https://github.com/kijai/ComfyUI-WanVideoWrapper/issues/2

Тестовое видео.. такое .. конечно.

@cgevent
🔥16👍7😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько уиллсмитов дадим WanX?

Который переименовали в Wan, кстати.

@cgevent
👍68
This media is not supported in your browser
VIEW IN TELEGRAM
I2V, модель Wan 2.1 14B.
Цензуры нет.

@cgevent
🔥66👍18😁9
Первый видос (с голубой водичкой) - это Wan 2.1
Второй - Veo2

Гугл, есть вопросы к ценообразованию, бро

A cat is doing an acrobatic dive into a swimming pool at the olympics, from a 10m high diving board, flips and spins

сурс

@cgevent
😁91🔥26👍12😱75
This media is not supported in your browser
VIEW IN TELEGRAM
Мы вчера тут выпивали за Maya Cloth и симуляторы тканей, но прошел ровно день, и Клод пришел за Maya Fluids.

Как, впрочем, я и предсказывал в посте выше.

Из интересного:

это все написано с помощью claude 3.7 sonnet (extended thinking)

с трех попыток

на одну попытку(промпт) уходило 5 секунд (Maya Fluids Джос и Данкан писали год)

код написан Клодом на С с использованием SDL2 (кроссплатформенная библиотека для обеспечения низкоуровневого доступа к аудио, клавиатуре, мыши, джойстику и графическому оборудованию через OpenGL и Direct3D)

А теперь (внимание!) промпт:
"generate a fluid simulation C program using any rendering library of your choice! go crazy"

Все сделано прям в чате, без всякого апи.

код можно посмотреть
тут, он довольно .. спорный, но мне понравился комент в твитторе - "если бы вы видели многочисленный студенческий код для решения урчп в механике сплошных сред, то этот код показался бы вам очень хорошим"

Grok 3 не осилил задачу. Аклодасилил
.

У меня больше нет вопросов, все вопросы я поставил в этом посте.

Если вы хотите выжать еще подробностей, почитайте твиттор.

@cgevent
1🔥46👍103😁3
Ну что, наморщим лобики, и попытаемся родить запрос?

Примечательно, что первой подсказкой от chatGPT стоит "research purchases"

Подписка Plus, появилось утром.

@cgevent
🔥27👍7😁5
Там какой-то парад бесплатных релизов для vibe-программистов.
Я так понимаю, великая битва за пользователя началась.


Гугл бахнул бесплатную версию своего AI-ассистента для кодирования, Gemini Code Assist
https://blog.google/technology/developers/gemini-code-assist-free/

Микрософт тут же ответил симметрично и с горочкой, сделав свои Copilot Voice and Think Deeper(!) бесплатными, и, нмнтчку, безлимитными (это как? безлимитный ризонинг?):
https://www.theverge.com/news/619199/microsoft-copilot-free-unlimited-voice-think-deeper-open-ai-o1-reasoning-model-ai
Все это на базе o1 reasoning model

А тут еще у OpenAI воды отходят: вот вот бахнут gpt-4.5...

@cgevent
1🔥43😱134👍4
Forwarded from Наталья
Миллиард на репетиторах и рекламодателях

Автор канала «Индекс дятла» изучил 300+ прогнозов известных предпринимателей со всего мира и выбрал для вас три изменения, которые ждут нас в этом году. А ещё предположил, как на этом можно заработать шестизначные суммы:

1) Google выпустит ИИ-репетитора для учеников 1-11 классов. И запустит передел рынка образования размером 5 триллионов долларов. Как заработать на этом? Например, помогать учителям с авторской методикой создавать цифровых двойников — AI-ассистентов, обученных на сотнях записей их уроков.

2) Выйдет первая «бесконечная» многопользовательская онлайн-игра. Новые уровни будут генерироваться под каждого участника в зависимости от его решений и опыта. Как заработать на этом? Например, создавать персонажей, которые будут нативно рекламировать ваш бренд или товар прямо в игре.

3) Pixar выпустит короткометражный мультфильм, полностью созданный с помощью ИИ. Он станет хитом и запустит революцию в кино. Как заработать на этом? Например, научиться писать сценарии для ИИ-анимации и продавать их рекламодателям, которые хотят сэкономить на роликах.

Следующие пять лет станут для одних временем Великой депрессии, а для других — Золотой лихорадки.

Присоединяйтесь к 22 тысячам тех, кто ищет возможности заработать на новых технологиях и изменениях. Подписывайтесь на «Индекс дятла». Каждый день — одна сумасшедшая, но стоящая идея на миллиард в вашу копилку здесь: @dindex.

Реклама ИП Торбичев Андрей Константинович ИНН: 235307703247 erid 2Vtzqw3YqBC
👎53😁21👍143🔥1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
MagicArticulate: Make Your 3D Models Articulation-Ready

Как и обещал порыскал в области опенсорсного нейрорига, ибо ждать кода от Адобченко бессмыcленно

Выглядит, конечно, не так нарядно, как у Адоба (ну и дизайнеры из программеров так себе).

Весов еще нет, то в ToDo они явно указаны.

Это в принципе пример конструктора из кода и палок на основе вот таких опенсорсных проектов: MeshAnything, Functional Diffusion, RigNet, Michelangelo, Lab4D, которые вы можете поизучать самостоятельно.

Главная проблема: там данные для обучения, честно говоря, шлак. В этом смысле у стоков и Адбченко огромная фора.

https://github.com/Seed3D/MagicArticulate

@cgevent
114👍7
This media is not supported in your browser
VIEW IN TELEGRAM
От демо к делу.

Те, кто делает что-то руками, в безопасности, говорили они.

Штошъ.

Это не веселая демка в духе Маска. Это реальный кейс внедрения робатов Figure Helix в логистический бизнес клиента.

Вот что они пишут:

Наш первый кейс для клиента занял 12 месяцев, а второй - всего 30 дней Helix обучилась высокоскоростной логистике с помощью одной нейронной сети.

В воскресенье мы успешно проверили это на месте у клиента.
On Sunday, we successfully validated this on-site at the customer


В общем на заводе вас тоже больше не ждут..

Я все ждал, когда перестанут показывать кульбиты, велосипеды, робособак, барменов, блинопеков и как робаты трогают траву. А покажут дело. Дождался, блин.

@cgevent
2🔥70👍21😁182👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Нативная поддержка Wan 2.1 а Комфи.

На прошло и суток, как сделали все в лучшем виде, включая image2video!

Пишут, что для самого жира 720р и 14B нужно 40 гиг врам.
И 15 гиг для 1.3B модели.

Все инструкции и примеры (с воркфлоу) тут:

https://blog.comfy.org/p/wan21-video-model-native-support

@cgevent
1🔥40👍97
This media is not supported in your browser
VIEW IN TELEGRAM
Новости с полей расшифровки и анализа голоса\речи.

Eleven Labs бахнули новую модель Scribe - как написано (а как же еще) the world's most accurate ASR model (ASR - это расшифровка речи).

Попробовать самим на больших файлах уже можно тут:
https://elevenlabs.io/app/speech-to-text

В разделе Цены - Цены. Есть бесплатный план с 10 000 кредитов.

Про саму модель и ее кунштюки, тут:
https://elevenlabs.io/blog/meet-scribe

Анонсированы 99 языков и кинжальная точность: по неким метрикам они побивают Gemini 2.0 Flash, Whisper Large V3 and Deepgram Nova-3.

Есть АПИ (в отличие от Suno) - $0.40 за час входного аудиосигнала, а в течение следующих 6 недель действует дополнительная скидка 50%. Это как бы дорого. Потому что качественно.

О! Самое главное, скоро обещают реалтаймовую версию! Синхротитры.

P.S. Кстати про Суно, кто-то нашел костыли, как четвертую модель дергать по API?
@cgevent
1🔥31👍154
А теперь обратно, из текста в голос.

Я уже писал про Октаву от Hume.ai

А вчера они выкатили в народ "Понимающую озвучку".

В общем их LLM предварительно анализирует текст и вытаскивает оттуда всякие сентименты: эмоции, контекст, окрас беседы. И использует эту информацию при озвучке текста.
Также можно создавать свои голоса (промптами) и поддавать жару\эмоций тоже промптами.

В общем эмоциональный интеллект в озвучке.

Ну и конечно по неким метрикам они побивают Eleven Labs, а как иначе.

Вот это вот публичное побивание друг друга превращается уже в реп-баттлы.

Пора попросить Клода и Суно сделать пестню на эту тему.

Читаем, пробуем тут:
https://www.hume.ai/

Но вот тут они переборщили с маркетингом и цифрами имхо: Trained on 1000x more language than traditional TTS, Octave understands your script like a human actor, delivering realistic emotions, sarcasm, pace, word emphasis, and more.

@cgevent
👍199🔥3😁1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
👍40🔥102😱2👎1😁1
Так, похоже Алибаба со своим Wan разворошил гнездо опенсорсных генераторов видео.

На гитхабе Хуньяня за последние два дня тонна апдейтов в коде. И похоже вот-вот они бахнут Image2Video.

Поглядите на видосы, которыми они уже флексят в твитторе. Это все I2V! Пруфы-картинки на входе имеются. Ну и оцените анатомию у бегуна. Похоже deep research сисек будет сделан окончательно и тема будет закрыта.

Более того, смотрите, что они пишут! 10 секунд!

You can now generate videos that lasts up to 10s of 1280x720 and 16s of 848x480 with 24 GB of VRAM with Loras and no quantization !!!

Ну и мне нравится такой маркетинг: Законы VRAM были нарушены, так как потребление VRAM было уменьшено в три раза, а скорость на 20%-50% быстрее без потери качества!

Ерзаем, идем брать в аренду гпу-серваки.

https://github.com/deepbeepmeep/HunyuanVideoGP

@cgevent
128🔥19👍8😁2