Метаверсище и ИИще
48.1K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Наталья
Миллиард на репетиторах и рекламодателях

Автор канала «Индекс дятла» изучил 300+ прогнозов известных предпринимателей со всего мира и выбрал для вас три изменения, которые ждут нас в этом году. А ещё предположил, как на этом можно заработать шестизначные суммы:

1) Google выпустит ИИ-репетитора для учеников 1-11 классов. И запустит передел рынка образования размером 5 триллионов долларов. Как заработать на этом? Например, помогать учителям с авторской методикой создавать цифровых двойников — AI-ассистентов, обученных на сотнях записей их уроков.

2) Выйдет первая «бесконечная» многопользовательская онлайн-игра. Новые уровни будут генерироваться под каждого участника в зависимости от его решений и опыта. Как заработать на этом? Например, создавать персонажей, которые будут нативно рекламировать ваш бренд или товар прямо в игре.

3) Pixar выпустит короткометражный мультфильм, полностью созданный с помощью ИИ. Он станет хитом и запустит революцию в кино. Как заработать на этом? Например, научиться писать сценарии для ИИ-анимации и продавать их рекламодателям, которые хотят сэкономить на роликах.

Следующие пять лет станут для одних временем Великой депрессии, а для других — Золотой лихорадки.

Присоединяйтесь к 22 тысячам тех, кто ищет возможности заработать на новых технологиях и изменениях. Подписывайтесь на «Индекс дятла». Каждый день — одна сумасшедшая, но стоящая идея на миллиард в вашу копилку здесь: @dindex.

Реклама ИП Торбичев Андрей Константинович ИНН: 235307703247 erid 2Vtzqw3YqBC
👎53😁21👍143🔥1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
MagicArticulate: Make Your 3D Models Articulation-Ready

Как и обещал порыскал в области опенсорсного нейрорига, ибо ждать кода от Адобченко бессмыcленно

Выглядит, конечно, не так нарядно, как у Адоба (ну и дизайнеры из программеров так себе).

Весов еще нет, то в ToDo они явно указаны.

Это в принципе пример конструктора из кода и палок на основе вот таких опенсорсных проектов: MeshAnything, Functional Diffusion, RigNet, Michelangelo, Lab4D, которые вы можете поизучать самостоятельно.

Главная проблема: там данные для обучения, честно говоря, шлак. В этом смысле у стоков и Адбченко огромная фора.

https://github.com/Seed3D/MagicArticulate

@cgevent
114👍7
This media is not supported in your browser
VIEW IN TELEGRAM
От демо к делу.

Те, кто делает что-то руками, в безопасности, говорили они.

Штошъ.

Это не веселая демка в духе Маска. Это реальный кейс внедрения робатов Figure Helix в логистический бизнес клиента.

Вот что они пишут:

Наш первый кейс для клиента занял 12 месяцев, а второй - всего 30 дней Helix обучилась высокоскоростной логистике с помощью одной нейронной сети.

В воскресенье мы успешно проверили это на месте у клиента.
On Sunday, we successfully validated this on-site at the customer


В общем на заводе вас тоже больше не ждут..

Я все ждал, когда перестанут показывать кульбиты, велосипеды, робособак, барменов, блинопеков и как робаты трогают траву. А покажут дело. Дождался, блин.

@cgevent
2🔥70👍21😁182👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Нативная поддержка Wan 2.1 а Комфи.

На прошло и суток, как сделали все в лучшем виде, включая image2video!

Пишут, что для самого жира 720р и 14B нужно 40 гиг врам.
И 15 гиг для 1.3B модели.

Все инструкции и примеры (с воркфлоу) тут:

https://blog.comfy.org/p/wan21-video-model-native-support

@cgevent
1🔥40👍97
This media is not supported in your browser
VIEW IN TELEGRAM
Новости с полей расшифровки и анализа голоса\речи.

Eleven Labs бахнули новую модель Scribe - как написано (а как же еще) the world's most accurate ASR model (ASR - это расшифровка речи).

Попробовать самим на больших файлах уже можно тут:
https://elevenlabs.io/app/speech-to-text

В разделе Цены - Цены. Есть бесплатный план с 10 000 кредитов.

Про саму модель и ее кунштюки, тут:
https://elevenlabs.io/blog/meet-scribe

Анонсированы 99 языков и кинжальная точность: по неким метрикам они побивают Gemini 2.0 Flash, Whisper Large V3 and Deepgram Nova-3.

Есть АПИ (в отличие от Suno) - $0.40 за час входного аудиосигнала, а в течение следующих 6 недель действует дополнительная скидка 50%. Это как бы дорого. Потому что качественно.

О! Самое главное, скоро обещают реалтаймовую версию! Синхротитры.

P.S. Кстати про Суно, кто-то нашел костыли, как четвертую модель дергать по API?
@cgevent
1🔥31👍154
А теперь обратно, из текста в голос.

Я уже писал про Октаву от Hume.ai

А вчера они выкатили в народ "Понимающую озвучку".

В общем их LLM предварительно анализирует текст и вытаскивает оттуда всякие сентименты: эмоции, контекст, окрас беседы. И использует эту информацию при озвучке текста.
Также можно создавать свои голоса (промптами) и поддавать жару\эмоций тоже промптами.

В общем эмоциональный интеллект в озвучке.

Ну и конечно по неким метрикам они побивают Eleven Labs, а как иначе.

Вот это вот публичное побивание друг друга превращается уже в реп-баттлы.

Пора попросить Клода и Суно сделать пестню на эту тему.

Читаем, пробуем тут:
https://www.hume.ai/

Но вот тут они переборщили с маркетингом и цифрами имхо: Trained on 1000x more language than traditional TTS, Octave understands your script like a human actor, delivering realistic emotions, sarcasm, pace, word emphasis, and more.

@cgevent
👍199🔥3😁1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
👍40🔥102😱2👎1😁1
Так, похоже Алибаба со своим Wan разворошил гнездо опенсорсных генераторов видео.

На гитхабе Хуньяня за последние два дня тонна апдейтов в коде. И похоже вот-вот они бахнут Image2Video.

Поглядите на видосы, которыми они уже флексят в твитторе. Это все I2V! Пруфы-картинки на входе имеются. Ну и оцените анатомию у бегуна. Похоже deep research сисек будет сделан окончательно и тема будет закрыта.

Более того, смотрите, что они пишут! 10 секунд!

You can now generate videos that lasts up to 10s of 1280x720 and 16s of 848x480 with 24 GB of VRAM with Loras and no quantization !!!

Ну и мне нравится такой маркетинг: Законы VRAM были нарушены, так как потребление VRAM было уменьшено в три раза, а скорость на 20%-50% быстрее без потери качества!

Ерзаем, идем брать в аренду гпу-серваки.

https://github.com/deepbeepmeep/HunyuanVideoGP

@cgevent
128🔥19👍8😁2
Хуньянь, что ты делаешь, прекрати!

Либо выпускай I2V, либо хватит дразницца.

Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.

@cgevent
1🔥54😱9😁74👍4