Метаверсище и ИИще
47.2K subscribers
6.01K photos
4.47K videos
46 files
6.91K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).

Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.

На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.

А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
👍26🔥125👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Офигенный пример из нового Gemini 2.5 (I/O Edition)

- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.

Поглядите на эти анимации.

Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.

I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.

@cgevent
15👍10336🔥21👎7😱4
Media is too big
VIEW IN TELEGRAM
Comfy-трансформация

Есть у нас свой макаронный монстр - ComfyUI.
Глядя на название, уже чувствуешь подвох с UI - в общем пакет сложный. Тем кто не нюхал пороха с Houdini, Nuke, Тач, разными Shader Graph или упасихоспади Natron, будет сложно.

Тут надо отметить, что прикручивание нодового интерфейса к генерациям - это не эксклюзив, этим занимаются Glif.app, florafauna.ai, даже InvokeAI лепит свой нетворк граф.

Но по степени низкоуровневости и опенсорсности альтернатив у Комфи нет.

Как и по степени сложности освоения.

И если раньше Комфи всегда ассоциировался как альтернатива почившему Автоматик1111 или полупочившему Forge для генерации картинок, то потом он превратился в комбайн для ЛОКАЛЬНОЙ работы с любыми моделями (видео, аудио, ллм).

Но вчера произошел тектонический сдвиг:

Теперь в комфи завезли 65 готовых API-нод, которые позволяют подключать разные облачные (платные или нет) модели — от Veo2 до GPT4o и даже до Flux Ultra.

Вот список моделей:
Black Forest Labs Flux 1.1[pro] Ultra, Flux .1[pro]

Kling 2.0, 1.6, 1.5 & Various Effects

Luma Photon, Ray2, Ray1.6

MiniMax Text-to-Video, Image-to-Video

PixVerse V4 & Effects

Recraft V3, V2 & Various Tools

Stability AI Stable Image Ultra, Stable Diffusion 3.5 Large

Google Veo2

Ideogram V3, V2, V1

OpenAI GPT4o image

Pika 2.2

Думаю, список будет расширяться.

Но почему я думаю, что это тектоника плит?

Комфи таким образом превращается в аггрегатор моделей, коммерческих в том числе. Ну то есть он одной ногой влезает на поляну, где топчутся Fal.ai или Replicate, а другой - на поляну где рядятся Krea и Freeplik и Флора.

Вот если бы кто-то ввалил им денег и они бы написать нормальную UI морду ПОВЕРХ макаронных изделий, что был бы хит (SwarmUI - это очень-очень плохо, как по замыслу, так и по исполнению).

В общем шаг исторический.

https://blog.comfy.org/p/comfyui-native-api-nodes

@cgevent
247🔥23👍20
Комфи - великий и ужасный.

Сейчас рискну навлечь на себя гнев умных подписчиков, фанатов Комфи.

Тут я хотел написать, что ничего не имею против Комфи, но понял, что нет, имею. Что сказать.

Да, это ассемблер в мире GenAI, но давайте посмотрим на него глазами нового нормального пользователя.

1. Установка. Ну ок, с выходом десктоп-версии стало получше. Но все равно, на вас могут выскочить проблемы с:
- установкой питонговской виртуальной среды (ашоэто?)
- отсутствием у вас Гита (ашоэто?)
- зависимости поломались при установке (ашоэто?)
- Please install ComfyUI on your system drive (eg. C:\). Drives with different file systems(what?) may cause unpredicable issues - этшта?
- версии под Линукс нет, но линуксоидов не напугаешь проблемами выше. Но все равно странно.

2. И вот вы все-таки поставили и даже запустили пахнущий краской и бобрами Комфи.

И вам умные коллеги говорят, там все просто, вот держи рабочий воркфлоу, просто открой его в Комфи.
Вы такие думаете, это наверное как в фотошопе, щас открою и ну слои править да картинки делать.

Не тут то было.

У вас с вероятностью 90% ошибка Missing Nodes. Чего-то не хватат.

3. Тут я проведу аналогию с 3ДМаксом. Представьте, что вам прислали сцену из Макса. Вы ея открываете, а вам пишут: у тебя, брат, не такого плагина, и вот такого, и еще десятка вот таких. Иди ставь, потом придешь после уроков. А пока это нерабочая сцена.

4. Вы такие, ну ок, вот тут кнопка есть Открыть Менеджер и "Скачать эти сраные ноды". Проблема в том, что она помогает в 50% случаев. А если вы полугик, и даже знаете где они лежат на гитхабе, то вас все равно пошлют лесом - безопасность не позволяет их ставить. Закрывайте шарманку и идите в командную строку. Удобно ведь?

[Installation Errors]
'ComfyUI-WanVideoWrapper': With the current security level configuration, only custom nodes from the "default channel" can be installed.

5. А потом вы начитались этого канала и видите новую модель. И ну ея качать. Скачали. А куда ея положить? Тут умные коллеги бросают через плечо: да там просто, ваешник в VAE, клип в text_encoders, а модельку в unet. Вы такие: шо? Коллеги: ну или в чекпойнты, если модель старая. Вы такие: шо?

Робко спрашиваете: я вот научился с Hugging Face скачивать сразу папку и подпапки с моделями, все разложено аккуратно, можно я просто куда-то это положу и назову именем с HuggingFace?. Так на гитхабе делают...
- Нет! Ваешник в VAE, клип в text_encoders, а модельку в unet, пёс!

6. Пройдет пара дней(недель) и вы откроете наконец воркфлоу, который вас скинули коллеги. И поймете, что это ассемблерный код. Он - write only. Написать можно, прочитать(кому-то) нет.

7. За сим - странный совет.
Хотите разобраться - собирайте свой воркфлоу с нуля. Изучая доки, реддиты, гитхабы. Сначала будете переводить все слова со словарем, но через пару недель полегчает. Или вы пошлете Comfy на UI.

Копаться в чужих вокфлоу, это как изучать 3ДМакс по чьим-то сценам, увешанным плагинами.

Давайте, наваливайте на вентилятор в защиту Комфи.

@cgevent
8👍10425😁18👎12🙏5😱1
Для тупых.

Интересную штуку сделал Гугл (на основе Gemini).

При просмотре статьи в приложении Гугла Discover, выделение текста, в котором используется жаргон или технические понятия, с которыми вы не знакомы, откроет новую опцию "Упростить" в контекстном меню (наряду с "Поиск" и "Перевод").

ИИ вам на пальцах пояснит за сложные вещи.

Вот пример.

Оригинал: Сложная патология этого состояния включает эмфизематозное разрушение паренхимы легких, диффузный интерстициальный фиброз, изменения в составе иммунных клеток легких, повышенную продукцию иммуномодулирующих факторов и выраженное ремоделирование легочной сосудистой сети

Упрощение: Это сложное заболевание включает в себя повреждение легочной ткани в результате эмфиземы - болезни, при которой повреждаются воздушные мешки в легких, и широко распространенное рубцевание легочной ткани, называемое фиброзом. Иммунные клетки в легких изменяются, и организм вырабатывает больше иммуномодулирующих факторов - веществ, контролирующих иммунную систему. Кровеносные сосуды в легких также сильно изменяются.


Я уже писал, что интернетик стремительно пухнет на стероидах нового ИИ-контента всех модальностей (тексты, звук, видео). Вы не в силах более переваривать контент, у нас нейроферментов не хватает.

Поэтому тот же ИИ придет к нам на помощь. Одни кожаные с помощью ИИ плодят умный и не очень контент, другие кожаные с помощью ИИ его сжимают обратно, суммаризируют, упрощают. Никто больше сам контент не потребляет. Потребляют производные - вытяжки из бобровой ИИ-струи.

Любопытно видеть как в рекламе Эппле поясняют за фичу "раскучерявим ваш имейл" и тут же продвигают фичу "устали читать огромные письма из школы, мы их пожмем для вас".

Ну вы поняли.

Примечательно, что фича с упрощением контента сделана только для пользователей айфонов. Видать Гугл что-то знает про них и про IQ пользователей андроида.

https://9to5google.com/2025/05/06/google-app-simplify-ios/

@cgevent
😁75🔥21👍149👎4
HeyGen Avatar IV - это просто огнищще.

На входе ОДНА фотка и ваш текст.

Всё.

Похоже тема липсинка близка к закрытию.

Но это еще не все. Оно работает с анимационными персонажами, и даже с животными! Как они это сделали, не понимаю.

И да, русский поддерживается.

https://x.com/HeyGen_Official/status/1919824467821551828

@cgevent
🔥82👍23👎75
Media is too big
VIEW IN TELEGRAM
HeyGen Avatar IV - вот держите версию с животными. Это же просто космос.

Я помню был такой фильм "Кошки против собак" и Женя Вендровский рассказывал в конце нулевых, как они мучились, чтобы заставить тварей говорить (у них челюсти не подходят для этого). Риг был на миллион, а бюджет на графику и того дороже.

А сейчас - апажалста!

Версия в 4K для любителей кино:
https://www.youtube.com/watch?v=dpbP3Kj79ig

@cgevent
2🔥98👍199😁6👎1
Какое (авторское) видео вам интереснее в мае 2025?
Anonymous Poll
39%
ИИ-аватары с хорошей мимикой, озвучкой и липсинком
61%
Живые люди
😱8👍6😁3
А так ведь хорошо всё начиналось... потом набежали кожаные..
Голосуем и помним, что всё зачтётся...
😁899🙏5👍4
Аватары: Есть две новости, обе хорошие. Даже три

Вчера отлично проголосовали за аватаров (где еще взять аналитику на 1000+ человек).

Вопрос был о том, какие аватары вам интереснее: кожаные или ИИ-шные?

Новость 1. За кожаных выпивать пока рано. 61%, то есть больше половины предпочитают белковые лица и формы.

Новость 2. 39% алкают ИИ-аватаров - это очень много. Это уже не просто ниша, это багровеющий океан низковисящих кораллов. Не зря там идет такая движуха.

А я напомню, что на этой полянке, кроме Хейгена, аватары которого мы вчера рассматривали, есть еще пара игроков (closed source). Это уже матерая Хедра и молодая Дримина с липсинком наперевес.

Вот нашел сравнение. Первое видео - Хейген, второе(А) - Дримина, третье(В) - Хедра.

Как вам?

Хедра добавляет наверное больше всего "живости" (ну или "шевеляжа" - языком аниматоров). Хейген поругивают на мертвые неподвижные глаза (что правда), но у Хедры они порой становятся безумными и живут сами по себе. Но это дело вкуса. Плюс Хедра до сих пор подмыливает видео. Дримина в этом смысле удачно находится где-то посередине.

В опен-сорсе, ничего сравнимого по качеству (чтобы на минуту-другую оживлять и липсинкать) к сожалению нет.

Хотя... есть третья хорошая новость! Для Fantasy Talking, о котором я писал, появился код!
https://github.com/Fantasy-AMAP/fantasy-talking

Го пробовать весь этот адъ.

@cgevent
🔥32👍189
Forwarded from Education Scaling Club (Alexander Laryanovskiy)
Мой мир опять рухнул.

И сейчас я пытаюсь для себя переосмыслить роль AI-учителя в новой парадигме.

Что я думал раньше: «он мне не ровня, а значит не может ничему научить».

Ну то есть одна из важнейших задач учителя — мотивация ученика. В самых широких смыслах. От ожидания на урок до похвалы.

Если вас на урок ждет учитель, то урок состоится куда с большей вероятностью, чем если там программка нас зовет уведомлениями прийти на занятие.

Когда препод меня хвалит, это не то же самое, когда меня хвалит софтина.

То есть я думал, что отсутствие субъектности огромная преграда для AI-учителя.

Что происходит на самом деле, что перевернуло мой мир.

Отсутствие этой самой субъектности оказывается не только слабостью, но и — внезапно — сильной стороной алгоритмов.

Во-первых, ученики (взрослые и дети) не стесняются алгоритмов. Банально? Да, но нет.

Тут есть несколько инсайтов для меня.

Люди не стесняются делать ошибки и это помогает им учиться. С людьми — стесняются. С алгоритмами — нет.

AI снижает порог для людей с зависимостью от внешних оценок.

[Тут въедливый критик ИИ скажет, что они так и научатся без преград разговаривать с ботами, но не с людьми. Но нет, оттачивая механики навыков в устной речи, порог боязни разговора с живыми собеседниками падает].

Второй инсайт еще похлеще: люди говорят алгоритмам то, что никогда не скажут знакомым и близким людям.

Я прямо знатно фалломорфировал, когда впервые столкнулся с этим эффектом: люди доверяют алгоритмам вещи, о которых никогда не заговорили бы с близкими.

Один ученик произнёс: «Эх, железка, да разве ты можешь меня понять, если меня каждый день дома бьют…» — и я завис.

Это был тот самый «эффект попутчика в купе»: короткое окно доверия, созданное анонимностью и отсутствием оценки.

Я честно не понимаю пока что с этим делать, но пока кажется, что этот уровень открытости сильно повышает мотивацию продолжать общаться с бездушной софтиной. А это заметный кусочек поддержания мотивации.

Во-вторых, и это видно больше на детях и подростках, алгоритмы не давят на людей своим присутствием.

То есть формат «учитель-на-минутку-мне-только-спросить» когда ты решаешь задачку и надо подтолкнуть наводящим вопросом — он многим ребятам заходит намного больше, чем живой учитель (в классе или онлайн).

Да, тут важно оговориться, что под AI-учителем я не подразумеваю полноценную замену живого человека (это если и случится, то не завтра).

Я называю этим термином набор агентов, то есть специализированных программок, способных решать конкретные прикладные задачи.

Бот, с которым можно тренировать аудирование и речь, он строит диалог по теме, собирает и анализирует ошибки в устной речи.

Бот, который может увидеть ошибку в письменном задании и сократовским методом будет задавать вопросы, пока человек не поймет в чем дело.

Ну и т.д. То есть не «говорящая голова», а набор мелких инструментов, тащящих на себе огромную рутину.

Ну так вот, они, эти mother little helpers оказываются сильно комфортнее.

Их ключевое преимущество — ненавязчивость. Они не требуют постоянного присутствия, их можно вызывать по необходимости. Это делает взаимодействие более «добровольным».

И тут это отсутствие субъектности играет в плюс алгоритмам.

И добила меня ситуация, когда я сам в ходе какого-то диалога с GPT задумался. Она задала уточняющий вопрос и у меня был выбор, ответить коротко, но соврать или ответить правду, но длинным ответом.

В этот момент я поймал себя на мысли, что мне неловко врать железке.

Приплыли, ага.

Это странное и новое ощущение — испытывать моральный дискомфорт перед алгоритмом.
5👍15253🔥35👎6😁3