This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Google добавил в Veo 3 новую фичу: теперь можно визуально описать инструкции по генерации на первом кадре, и модель всё понимает (ну почти всё)!
Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.
• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником
Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.
Сергей Булаев AI 🤖 - об AI и не только
Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.
• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником
Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.
Сергей Булаев AI 🤖 - об AI и не только
Иерархический ризонинг - словосочетание, звучащее почти как название забытого философского трактата.
На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.
Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.
Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».
Коротко о цифрах и фактах:
Энергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.
Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.
Сергей Булаев AI 🤖 - об AI и не только
На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.
Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.
Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».
Коротко о цифрах и фактах:
• 27 млн параметров - крошечный объём по меркам сегодняшних LLM
• всего 1 000 обучающих примеров без предобучения и chain-of-thought подсказок
• бенчмарк ARC пройден на уровне, сопоставимом с гораздо более тяжёлыми системами
• плотный градиент вместо редких наград - обучение стабильнее и быстрееЭнергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.
Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.
Сергей Булаев AI 🤖 - об AI и не только
1 26 14
AlphaGo-moment или очередной маркетинговый шум?
Коротко об ASI-Arch.
Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:
• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.
Что для меня важно (и почему наблюдаю дальше):
1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.
Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.
Сергей Булаев AI 🤖 - об AI и не только
Коротко об ASI-Arch.
Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:
• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.
Что для меня важно (и почему наблюдаю дальше):
1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.
Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Часто кажется, видеообзоры в ИИ-сервисах – бессмысленная-типа-вау-мультипликация, сорок секунд движущихся непонятных персонажей с кринжовым липсинком и минимумом пользы.
Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.
У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.
Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.
Сергей Булаев AI 🤖 - об AI и не только
Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.
• Вместо искуственно (и искусственных) говорящих голов – слайды, которые складываются из ваших (ну или предоставленных вами) документов: диаграммы, цитаты, цифры. Выглядит стильно и достойно.
• Закадровый голос помогает удерживать фокус, глазами ловим визуальные маркеры.
• Формат легко кастомизируется: задаем тему, учебную цель, интеллектуальный уровень потребителя и, даже, просим объяснить конкретную тему. Но, к сожалению, не язык. Пока.У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.
Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.
Сергей Булаев AI 🤖 - об AI и не только
Как работает Graphiti: графы знаний с временнОй памятью
Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.
Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.
Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.
Graphiti же строит граф, где:
Это позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".
На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.
Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.
Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.
P.S. извиняюсь за качество скриншотов
Сергей Булаев AI 🤖 - об AI и не только
Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.
Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.
Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.
Graphiti же строит граф, где:
• Каждая сущность (человек, продукт, компания) связана с другими через отношения
• У каждого отношения есть временная метка - когда оно возникло и когда перестало быть актуальным
• При появлении противоречащих фактов старые не удаляются, а помечаются как неактуальные
• Хранится вся история изменений отношенийЭто позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".
На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.
Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.
Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.
P.S. извиняюсь за качество скриншотов
Сергей Булаев AI 🤖 - об AI и не только
5 46👎1
Forwarded from Мысли вслух
This media is not supported in your browser
VIEW IN TELEGRAM
IntentScout — AI-стартап моего сына Миши.
Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.
Вакансия: Технический лидер
Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)
• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики
Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд
Интересно? Пиши в личку: @mkitt
@maxvotek
Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.
Вакансия: Технический лидер
Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)
• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики
Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд
Интересно? Пиши в личку: @mkitt
@maxvotek
В Бока Ратоне есть сигарный клуб, по четвергам. Собираются там, в основном, русскоязычные люди. Во всяком случае общение, обычно, на русском. Сигары, кстати, тоже не все курят (я не курю, например, Макс - тоже не курит, но ходит)
На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.
Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).
Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»
А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.
Сергей Булаев AI 🤖 - об AI и не только
На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.
Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).
Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»
А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.
Сергей Булаев AI 🤖 - об AI и не только
1 16 7
И они это называют агентностью? Умным помощником? Ассистентом.
Мне кажется, больше на капитана очевидность похоже...
Сергей Булаев AI 🤖 - об AI и не только
Мне кажется, больше на капитана очевидность похоже...
Сергей Булаев AI 🤖 - об AI и не только
Сделал в NotebookLM видео обзор книги "Краткая история разума", кстати очень интересная, рекоммендую. Я примерно в середине сейчас.
Получилось неплохо, но конечно же очень поверхностно. Но если сравнивать 10 часов книги и 10 минут ролика, плотность знаний зашкаливает. Сделал перевод с Elevenlabs, он как всегда так себе, так что прикладываю оригинал.
Сергей Булаев AI 🤖 - об AI и не только
Получилось неплохо, но конечно же очень поверхностно. Но если сравнивать 10 часов книги и 10 минут ролика, плотность знаний зашкаливает. Сделал перевод с Elevenlabs, он как всегда так себе, так что прикладываю оригинал.
Сергей Булаев AI 🤖 - об AI и не только
3 42 6
Google проиндексировал более 70 000 «расшаренных» ссылок на диалоги ChatGPT.
Многие из нас делились ими с коллегами или друзьями. Но теперь разговоры оказались в открытом поиске.
• Введите в Google: site:chatgpt.com/share + ключевое слово - и получите чужие обсуждения.
• Среди них - шутки, черновики, код, а иногда и секретные корпоративные документы.
• Поисковики находят ссылки быстрее, чем мы их удаляем.
Привычка «скинуть линк для удобства» стала риском. Если работаете с клиентскими или внутренними данными, помните: публичная ссылка = публичный контент.
Сергей Булаев AI 🤖 - об AI и не только
Многие из нас делились ими с коллегами или друзьями. Но теперь разговоры оказались в открытом поиске.
• Введите в Google: site:chatgpt.com/share + ключевое слово - и получите чужие обсуждения.
• Среди них - шутки, черновики, код, а иногда и секретные корпоративные документы.
• Поисковики находят ссылки быстрее, чем мы их удаляем.
Привычка «скинуть линк для удобства» стала риском. Если работаете с клиентскими или внутренними данными, помните: публичная ссылка = публичный контент.
Сергей Булаев AI 🤖 - об AI и не только
1 28 9 4👎1
Моя разработка в Июле 2025. Много вкладок Warp + Claude Code (+ context7) + Codex CLI (для o3). Где то на другом десктопе запущен Cursor, если недостаточно tail и cat...
P.S. Кстати что бы вы не говорили, продолжаю регулярно использовать Monologue для коммуникаций с агентами. Он для меня бесплатен птому что я подписан на every.to. Мне очень нарвится что ты получаешь результат отформатированным и на нужном языке.
Сергей Булаев AI 🤖 - об AI и не только
P.S. Кстати что бы вы не говорили, продолжаю регулярно использовать Monologue для коммуникаций с агентами. Он для меня бесплатен птому что я подписан на every.to. Мне очень нарвится что ты получаешь результат отформатированным и на нужном языке.
Сергей Булаев AI 🤖 - об AI и не только
2 22 7 6 6
Anthropic научились строить «векторы персоны» языковых моделей. Похоже на продолжение их старых работ по
отслеживанию «мыслей ИИ»
Представьте приборную панель мозга ИИ. Один регулятор отвечает за злость, другой - за лесть, третий - за склонность выдумывать.
Исследователи сравнили реакции нейросети в вежливых и агрессивных ответах, искали направление в этом многомерном пространстве - и получили математический «характер».
Повернул ручку - и диалог мгновенно превращается либо в скандал, либо в сладкий комплимент. Кажется магией? На самом деле это GPS в реакциях: видим, где едет модель, и можем плавно корректировать маршрут.
• Векторы персоны работают универсально на разных языках! Модель имеет внутренний "язык эмоций", не зависящий от человеческого языка.
• Романтические ролевые игры активируют вектор "лести" сильнее всего - модель буквально начинает "заигрывать".
• Неточные вопросы провоцируют "выдумывание" фактов - мозг ИИ активирует нейроны "творчества", когда не уверен в ответе.
• Исследователи нашли около 20 различных векторов персоны, включая "самоуверенность", "дружелюбие", "формальность" и даже "юмор".
• Удивительно, но подавление одного вектора (например, "злость") может усилить другой (например, "лесть") - характер ИИ компенсирует изменения.
Зачем такое нужно?
• Мониторинг. Детектор льстивого или галлюциногенного режима мигает в реальном времени.
• «Прививка». Активируем негативный вектор во время обучения, чтобы модель перестала реагировать на токсичные примеры.
• Фильтр контента. Если текст резко возбуждает вектор злости, помечаем его как риск.
Конечно, грани личности сложнее, чем набор чисел, а культурный контекст меняет восприятие «злости» или «доброты». Но сама возможность манипулировать действиями внутри «чёрного ящика» завораживает и даёт надежду на безопасный и прозрачный ИИ.
Сергей Булаев AI 🤖 - об AI и не только
отслеживанию «мыслей ИИ»
Представьте приборную панель мозга ИИ. Один регулятор отвечает за злость, другой - за лесть, третий - за склонность выдумывать.
Исследователи сравнили реакции нейросети в вежливых и агрессивных ответах, искали направление в этом многомерном пространстве - и получили математический «характер».
Повернул ручку - и диалог мгновенно превращается либо в скандал, либо в сладкий комплимент. Кажется магией? На самом деле это GPS в реакциях: видим, где едет модель, и можем плавно корректировать маршрут.
• Векторы персоны работают универсально на разных языках! Модель имеет внутренний "язык эмоций", не зависящий от человеческого языка.
• Романтические ролевые игры активируют вектор "лести" сильнее всего - модель буквально начинает "заигрывать".
• Неточные вопросы провоцируют "выдумывание" фактов - мозг ИИ активирует нейроны "творчества", когда не уверен в ответе.
• Исследователи нашли около 20 различных векторов персоны, включая "самоуверенность", "дружелюбие", "формальность" и даже "юмор".
• Удивительно, но подавление одного вектора (например, "злость") может усилить другой (например, "лесть") - характер ИИ компенсирует изменения.
Зачем такое нужно?
• Мониторинг. Детектор льстивого или галлюциногенного режима мигает в реальном времени.
• «Прививка». Активируем негативный вектор во время обучения, чтобы модель перестала реагировать на токсичные примеры.
• Фильтр контента. Если текст резко возбуждает вектор злости, помечаем его как риск.
Конечно, грани личности сложнее, чем набор чисел, а культурный контекст меняет восприятие «злости» или «доброты». Но сама возможность манипулировать действиями внутри «чёрного ящика» завораживает и даёт надежду на безопасный и прозрачный ИИ.
Сергей Булаев AI 🤖 - об AI и не только
1 24 15 12
Интересное исследование помогает понять, как большие языковые модели (LLM) и мультимодальные модели (MLLM) воспринимают реальные вещи (объекты) по сравнению с человеком.
В эксперименте сравнивали, как люди, LLM (ChatGPT-3.5, Llama3.1) и MLLM (такие как Gemini Pro Vision 1.0, Qwen2_VL-7B) воспринимают 1854 объекта из базы THINGS. Всем (и моделям, и людям) показывали по три предмета и спрашивали – какой из них лишний?
Всего было собрано 4,7 миллиона таких ответов, на основе которых выстроили специальное «ментальное пространство», на самом деле embeddings (66 измерений), чтобы сравнить на сколько эти ответы отличаются.
Если наши «ментальные карты» не совсем одинаковы, значит, есть смысл подстраивать промты под те самые оси, по которым LLM принимает решения.
Модели лучше воспринимают семантические категории, чем визуальные детали. Именно поэтому стоит формулировать запросы через призму категориальных признаков.
Как итог вот несколько советова:
Кстати, в задаче "кто тут лишний" модели показали точность 56.7% (LLM) и 63.4% (MLLM), что близко к человеческому результату (64.1%) при случайном уровне 33.3%. Это говорит о том, что модели действительно "думают" о предметах примерно так же, как мы.
Пробуйте подход из исследования - пишите, замечаете ли вы, что ответы стали более «человечными» и точными.
Если есть свои лайфхаки по этому поводу - очень интересно.
Сергей Булаев AI 🤖 - об AI и не только
В эксперименте сравнивали, как люди, LLM (ChatGPT-3.5, Llama3.1) и MLLM (такие как Gemini Pro Vision 1.0, Qwen2_VL-7B) воспринимают 1854 объекта из базы THINGS. Всем (и моделям, и людям) показывали по три предмета и спрашивали – какой из них лишний?
Всего было собрано 4,7 миллиона таких ответов, на основе которых выстроили специальное «ментальное пространство», на самом деле embeddings (66 измерений), чтобы сравнить на сколько эти ответы отличаются.
- Корреляция между тем, как LLM и человек воспринимают сходство предметов - 0.71, у мультимодальных моделей - 0.85, между людьми - 0.9. Неплохо. Не идеально.
- Для объяснения 95% всех решений модели достаточно всего 3–8 скрытых признаков (измерений), человеку - 7–13. Восприятие моделей проще, значит более усреднённое.
- 60 из 66 этих скрытых измерений у LLM легко интерпретируются: животное/еда/температура/ценность и т.д. У людей таких — 62 из 66.
- Модель чуть хуже "замечает" визуальные нюансы (например, цвета), зато отлично улавливает смысловые и категориальные различия.
- Вложенные представления моделей сопоставили с данными fMRI (МРТ мозга людей), и оказалось: в ключевых областях мозга модели угадывают паттерны активности почти так же хорошо, как другой человек!
- В задаче определения категории объекта LLM достигли 83.4% точности, MLLM - 78.3%, а люди - 87.1%.
- Из 66 измерений 38 оказались одинаковыми для всех трех систем (LLM, MLLM и человека).Если наши «ментальные карты» не совсем одинаковы, значит, есть смысл подстраивать промты под те самые оси, по которым LLM принимает решения.
Модели лучше воспринимают семантические категории, чем визуальные детали. Именно поэтому стоит формулировать запросы через призму категориальных признаков.
Как итог вот несколько советова:
1. Кратко и по делу: В начале промта сразу формулируйте суть задачи и 3–5 главных понятий - этого достаточно, чтобы модель «поймала волну». Исследование показало, что LLM эффективно работают с небольшим числом ключевых измерений.
2. Семантика важнее деталей: Используйте смысловые категории («спорткар», «фрукт», «инструмент»), а не художественные описания. LLM и MLLM опираются больше на семантические измерения, тогда как люди лучше используют визуальную информацию. Например, у людей есть четкие измерения для цветов («белый», «красный», «черный»), которые менее выражены у моделей.
3. Уточняйте категории: Когда хотите получить структурированный ответ - просите модель объяснить через конкретные категории. Исследование выявило, что модели формируют интерпретируемые измерения, отражающие концептуальные (животное, еда, оружие, транспорт) и перцептуальные черты (твердость, ценность, температура, текстура).
4. Убирайте «воду»: Меньше субъективных прилагательных, больше фактов. Для 95-99% производительности модели достаточно всего 3–8 измерений, поэтому лишние описательные элементы только размывают фокус.Кстати, в задаче "кто тут лишний" модели показали точность 56.7% (LLM) и 63.4% (MLLM), что близко к человеческому результату (64.1%) при случайном уровне 33.3%. Это говорит о том, что модели действительно "думают" о предметах примерно так же, как мы.
Пробуйте подход из исследования - пишите, замечаете ли вы, что ответы стали более «человечными» и точными.
Если есть свои лайфхаки по этому поводу - очень интересно.
Сергей Булаев AI 🤖 - об AI и не только
2 43 2 1
А вы знаете, пользуетесь пользовательскими слэш командами в Claude Code?
Это такие предзаданные (вами) промты, базу которых можно постепенно наращивать. Размещаются либо внутри проекта (.claude/commands/) либо глобальные - в домашнем каталоге (~/.claude/commands/). Соотвественно можно завести либо глобальный репозиторий, либо использовать внутри репозитория проекта.
Командам можно передавать аргументы, а так же перед отправкой промта можно выполнять bash команды. Можно включать другие файлы через @ и запускать процесс размышлений с помощью нужных слов.
Frontmatter так же поддерживается. Ну и MCP сервера предоставлять свои команды.
Вот несколько сборников для тестов и вдохновения:
Сергей Булаев AI 🤖 - об AI и не только
Это такие предзаданные (вами) промты, базу которых можно постепенно наращивать. Размещаются либо внутри проекта (.claude/commands/) либо глобальные - в домашнем каталоге (~/.claude/commands/). Соотвественно можно завести либо глобальный репозиторий, либо использовать внутри репозитория проекта.
Командам можно передавать аргументы, а так же перед отправкой промта можно выполнять bash команды. Можно включать другие файлы через @ и запускать процесс размышлений с помощью нужных слов.
Frontmatter так же поддерживается. Ну и MCP сервера предоставлять свои команды.
Вот несколько сборников для тестов и вдохновения:
- Awesome Claude Code
- Claude Command Suite
- Claude Code Session Management
- Claude Code Slash Commands
Сергей Булаев AI 🤖 - об AI и не только
1 20 7 1