Игра, в которой программируешь робота-фермера
Недавно друг, знакомящийся с программированием, стримил, как играет в Farmer was replaced - игру, где нужно на почти Python программировать дрона-фермера, который сажает растения, поливает, удобряет и собирает урожай. Кто помнит "веселую ферму" в ВК - вот это примерно оно, только для всех действий пишешь код.
Мне стало интересно самому посмотреть на игру поближе, и это правда оказалось очень здорово. С одной стороны, возможности языка открываются постепенно и снабжаются понятными объяснениями. С другой стороны, это не было профанацией, когда соединение квадратиков выдается за обучение программированию. Так что очень рекомендую тем, кто только знакомится с программированием (и взрослым, и детям).
Ну а самое приятное - это было интересно и весело, даже когда умеешь программировать, и вот почему:
👷♂️ Игра дает приятную ностальгию по чувству «я у мамы инженер». Вы же не будете даже в игрушке писать код так, будто вам по нему проходить код-ревью? Будете? Ну ладно-ладно, а я поговнокодил вдоволь (не как на скриншоте из Steam, но тоже у внутреннего ревьюера миллион вопросиков). Чем это приятно? Тем, что возвращает дух инженерного авантюризма из детства: «я это сделал, оно работает, где-то я по пути набажил, но работает всё равно приемлемо, потом перепишу». Такой раздолбайский подход, который на работе как правило был бы непозволительной роскошью и заявкой на вылет, в игре добавляет веселья.
👨💻 Когда у тебя на экране на поле N x N в реальном времени показывается анимация как робот выполняет написанный тобой код, это создает неведомую до сих пор мотивацию оптимизировать код. Одно дело - когда ты сдаешь задачу на leetcode и не проходишь по времени или когда в проде нужно уложиться в X миллисекунд на инференс, чтобы не портить пользовательский опыт. Совсем другое - ждать блин пока вам покажет анимацию всех действий робота😬 И игра придумана именно так, чтобы были легальные алгоритмические способы срезать углы - вырастить тыквы побольше, эффективнее собирать подсолнухи и т.д.
📈 Можно с детства понимать, что квадрат растет быстрее линейной функции, но когда с ростом размера фермы разница между сложностью решений становится настолько наглядна, что то, что было приемлемым решением полчаса назад, теперь становится невыносимо медленным, задумываешься о многом. И о том, как здорово, что знаешь, как оптимизировать. И о том, зачем в IT компаниях на собеседованиях спрашивают алгоритмы, которые потом требуются раз в три года. В комментах на Steam разумеется есть жалобы на то, что «игра быстро превращается просто в долгое ожидание исполнения кода» от тех, кто про алгоритмы и сложность не слышал. И ведь что интересно: людям не приходит в голову погуглить про оптимизацию решений. Кто не знаком с самой концепцией, и правда не знает, что искать. Поневоле наводит на мысли, что ваш потенциал в любом начинании сильно зависит от уровня знаний как у вас, так и у партнеров и коллег, о том, что на свете бывает. Есть те люди, кто может оптимизировать процесс в разы или вообще на порядки, а есть те, кто будет говорить, что работать просто надо больше и делать однотипные операции изо дня в день.
🐍 В игре все не ограничивается фермерством и ближе к концу дерева технологий открываются лабиринты и игра в змейку, тоже с исполнением роботом написанного вами кода. А для самых рьяных автоматизаторов можно написать код не только выполняющий задачи, но и самостоятельно открывающий дерево технологий и проходящий игру.
В общем, я прекрасно провел вечер, процесс игры одновременно и медитативный, и забавный и поучительный. Поделитесь в комментариях другими играми, которые вызвали у вас похожие чувства :) Кажется, что жанр игр с образовательным флером хоронить рано, и это прекрасно ❤️
Недавно друг, знакомящийся с программированием, стримил, как играет в Farmer was replaced - игру, где нужно на почти Python программировать дрона-фермера, который сажает растения, поливает, удобряет и собирает урожай. Кто помнит "веселую ферму" в ВК - вот это примерно оно, только для всех действий пишешь код.
Мне стало интересно самому посмотреть на игру поближе, и это правда оказалось очень здорово. С одной стороны, возможности языка открываются постепенно и снабжаются понятными объяснениями. С другой стороны, это не было профанацией, когда соединение квадратиков выдается за обучение программированию. Так что очень рекомендую тем, кто только знакомится с программированием (и взрослым, и детям).
Ну а самое приятное - это было интересно и весело, даже когда умеешь программировать, и вот почему:
👷♂️ Игра дает приятную ностальгию по чувству «я у мамы инженер». Вы же не будете даже в игрушке писать код так, будто вам по нему проходить код-ревью? Будете? Ну ладно-ладно, а я поговнокодил вдоволь (не как на скриншоте из Steam, но тоже у внутреннего ревьюера миллион вопросиков). Чем это приятно? Тем, что возвращает дух инженерного авантюризма из детства: «я это сделал, оно работает, где-то я по пути набажил, но работает всё равно приемлемо, потом перепишу». Такой раздолбайский подход, который на работе как правило был бы непозволительной роскошью и заявкой на вылет, в игре добавляет веселья.
👨💻 Когда у тебя на экране на поле N x N в реальном времени показывается анимация как робот выполняет написанный тобой код, это создает неведомую до сих пор мотивацию оптимизировать код. Одно дело - когда ты сдаешь задачу на leetcode и не проходишь по времени или когда в проде нужно уложиться в X миллисекунд на инференс, чтобы не портить пользовательский опыт. Совсем другое - ждать блин пока вам покажет анимацию всех действий робота
📈 Можно с детства понимать, что квадрат растет быстрее линейной функции, но когда с ростом размера фермы разница между сложностью решений становится настолько наглядна, что то, что было приемлемым решением полчаса назад, теперь становится невыносимо медленным, задумываешься о многом. И о том, как здорово, что знаешь, как оптимизировать. И о том, зачем в IT компаниях на собеседованиях спрашивают алгоритмы, которые потом требуются раз в три года. В комментах на Steam разумеется есть жалобы на то, что «игра быстро превращается просто в долгое ожидание исполнения кода» от тех, кто про алгоритмы и сложность не слышал. И ведь что интересно: людям не приходит в голову погуглить про оптимизацию решений. Кто не знаком с самой концепцией, и правда не знает, что искать. Поневоле наводит на мысли, что ваш потенциал в любом начинании сильно зависит от уровня знаний как у вас, так и у партнеров и коллег, о том, что на свете бывает. Есть те люди, кто может оптимизировать процесс в разы или вообще на порядки, а есть те, кто будет говорить, что работать просто надо больше и делать однотипные операции изо дня в день.
🐍 В игре все не ограничивается фермерством и ближе к концу дерева технологий открываются лабиринты и игра в змейку, тоже с исполнением роботом написанного вами кода. А для самых рьяных автоматизаторов можно написать код не только выполняющий задачи, но и самостоятельно открывающий дерево технологий и проходящий игру.
В общем, я прекрасно провел вечер, процесс игры одновременно и медитативный, и забавный и поучительный. Поделитесь в комментариях другими играми, которые вызвали у вас похожие чувства :) Кажется, что жанр игр с образовательным флером хоронить рано, и это прекрасно ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32❤20👍9🤔2💯1
На чем фокусироваться компании, чтобы инвестиции в genAI окупались? Как не утонуть в AI-пилотах? А понять, что AI-трансформация состоялась?
Ответы на эти вопросы можно урывками найти по разным экспертным tg-каналам или на конференциях. Спасибо ребятам из Just AI, которые собрали свой опыт работы с корпорациями по части внедрения genAI в классную экспертную статью.
- Как сформулировать зрелую AI-цель? Снизить нагрузку на колл-центр, подключить LLM к CRM – это незрелая цель.
- Как выстроить систему управления AI? Ведь традиционный подход, при котором одна команда отвечает одновременно и за ИИ-проекты, и за другие направления, уже нэффективен.
- Как выбирать кейсы для реализации? Основные критерии: есть потенциал к масштабированию, дадут максимальный эффект для бизнеса, дорогостоящие в реализации
- Как измерять результат?
- 4 признака, что AI-трансформация состоялась.
Кстати, эксперт отдельно отметил тренд на внедрение мультиагентных систем. Тем, кто уже созрел для автоматизации процессов с помощью AI-агентов, отлично подойдет платформа для разработки Just AI Agent Platform.
Реклама. Erid 2W5zFJM8yKN
Ответы на эти вопросы можно урывками найти по разным экспертным tg-каналам или на конференциях. Спасибо ребятам из Just AI, которые собрали свой опыт работы с корпорациями по части внедрения genAI в классную экспертную статью.
- Как сформулировать зрелую AI-цель? Снизить нагрузку на колл-центр, подключить LLM к CRM – это незрелая цель.
- Как выстроить систему управления AI? Ведь традиционный подход, при котором одна команда отвечает одновременно и за ИИ-проекты, и за другие направления, уже нэффективен.
- Как выбирать кейсы для реализации? Основные критерии: есть потенциал к масштабированию, дадут максимальный эффект для бизнеса, дорогостоящие в реализации
- Как измерять результат?
- 4 признака, что AI-трансформация состоялась.
Кстати, эксперт отдельно отметил тренд на внедрение мультиагентных систем. Тем, кто уже созрел для автоматизации процессов с помощью AI-агентов, отлично подойдет платформа для разработки Just AI Agent Platform.
Реклама. Erid 2W5zFJM8yKN
Т-Бизнес секреты
Как эффективно внедрять генеративный ИИ в бизнес
Как выстроить систему управления AI, выбирать кейсы для реализации и измерять результат от внедрения.
🤡10❤8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Быстрее, умнее, точнее
VK запустил RecSys Challenge — соревнование по разработке алгоритмов рекомендаций.
Участникам предстоит решить одну из самых сложных проблем рекомендательных систем: предсказать, кому зайдёт ролик, который никто ещё не видел.
В основе датасет VK-LSVD:
40 млрд взаимодействий
20 млн роликов
Формат:
Студенты, исследователи, ML-инженеры — welcome
Призовой фонд — 2 500 000 рублей 💸
Читайте подробнее и регистрируйтесь до 15 декабря на сайте соревнования.
VK запустил RecSys Challenge — соревнование по разработке алгоритмов рекомендаций.
Участникам предстоит решить одну из самых сложных проблем рекомендательных систем: предсказать, кому зайдёт ролик, который никто ещё не видел.
В основе датасет VK-LSVD:
40 млрд взаимодействий
20 млн роликов
Формат:
Студенты, исследователи, ML-инженеры — welcome
Призовой фонд — 2 500 000 рублей 💸
Читайте подробнее и регистрируйтесь до 15 декабря на сайте соревнования.
1🤡34👎10😁3🤬3🔥2
State Space Models: часть 2. Свежие (2024-2025) публикации по SSM как альтернативам/добавкам к трансформерам
Продолжая тему SSM, сначала вброшу список статеек, с которыми будет интересно ознакомиться, а в следующий раз напишу кратко основные выводы. Кому интересно полистать самому - сохраняйте себе, прекрасное чтиво на праздники.
Статьи про связь SSM и трансформеров
Две статьи с перекликающимися названиями, в которых изучается, как связаны SSM и трансформеры. Первая - еще из 2024 года:
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality - https://arxiv.org/abs/2405.21060
Вторая опубликована уже в 2025 и разбирает границы возможностей рекуррентных моделей при извлечении из контекста:
When recalling in-context, Transformers are not SSMs - https://arxiv.org/abs/2508.19029
В целом, как говорила одна моя знакомая (разумеется, работавшая эффективным менеджером): "Из этой книги я прочитала только название и мне этого достаточно". Так и тут, названия статей очень информативны, но очень советую заглянуть внутрь, там достаточно красивые вещи, особенно в первой.
Гибриды SSM+Attention в 2025
Как мы обсуждали в прошлый раз, не обязательно упарываться в чистые SSM, можно делать гибридные решения. 2025 год дал нам много примеров таких гибридных решений для насущных задач. Ниже некоторые из них.
MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Models - https://arxiv.org/abs/2503.13440
Часть слоёв декодера VLM заменяют на Mamba-2, получая ускорение и экономию памяти при сохранении качества.
MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement - https://arxiv.org/abs/2507.00966
Гибрид Mamba + MHA улучшает обобщаемость в шумоподавлении при обработке речи.
Exploring Resolution-Wise Shared Attention in Hybrid Mamba-based Speech Enhancement - https://arxiv.org/abs/2510.01958
Ещё один вариант гибрида для улучшения речи с сильной межкорпусной обобщаемостью.
HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning - https://arxiv.org/abs/2505.15703
Предсказание движения транспорта (супер важная задача для развития беспилотных автомобилей): attention-энкодер + Mamba-декодер даёт SOTA на бенчмарке Argoverse 2.
Еще несколько статей из 2024, которые все же стоит смотреть даже сейчас:
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling - https://arxiv.org/abs/2406.07522
Простая послойная гибридизация Mamba + скользящее внимание: длинный контекст и высокая эффективность.
Transformers are Better than State Space Models at Copying - https://arxiv.org/abs/2402.01032
Тут, опять-таки, все понятно из названия.
ML-Mamba: Efficient Multi-Modal Large Language Model with Mamba-2 - https://arxiv.org/abs/2407.19832
Применение Mamba-2 в мультимодальных моделях как альтернатива чистому attention.
Продолжая тему SSM, сначала вброшу список статеек, с которыми будет интересно ознакомиться, а в следующий раз напишу кратко основные выводы. Кому интересно полистать самому - сохраняйте себе, прекрасное чтиво на праздники.
Статьи про связь SSM и трансформеров
Две статьи с перекликающимися названиями, в которых изучается, как связаны SSM и трансформеры. Первая - еще из 2024 года:
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality - https://arxiv.org/abs/2405.21060
Вторая опубликована уже в 2025 и разбирает границы возможностей рекуррентных моделей при извлечении из контекста:
When recalling in-context, Transformers are not SSMs - https://arxiv.org/abs/2508.19029
В целом, как говорила одна моя знакомая (разумеется, работавшая эффективным менеджером): "Из этой книги я прочитала только название и мне этого достаточно". Так и тут, названия статей очень информативны, но очень советую заглянуть внутрь, там достаточно красивые вещи, особенно в первой.
Гибриды SSM+Attention в 2025
Как мы обсуждали в прошлый раз, не обязательно упарываться в чистые SSM, можно делать гибридные решения. 2025 год дал нам много примеров таких гибридных решений для насущных задач. Ниже некоторые из них.
MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Models - https://arxiv.org/abs/2503.13440
Часть слоёв декодера VLM заменяют на Mamba-2, получая ускорение и экономию памяти при сохранении качества.
MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement - https://arxiv.org/abs/2507.00966
Гибрид Mamba + MHA улучшает обобщаемость в шумоподавлении при обработке речи.
Exploring Resolution-Wise Shared Attention in Hybrid Mamba-based Speech Enhancement - https://arxiv.org/abs/2510.01958
Ещё один вариант гибрида для улучшения речи с сильной межкорпусной обобщаемостью.
HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning - https://arxiv.org/abs/2505.15703
Предсказание движения транспорта (супер важная задача для развития беспилотных автомобилей): attention-энкодер + Mamba-декодер даёт SOTA на бенчмарке Argoverse 2.
Еще несколько статей из 2024, которые все же стоит смотреть даже сейчас:
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling - https://arxiv.org/abs/2406.07522
Простая послойная гибридизация Mamba + скользящее внимание: длинный контекст и высокая эффективность.
Transformers are Better than State Space Models at Copying - https://arxiv.org/abs/2402.01032
Тут, опять-таки, все понятно из названия.
ML-Mamba: Efficient Multi-Modal Large Language Model with Mamba-2 - https://arxiv.org/abs/2407.19832
Применение Mamba-2 в мультимодальных моделях как альтернатива чистому attention.
arXiv.org
Transformers are SSMs: Generalized Models and Efficient Algorithms...
While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform...
👍11🔥9❤3😁2
State Space Models: часть 3. Что можно сказать сейчас.
Краткий вывод про SSM
Чистые SSM дают хорошее ускорение и вполне себе сравнимы с трансформерами по качеству работы (а где-то лучше). При этом чистые SSM хуже чем трансформеры справляются с задачей точного копирования из длинного контекста. На практике сейчас по факту лидируют гибриды SSM+Attention.
Почему это работает
Гибриды дают лучшую точность при меньших затратах, чем чистые трансформеры, при этом нужно понимать, что это не прям гибрид с трансформером, а скорее прикручивание идеи механизма внимания (с некоторыми модификациями) к SSM. Отдельный вопрос в том, что у SSM линейная ассимптотика времени работы, а у attention вследствие попарных сравнений - квадратичная, т.е. чтобы делать эффективный гибрид, хорошо бы как-то улучшить ассимптотику для аттеншена. Здесь можно провести аналогию с оптимизацией матричных операций: если вы оперируете матрицами какого-то специального вида (разреженными, диагональными, еще какими-нибудь особыми), то для того же перемножения матриц ассимптотику можно существенно улучшить. Также можно поступать и с аттеншеном, добавляемым к SSM, если добавлять дополнительные ограничения. Другой подход к гибридам - это послойные гибриды, когда где-то вы заменяете аттеншн на SSM-блоки. Тут мы не ускоряем сам аттеншн, просто используем его менее активно и получаем общее ускорение модельки.
Почему это важно
К сожалению или к счастью, не у всех компаний есть бюджет OpenAI или FAAMG на инфраструктуру для обучения своих сеток. Что делать, если железа и денег сильно меньше, чем у них? Я вижу три варианта для менеджмента AI-направлений: 1) не лезть в историю со своими собственными LLMками, 2) повторять за большими ребятами и надеяться на ускорение и удешевление вычислений в будущем, а пока это происходит - отмазываться тезисом "ну у нас же нет бюджетов OpenAI, вот поэтому и хуже работает", 3) смотреть в сторону более эффективных архитектур, которые будут менее требовательны к ресурсам, чем трансформеры, но смогут давать аналогичное качество. Основанные на SSM архитектуры выглядят как очень правдоподобные кандидаты для сценария 3.
Остается вопрос: если SSM такая классная штука, почему же все еще на нее не переехали? Об этом в следующем, заключительном посте.
Краткий вывод про SSM
Чистые SSM дают хорошее ускорение и вполне себе сравнимы с трансформерами по качеству работы (а где-то лучше). При этом чистые SSM хуже чем трансформеры справляются с задачей точного копирования из длинного контекста. На практике сейчас по факту лидируют гибриды SSM+Attention.
Почему это работает
Гибриды дают лучшую точность при меньших затратах, чем чистые трансформеры, при этом нужно понимать, что это не прям гибрид с трансформером, а скорее прикручивание идеи механизма внимания (с некоторыми модификациями) к SSM. Отдельный вопрос в том, что у SSM линейная ассимптотика времени работы, а у attention вследствие попарных сравнений - квадратичная, т.е. чтобы делать эффективный гибрид, хорошо бы как-то улучшить ассимптотику для аттеншена. Здесь можно провести аналогию с оптимизацией матричных операций: если вы оперируете матрицами какого-то специального вида (разреженными, диагональными, еще какими-нибудь особыми), то для того же перемножения матриц ассимптотику можно существенно улучшить. Также можно поступать и с аттеншеном, добавляемым к SSM, если добавлять дополнительные ограничения. Другой подход к гибридам - это послойные гибриды, когда где-то вы заменяете аттеншн на SSM-блоки. Тут мы не ускоряем сам аттеншн, просто используем его менее активно и получаем общее ускорение модельки.
Почему это важно
К сожалению или к счастью, не у всех компаний есть бюджет OpenAI или FAAMG на инфраструктуру для обучения своих сеток. Что делать, если железа и денег сильно меньше, чем у них? Я вижу три варианта для менеджмента AI-направлений: 1) не лезть в историю со своими собственными LLMками, 2) повторять за большими ребятами и надеяться на ускорение и удешевление вычислений в будущем, а пока это происходит - отмазываться тезисом "ну у нас же нет бюджетов OpenAI, вот поэтому и хуже работает", 3) смотреть в сторону более эффективных архитектур, которые будут менее требовательны к ресурсам, чем трансформеры, но смогут давать аналогичное качество. Основанные на SSM архитектуры выглядят как очень правдоподобные кандидаты для сценария 3.
Остается вопрос: если SSM такая классная штука, почему же все еще на нее не переехали? Об этом в следующем, заключительном посте.
🔥8❤4
Тренируете LLM на нескольких GPU и думаете, как масштабироваться дальше? Упираетесь в лимиты по скорости обучения или замечаете, что увеличение числа GPU не даёт нужного ускорения?
Тогда присмотритесь к LLM Scaling Week — насыщенному кейсами интенсиву от ШАДа и Яндекс Образования.
Практические лекции и семинар от инженеров команды обучения YandexGPT покажут, как они работают на GPU-кластере. Всё, чтобы без воды, с практикой, на реальных кейсах научить:
- Арифметике глубоко обучения
- Коммуникации в распределенном обучении и инференсе
- Mixture of Experts
- FP8 + Triton
- Inference challenges
Интенсив полностью бесплатный и подойдет ML и DL-инженерам, исследователям, специалистам по инфраструктуре и студентам технических вузов. Зарегистрироваться можно здесь.
Тогда присмотритесь к LLM Scaling Week — насыщенному кейсами интенсиву от ШАДа и Яндекс Образования.
Практические лекции и семинар от инженеров команды обучения YandexGPT покажут, как они работают на GPU-кластере. Всё, чтобы без воды, с практикой, на реальных кейсах научить:
- Арифметике глубоко обучения
- Коммуникации в распределенном обучении и инференсе
- Mixture of Experts
- FP8 + Triton
- Inference challenges
Интенсив полностью бесплатный и подойдет ML и DL-инженерам, исследователям, специалистам по инфраструктуре и студентам технических вузов. Зарегистрироваться можно здесь.
❤6👍4👎2
Про выступления перед большими боссами
У всех нас, кроме совсем уж свободных предпринимателей (не имеющих ни инвесторов, ни даже якорного заказчика), есть боссы. Если вы топ - это CEO и совет директоров, если вы CEO - это совет директоров и акционеры, если вы акционер крупного холдинга - это представители власти, достаточно высоко стоящие в понятийном табеле о рангах. Если вы стартапер - у вас есть инвесторы, а если вы инвестируете не свои деньги, например, у вас целый фонд, то есть инвесторы, которые дают деньги в управление вам. В итоге, кем бы вы ни были, от джуна до олигарха - у вас периодически будет возникать задача "доклад высокому начальству".
Каждый раз в карьере, когда я с этой задачей сталкивался, я нет-нет, да и слышал от своего непосредственного руководителя: "это они не поймут, это слишком сложно, это убери". Меня всегда коробило - почему это вы тут говорите о боссах, как о ком-то не слишком умном, они же каким-то образом стали боссами, это часто очень прошаренные люди. И часто это подтверждалось в личных разговорах с биг боссами - запросто могло оказаться, что биг босс шарит за мою достаточно узкопрофессиональную тему побольше некоторых боссов поменьше :)
Но постепенно на меня снизошло понимание, как это работает. Дело не в том, что большое начальство что-то не понимает или не может понять (хотя такой фактор тоже есть, т.к. мы не можем быть экспертами во всем и нужно уметь говорить с людьми на их языке). Ключевая особенность биг боссов - они очень дорожат своим временем, потому что оно правда очень дорого стоит. Поэтому, когда им непонятно, они часто не задают кучу вопросов и разбираются (как например Косыгин, когда академик Журавлев в молодости придумал метод поиска месторождений золота африканского типа - см. стр.1-2), а просто раздражаются. Потому что время ушло, а результата не получилось.
Теперь я сам часто замечаю за собой эти фразы: "это убрать", "это не поймут", "это не нужно", когда материал готовится для аудитории биг боссов (например, в лекции для каких-нибудь матерых экзекьютивов или где в аудитории будет сидеть крупный акционер). Я конечно продолжаю в силу природного азарта заигрывать с тем, что акционеры люди очень умные и с ними можно уйти в дискуссии на глубину. Но т.к. экзеки иногда бледнеют, когда понимают, что начинается, и как высоко вырастают риски (на фоне обычного "что-то поговорили, что-то послушали, проект решения - принять к сведению"), я все же стараюсь черезчур не усердствовать с интерактивами у биг боссов.
Можно было бы сказать, что как-то это все грустно, драйва ж меньше от поллиткорректности. А вот смотря где его искать. Когда ко мне приходит индивидуально пообщаться про AI какой-нибудь топ, у нас нет свидетелей нашего диалога, кроме записи в зуме, а человеку реально интересно, я чувствую и драйв и искреннюю радость, что политес политесом, а все мы живые люди, у которых еще не атрофировалось любопытство и живой интерес к новому. Всего-то нужны правильные обстоятельства, причины, и атмосфера встречи, а то будут не те details не тот fabric :)
Вывод? Вывод простой, вместо того, чтобы дуть против ветра, можно искать места турбулентности и получать драйв там. А там, где культура уже сложилась, просто принять ее как данность и сэкономить время всем.
У всех нас, кроме совсем уж свободных предпринимателей (не имеющих ни инвесторов, ни даже якорного заказчика), есть боссы. Если вы топ - это CEO и совет директоров, если вы CEO - это совет директоров и акционеры, если вы акционер крупного холдинга - это представители власти, достаточно высоко стоящие в понятийном табеле о рангах. Если вы стартапер - у вас есть инвесторы, а если вы инвестируете не свои деньги, например, у вас целый фонд, то есть инвесторы, которые дают деньги в управление вам. В итоге, кем бы вы ни были, от джуна до олигарха - у вас периодически будет возникать задача "доклад высокому начальству".
Каждый раз в карьере, когда я с этой задачей сталкивался, я нет-нет, да и слышал от своего непосредственного руководителя: "это они не поймут, это слишком сложно, это убери". Меня всегда коробило - почему это вы тут говорите о боссах, как о ком-то не слишком умном, они же каким-то образом стали боссами, это часто очень прошаренные люди. И часто это подтверждалось в личных разговорах с биг боссами - запросто могло оказаться, что биг босс шарит за мою достаточно узкопрофессиональную тему побольше некоторых боссов поменьше :)
Но постепенно на меня снизошло понимание, как это работает. Дело не в том, что большое начальство что-то не понимает или не может понять (хотя такой фактор тоже есть, т.к. мы не можем быть экспертами во всем и нужно уметь говорить с людьми на их языке). Ключевая особенность биг боссов - они очень дорожат своим временем, потому что оно правда очень дорого стоит. Поэтому, когда им непонятно, они часто не задают кучу вопросов и разбираются (как например Косыгин, когда академик Журавлев в молодости придумал метод поиска месторождений золота африканского типа - см. стр.1-2), а просто раздражаются. Потому что время ушло, а результата не получилось.
Теперь я сам часто замечаю за собой эти фразы: "это убрать", "это не поймут", "это не нужно", когда материал готовится для аудитории биг боссов (например, в лекции для каких-нибудь матерых экзекьютивов или где в аудитории будет сидеть крупный акционер). Я конечно продолжаю в силу природного азарта заигрывать с тем, что акционеры люди очень умные и с ними можно уйти в дискуссии на глубину. Но т.к. экзеки иногда бледнеют, когда понимают, что начинается, и как высоко вырастают риски (на фоне обычного "что-то поговорили, что-то послушали, проект решения - принять к сведению"), я все же стараюсь черезчур не усердствовать с интерактивами у биг боссов.
Можно было бы сказать, что как-то это все грустно, драйва ж меньше от поллиткорректности. А вот смотря где его искать. Когда ко мне приходит индивидуально пообщаться про AI какой-нибудь топ, у нас нет свидетелей нашего диалога, кроме записи в зуме, а человеку реально интересно, я чувствую и драйв и искреннюю радость, что политес политесом, а все мы живые люди, у которых еще не атрофировалось любопытство и живой интерес к новому. Всего-то нужны правильные обстоятельства, причины, и атмосфера встречи, а то будут не те details не тот fabric :)
Вывод? Вывод простой, вместо того, чтобы дуть против ветра, можно искать места турбулентности и получать драйв там. А там, где культура уже сложилась, просто принять ее как данность и сэкономить время всем.
2❤45👍28💯11🤬1
Если у вас уже есть рабочий прототип или MVP, и вы хотите встроить GigaChat в продукт, самое время податься в AI-трек акселератора Sber500 × GigaChat — открыт набор на вторую волну.
В онлайн-буткемп проходят все команды, которые предложат реалистичные сценарии использования GigaChat, а лучшие 50 проектов продолжат акселерацию с международными менторами Sber500 и технической командой GigaChat.
В буткемпе можно будет получить:
⏱️Сроки близкие: 1–15 ноября — окно кампании, чем раньше подадитесь, тем лучше. Подача заявки — по ссылке ниже, дальше короткий отбор на буткемп и сразу к делу: сценарии, интеграция, метрики, готовность к пилотам.
🔥🔥🔥Участие бесплатное!🔥🔥🔥
👉 Подать заявку по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡24🔥8❤6👍6👎3
Воскресный оффтоп: про загоны вида «кто я, что я из себя представляю, чем хочу дальше заниматься» и тому подобное
Самые противные, но при этом очень важные периоды жизни - кризисы идентичности в моменты важных изменений в жизни.
Ушли из найма предпринимательство? Или наоборот из своего дела в корпорацию к начальнику, который, как оказалось, вам ездит теперь по мозгам как хочет? Завели семью и уже не хотите сливать всю жизнь в работу? Или будучи очень миролюбивым внезапно стали боссом в агрессивной бизнес-среде, и теперь вынужденно смиряетесь с тем, что если дружить со всеми, вас съедят первым? Во всех таких случаях перемены достаточно сильные, чтобы ваше прошлое представление о себе могло стать не актуальным.
В чем подвох, так это в том, что мы не то чтобы привыкли детально осознавать свое эмоциональное состояние. Может вы думали, что любили старую работу за удобное рабочее место и интересных коллег, а потом уволились, и как-то никакой тоски ни по одному, ни по другому. А вот например то, что перед корешами больше не сделать грудь колесом, что развиваете сервис, которым все они пользуются, это подкосило. Как будто какая-то опора внутри пропала. А у кого-то наоборот окажется, что дело не было в продукте, а в коллективе, но итог будет тот же: внутренняя пустота после.
Или другой пример: начинаете наконец время с близкими проводить (к чему может быть триггером чья-то болезнь, получение большого бонуса и уход с работы или просто так получилось), и как ледяной водой обдает - на что ж годы жизни по 60-80 рабочих часов в неделе ушли. Быстро осознаешь, что родители уже успели состариться, друзей стало заметно меньше и вообще страшно подумать, сколько человеческого упущено.
И вот в этой внезапности открытий кроется первый неприятный момент. Можно было бы уже сто раз понять, где будет больно, и где какие опоры у прошлого «я», но нет, все это мы обычно выясняем на практике. Второй неприятный момент в том, что пока испытываешь боль от потерянных старых опор, еще ищешь новое «я», а не знаешь уже точно, что же будешь делать дальше с пошаговым планом. Даже если план изначально был, все равно реальные переживания от проживаемого кризиса накладывают отпечаток.
Лично меня максимально раздражает период, когда новая система координат еще продолжает формироваться, новые цели еще уточняются, а действовать уже хочется. Такое гнетущее чувство неудовлетворенности тем, что мыслей много, а дела как-то поменьше. Похоже на сжимание пружины: хочется уже выстрелить, но пока продолжаешь накапливать потенциальную энергию.
С другой стороны, такой кризис это потрясающее время. Ощущения примерно как пишешь-пишешь код, копишь сделанные наскоро штуки, а потом наконец-то выделили время на рефакторинг, и наконец-то наводишь порядок, как уже давно хотелось. Т.е. время, легально выделенное на то, чтобы дальше жить в большем порядке, в большей эстетике и в большем удовлетворении.
Самое главное, что такой кризис идентичности это путь из состояния апатии и усталости в состояние полной противоположности апатии: возможность и желание делать много и целеустремленно. Я все больше склоняюсь к мысли, что часто то, что мы принимаем за выгорание, усталость или лень это просто потеря актуальности старых целей. Когда видишь, что романтика прошлых мечт и стремлений была всего лишь розовыми очками, когда видишь бессмысленность и искусственность, когда каждый день становится не только как день сурка, но как бессмысленный день сурка, дело не в лени :) Дело всего лишь в том, что вы уже изменились, а то, что вы делаете каждый день - нет. И нужно просто набраться мужества это исправить и пойти за новыми смыслами.
Самые противные, но при этом очень важные периоды жизни - кризисы идентичности в моменты важных изменений в жизни.
Ушли из найма предпринимательство? Или наоборот из своего дела в корпорацию к начальнику, который, как оказалось, вам ездит теперь по мозгам как хочет? Завели семью и уже не хотите сливать всю жизнь в работу? Или будучи очень миролюбивым внезапно стали боссом в агрессивной бизнес-среде, и теперь вынужденно смиряетесь с тем, что если дружить со всеми, вас съедят первым? Во всех таких случаях перемены достаточно сильные, чтобы ваше прошлое представление о себе могло стать не актуальным.
В чем подвох, так это в том, что мы не то чтобы привыкли детально осознавать свое эмоциональное состояние. Может вы думали, что любили старую работу за удобное рабочее место и интересных коллег, а потом уволились, и как-то никакой тоски ни по одному, ни по другому. А вот например то, что перед корешами больше не сделать грудь колесом, что развиваете сервис, которым все они пользуются, это подкосило. Как будто какая-то опора внутри пропала. А у кого-то наоборот окажется, что дело не было в продукте, а в коллективе, но итог будет тот же: внутренняя пустота после.
Или другой пример: начинаете наконец время с близкими проводить (к чему может быть триггером чья-то болезнь, получение большого бонуса и уход с работы или просто так получилось), и как ледяной водой обдает - на что ж годы жизни по 60-80 рабочих часов в неделе ушли. Быстро осознаешь, что родители уже успели состариться, друзей стало заметно меньше и вообще страшно подумать, сколько человеческого упущено.
И вот в этой внезапности открытий кроется первый неприятный момент. Можно было бы уже сто раз понять, где будет больно, и где какие опоры у прошлого «я», но нет, все это мы обычно выясняем на практике. Второй неприятный момент в том, что пока испытываешь боль от потерянных старых опор, еще ищешь новое «я», а не знаешь уже точно, что же будешь делать дальше с пошаговым планом. Даже если план изначально был, все равно реальные переживания от проживаемого кризиса накладывают отпечаток.
Лично меня максимально раздражает период, когда новая система координат еще продолжает формироваться, новые цели еще уточняются, а действовать уже хочется. Такое гнетущее чувство неудовлетворенности тем, что мыслей много, а дела как-то поменьше. Похоже на сжимание пружины: хочется уже выстрелить, но пока продолжаешь накапливать потенциальную энергию.
С другой стороны, такой кризис это потрясающее время. Ощущения примерно как пишешь-пишешь код, копишь сделанные наскоро штуки, а потом наконец-то выделили время на рефакторинг, и наконец-то наводишь порядок, как уже давно хотелось. Т.е. время, легально выделенное на то, чтобы дальше жить в большем порядке, в большей эстетике и в большем удовлетворении.
Самое главное, что такой кризис идентичности это путь из состояния апатии и усталости в состояние полной противоположности апатии: возможность и желание делать много и целеустремленно. Я все больше склоняюсь к мысли, что часто то, что мы принимаем за выгорание, усталость или лень это просто потеря актуальности старых целей. Когда видишь, что романтика прошлых мечт и стремлений была всего лишь розовыми очками, когда видишь бессмысленность и искусственность, когда каждый день становится не только как день сурка, но как бессмысленный день сурка, дело не в лени :) Дело всего лишь в том, что вы уже изменились, а то, что вы делаете каждый день - нет. И нужно просто набраться мужества это исправить и пойти за новыми смыслами.
❤109👍28🔥11💯8🤔6
SSM часть 4: почему все еще не переехали?
Вопрос из разряда «если вы такие умные, почему вы такие бедные»: если гибриды SSM так хороши, почему пока что все не переехали с трансформеров на них?
Короткий ответ: гибриды перспективны, но переезд всего стека у топ-игроков - дорогой и рискованный проект, плюс для трансформеров так-то тоже есть подходы к оптимизации.
Чуть подробнее:
1) Самый банальный довод - бюджет уже сделан под текущую технологию 🙂 Вопрос, зачем заморачиваться, открыт. Проблема из разряда "нам итак хорошо"
2) Переобучить модели с нуля на триллионах токенов + заново прогнать RLHF и остальные важные штуки - десятки миллионов американских рублей и месяцы GPU-времени.
3) Риск деградации пользовательского опыта: одно узкое ухудшение работы (retrieval, копирование, точные форматы) может стоить конверсии и NPS больше, чем выигрыш в $/токен.
4) В трансформерах рецепт применения известен и подход максимально изучен: стабильность обучения, скейлинг-законы, MoE-паттерны, дистилляция, квантование, спекулятивная/параллельная декодировка - всё отлажено. Гибриды моложе: лучшие практики (какие слои делать SSM, как инициализировать, где оставлять attention, как дистиллировать) ещё уточняются.
5) Инфра и инструменты уже сильно заточены под трансформеры. Индустрия сильно оптимизировала KV-кэш (paged KV, continuous batching), а у SSM другие узкие места. Для квантования в attention-блоках тоже куча стандартных решений, в SSM еще учимся и сравниваем подходы. На уровне железа CUDA/Triton/TVM/Inductor уже агрессивно оптимизируют attention-паттерны, для SSM еще предстоит пройти этот путь.
6) Не забываем про качество: SSM традиционно слабее в точном копировании и адресном извлечении из длинного контекста. Гибриды это чинят, но бизнес в целом не любит частое попадание в граничные условия, где модель ведёт себя иначе.
7) Сравнимость моделей: у компаний есть микро- и макро-модели (от 1B до 400B), open/closed, MoE-ветки. Массовый переход мешает сравнимости поколений и бенчмарков.
8 ) Трансформеры тоже можно оптимизировать: FlashAttention, paged KV, continuous batching, speculative decoding, MoE, сжатие/квантование - всё это уже даёт 2-10х экономии без радикальной замены трансформеров на новую архитектуру
В сухом остатке - переезд хуже чем два пожара, потому и не переезжаем. Что интересно, доводы выше применимы к большинству "убийц трансформеров", так что по большому счету они не сильно SSM-специфичны, а это просто проблемы примерно любого переезда.
Вопрос из разряда «если вы такие умные, почему вы такие бедные»: если гибриды SSM так хороши, почему пока что все не переехали с трансформеров на них?
Короткий ответ: гибриды перспективны, но переезд всего стека у топ-игроков - дорогой и рискованный проект, плюс для трансформеров так-то тоже есть подходы к оптимизации.
Чуть подробнее:
1) Самый банальный довод - бюджет уже сделан под текущую технологию 🙂 Вопрос, зачем заморачиваться, открыт. Проблема из разряда "нам итак хорошо"
2) Переобучить модели с нуля на триллионах токенов + заново прогнать RLHF и остальные важные штуки - десятки миллионов американских рублей и месяцы GPU-времени.
3) Риск деградации пользовательского опыта: одно узкое ухудшение работы (retrieval, копирование, точные форматы) может стоить конверсии и NPS больше, чем выигрыш в $/токен.
4) В трансформерах рецепт применения известен и подход максимально изучен: стабильность обучения, скейлинг-законы, MoE-паттерны, дистилляция, квантование, спекулятивная/параллельная декодировка - всё отлажено. Гибриды моложе: лучшие практики (какие слои делать SSM, как инициализировать, где оставлять attention, как дистиллировать) ещё уточняются.
5) Инфра и инструменты уже сильно заточены под трансформеры. Индустрия сильно оптимизировала KV-кэш (paged KV, continuous batching), а у SSM другие узкие места. Для квантования в attention-блоках тоже куча стандартных решений, в SSM еще учимся и сравниваем подходы. На уровне железа CUDA/Triton/TVM/Inductor уже агрессивно оптимизируют attention-паттерны, для SSM еще предстоит пройти этот путь.
6) Не забываем про качество: SSM традиционно слабее в точном копировании и адресном извлечении из длинного контекста. Гибриды это чинят, но бизнес в целом не любит частое попадание в граничные условия, где модель ведёт себя иначе.
7) Сравнимость моделей: у компаний есть микро- и макро-модели (от 1B до 400B), open/closed, MoE-ветки. Массовый переход мешает сравнимости поколений и бенчмарков.
8 ) Трансформеры тоже можно оптимизировать: FlashAttention, paged KV, continuous batching, speculative decoding, MoE, сжатие/квантование - всё это уже даёт 2-10х экономии без радикальной замены трансформеров на новую архитектуру
В сухом остатке - переезд хуже чем два пожара, потому и не переезжаем. Что интересно, доводы выше применимы к большинству "убийц трансформеров", так что по большому счету они не сильно SSM-специфичны, а это просто проблемы примерно любого переезда.
👍14❤5🔥2🤡2👎1
Ловите инструкцию, как безопасно работать с AI 📎
Сегодня компании все активнее внедряют AI и ML в свои процессы, но ошибки в настройках или незнание специфики моделей могут привести к серьезным инцидентам.
Недавно провайдер Cloud.ru запустил облачную среду для работы с AI&ML — Evolution AI Factory, а сейчас делится гайдом — «Защищенный AI в облаке: как избежать киберугроз».
Внутри инструкции:
😶🌫️ как интегрировать GenAI в облако без риска
😶🌫️ как настроить безопасность AI‑сервисов
😶🌫️ как осуществить контроль доступа и логирование
Забрать гайд уже можно по ссылке
Сегодня компании все активнее внедряют AI и ML в свои процессы, но ошибки в настройках или незнание специфики моделей могут привести к серьезным инцидентам.
Недавно провайдер Cloud.ru запустил облачную среду для работы с AI&ML — Evolution AI Factory, а сейчас делится гайдом — «Защищенный AI в облаке: как избежать киберугроз».
Внутри инструкции:
Забрать гайд уже можно по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5🤬4🔥3🤔1
Эндрю Ын (тот самый профессор Стенфорда, автор курсов по ML на Coursera и собственно основатель Coursera) поделился потрясающей историей про один очень недооцененный вредный эффект хайпа вокруг AI:
И в самом деле, пока менеджеры и предприниматели растят presentation gap во имя инвестиций и роста оценок компаний, молодое поколение это слушает и очень может быть, что верит. И мало того, что испытывает повышенную тревогу насчет будущего, еще и может не идти в AI, просто опасаясь оказаться уже не нужными, ведь AGI уже рядом, не успеешь даже диплом получить. А подстава в том, что сфера AI как раз наоборот очень требовательна к большому количеству приходящих в нее умных людей со свежим взглядом на задачи и молодыми работоспособными мозгами.
Недавно я получил электронное письмо под названием «Дилемма 18-летнего: слишком поздно вносить вклад в ИИ?» Её автор, который дал мне разрешение поделиться этим, готовится к поступлению в колледж. Он боится, что к моменту выпуска ИИ будет настолько хорош, что у него не останется какой-то значимой работы, чтобы внести вклад в человечество, и он будет жить на универсальный базовый доход (UBI). Я ответил ему, чтобы успокоить его, что у него будет много работы ещё десятилетиями, и призвал его усердно работать и учиться строить с помощью ИИ. Но этот разговор показался мне примером того, насколько вреден хайп вокруг ИИ.
И в самом деле, пока менеджеры и предприниматели растят presentation gap во имя инвестиций и роста оценок компаний, молодое поколение это слушает и очень может быть, что верит. И мало того, что испытывает повышенную тревогу насчет будущего, еще и может не идти в AI, просто опасаясь оказаться уже не нужными, ведь AGI уже рядом, не успеешь даже диплом получить. А подстава в том, что сфера AI как раз наоборот очень требовательна к большому количеству приходящих в нее умных людей со свежим взглядом на задачи и молодыми работоспособными мозгами.
👍70❤22🤯8😁4🤡1
Про эмпирическое в Data Science
Публикую с разрешения собеседника, ссылка на приведший его к вопросу пост в фейсбуке: https://www.facebook.com/share/1BRxwSac7f/
Публикую с разрешения собеседника, ссылка на приведший его к вопросу пост в фейсбуке: https://www.facebook.com/share/1BRxwSac7f/
😁51🔥29👍6❤4💯2
В субботу в весьма солидной компании участвую в дискуссии про ИИ на конференции выпускников МФТИ в Долгопрудном. Приходите послушать:
🔥7❤5🤯2👌1
Начинаем подробнее рассказывать о том, что вас ждет на «Конференции выпускников МФТИ»!✅
Секция «Искусственный интеллект» объединит топовых спикеров из ведущих компаний и научных центров, которые создают и внедряют фронтирные ИИ-разработки.
Вместе мы обсудим как ИИ меняет компании и целые отрасли, и что делать для того, чтобы оставаться лидером на рынке.🚀
Приходите и задайте вопросы ведущим экспертам по ИИ в России!
Спикеры секции ИИ:
🔵 Азамат Жилоков (ИИИ МФТИ) – модератор секции
🔵 Иван Оселедец (AIRI)
🔵 Иван Гуз (Авито)
🔵 Виктор Кантор (MLinside)
🔵 Сергей Казанцев (Полюс)
🔵 Александр Безносиков (ИИИ МФТИ, ИСП РАН)
Ждём вас на Конференции выпускников МФТИ 2025!
🌱 Когда: 22 ноября
🌱 Где: Главный корпус МФТИ
Секция «Искусственный интеллект» объединит топовых спикеров из ведущих компаний и научных центров, которые создают и внедряют фронтирные ИИ-разработки.
Вместе мы обсудим как ИИ меняет компании и целые отрасли, и что делать для того, чтобы оставаться лидером на рынке.
Приходите и задайте вопросы ведущим экспертам по ИИ в России!
Спикеры секции ИИ:
Ждём вас на Конференции выпускников МФТИ 2025!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15❤8🎉6🏆3